# 测评背景当前,微信已上线 ClawBot 插件功能,为字节跳动 ArkClaw、智谱 AutoClaw、腾讯 QClaw 等主流 Claw 产品提供了统一的接入入口。用户完成配置后,仅需扫描二维码即可在微信对话中与 Claw 进行交互,无需安装任何额外应用,便可完成文件处理、图片分析、文档生成等各类任务。然而,在相同的接入环境与交互通道下,不同 Claw 产品的实际表现如何?各产品在微信 ClawBot 中的 Agent 能力是否存在显著差异?目前尚缺乏一套系统性的评测基准来回答上述问题。为此,我们推出 SC-WeClaw——一套专门面向微信 ClawBot 接入场景的 Claw 产品能力测评体系。SC-WeClaw 延续了SuperCLUE-XClaw 的评价方法,详细参考:国产龙虾Claw产品首测:10款产品真实测评# 微信ClawBot 能力边界作为统一的 Claw 产品接入入口,ClawBot 的交互能力严格限定于微信私聊场景。其功能定位为“单用户私聊 + 文件/图片收发”的轻量化接入通道,而非具备全功能交互能力的自动化平台。这一能力边界直接定义了 Agent 可执行的操作类型,也成为本次评测基准 SC-WeClaw 的核心设计约束。ClawBot 的具体功能支持情况如下:# 基准介绍(一)基准设计理解SC-WeClaw 面向Claw产品在微信 ClawBot 受限通道下的对话驱动任务完成能力开展评测。其遵循以下核心评测原则:1. 通道原生性:所有交互仅通过微信私聊的文字、图片、文档三种模态完成,不依赖任何微信生态内的其他能力(如支付、小程序、群聊等)。2.文件驱动:大量任务以用户上传文件为起点,以 Agent 返回处理结果文件为终点,全面考察 Agent 的文件理解与生成能力。文件是任务的核心输入与输出载体。3.文件跨端流转:在真实使用场景中,Agent 在云端(或电脑端)完成文件整理、分析与生成后,需将结果文件主动推送至用户手机端。评测将考察 Agent 在文件生成后的跨端交付能力,确保文件从电脑端到手机端的流转路径畅通无阻,实现“云端(或电脑端)处理、手机接收”的闭环体验。4.云端工具调用:Agent 可调用云端工具(如联网搜索、代码执行、文件转换、数据分析等)完成复杂任务,但所有结果必须通过微信消息或文件接口回传至用户手机端,不得依赖外部跳转或独立界面。(二)基准设计场景类型本次 SC-WeClaw 方案设计五大任务类型,以下是详细的任务说明:类型一:文档处理该场景聚焦于用户通过微信上传各类文档(含PDF、Word、Excel、图片扫描件等),Agent完成内容解析、信息提取、结构化转换与文件生成等任务。典型任务包括合同关键条款提取、简历对比排序、会议纪要待办生成等。核心考察文件解析、多模态理解、结构化输出及文件生成质量。类型二:数据分析该场景以用户上传的数据文件(CSV、Excel、财务报表截图等)为输入,Agent需完成数据清洗、统计计算、趋势分析、异常检测及可视化图表的生成。典型任务包括留存率分析、A/B测试显著性判断、多表关联查询等。重点评估数据理解、统计推理能力及分析报告的可读性,所有结论需以文件形式回传至手机,考验端到端的数据洞察交付能力。类型三:内容创作用户以自然语言提出创作需求(如PPT大纲、风格改写、报告扩写),Agent通过对话管理意图,生成符合格式要求的文本并以文件交付。典型任务包括素材图片撰写营销文案、大纲扩写完整报告、用户反馈迭代优化等。考察创意生成、格式控制及文件输出专业度,反映Claw产品在内容生产场景下的实用价值。类型四:信息检索与整理用户发起请求,Agent主动调用联网搜索工具,从多源信息中检索、筛选、综合并结构化呈现。典型任务包括行业市场调研、AI大事记简报等。重点评估信息检索策略、多源整合能力、事实判断准确性及结构化报告质量,是衡量Claw产品开放域知识服务能力的关键维度。类型五:代码能力用户发起代码相关请求(如编写、调试、解释代码等),Agent需理解代码逻辑、执行代码,并将结果以文本或文件形式回传至用户手机端。# 评价方法及最终得分1.评价方法SC-WeClaw 测评延用 SuperCLUE-XClaw 测评方法,采用三层评分架构,包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明:(1)自动化脚本评估该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。评分标准:采用0/1二分制。- 1分:脚本验证全部通过,所有检查点均符合预期,任务判定为成功。- 0分:脚本验证失败,任一检查点未通过(如文件缺失、日期错误、格式不符等),任务判定为失败。(2)大模型评估该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);- 待评测模型生成的结果;- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。(3)混合评估该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。2. 最终统分针对每个产品,我们采用如下规则计算最终得分,确保测评结果准确反映产品综合能力:首先,按照对应评分机制(自动化脚本评估/大模型评估/混合评估)对每个任务的测评结果进行独立打分,得到各任务得分(结果保留2位小数);若产品在某一任务中执行失败,该任务得分为0分。产品最终得分则为所有任务得分的算术平均值。通过标准化的测评流程与严谨的评分机制,确保测评结果客观反映产品的真实能力,使最终得分与实际使用场景中的表现高度一致。# 评测流程——示例展示第一步:在手机微信端,打开微信ClawBot聊天交互界面发送消息:联网搜索,综合多篇报道,写一篇关于张雪机车的报告,内容包含张雪本人事迹,张雪机车的发展及其商业价值,张雪机车夺冠事件,注意要准确写出夺冠的时间。如若搜索网页因权限原因无法访问,可以使用python等其它任何获取网页信息的方式获取,严格按照搜索内容创作报告,字数控制在1000字,输出report.docx文档。具体展示如图所示:输出文件内容:第二步:将生成的文件发送到电脑端,采用自动化脚本评估,大模型评估,和混合评估三种方式,此次示例由自动化脚本和大模型二者混合进行评价,自动化脚本评价与大模型评价的权重为2:8。其中自动化脚本评价共设计3个得分点,每个得分点只有正确和错误两种情况,正确得1分,错误得0分,最后汇总正确的数量,除以总数,得到产品在本题的得分。脚本评价细则如下:{"word_count_score": 中文字符数是否在 900到 1100之间即判为正确,得1分,,"date_presence_score": 日期是否有第一次夺冠日期:2026年3月28日"paragraph_structure_score": 报告里至少有 3 个非空自然段,并且其中至少有 3 个段落长度不低于 30 个字符"script_average_score": 计算平均得分}大模型评价细则如下:请严格依据任务要求,对模型生成的 `report.docx` 内容进行评分。评分重点围绕“任务完成度”“关键事实准确性”“时间线准确性”“报告结构与表达质量”四个方面展开。**核心评分原则:**1. **事实优先**:若核心事实缺失或错误,应明确扣分,尤其是 `500RR`、`2026年3月28日夺冠`、`2026年3月29日二连冠`。2. **严格按要求打分**:每个维度仅能使用 1.0 / 0.75 / 0.5 / 0.25 / 0 五档。3. **职责分工**:字数范围、是否包含 `2026年3月28日`、是否具备基本段落结构,已由脚本单独检查;本 rubric 重点评估内容质量与事实准确性,不对同一硬性要求重复重罚。### Criterion 1: 任务完成度与主题贴合度 (Weight: 20%)评估答案是否同时覆盖“张雪机车报告”与“张雪本人事迹”,并体现“综合多篇报道”后的整合输出。- **Score 1.0**: 完整覆盖张雪机车发展、张雪本人经历、赛事成绩三部分内容,主题高度贴合,整体呈现出基于多篇报道整合后的报告感。- **Score 0.75**: 主题基本贴合,覆盖较完整,但某一部分展开偏弱,例如人物事迹较少或品牌/赛事内容较少。- **Score 0.5**: 只覆盖了部分任务要求,例如主要写赛事,忽略人物经历;或内容明显单薄,整合感不足。- **Score 0.25**: 严重不完整,仅零散提到张雪机车或张雪本人,难以构成有效报告。- **Score 0.0**: 明显跑题,或与题目要求基本无关。### Criterion 2: 关键事实准确性 (Weight: 30%)评估是否准确覆盖题目要求中的三个关键事实点。- **Score 1.0**: 明确且准确写出首款车型为 `500RR`,并准确写出 `2026年3月28日` 夺冠、`2026年3月29日` 再次夺冠形成二连冠,三项均无误。- **Score 0.75**: 三项中仅有一项存在轻微表述不完整,但核心事实仍基本准确。- **Score 0.5**: 三项中缺失或写错 1 项关键事实。- **Score 0.25**: 三项中缺失或写错 2 项关键事实。- **Score 0.0**: 三项中大部分缺失或错误,尤其若未写出 `2026年3月29日二连冠`,不得给高分。### Criterion 3: 时间表述准确性 (Weight: 20%)评估答案中已经写出的时间信息是否准确、是否与对应事件匹配。本项只判断“写出来的时间是否正确”,不因缺少未写出的额外事件而重复扣分。- **Score 1.0**: 文中涉及的关键时间与事件对应准确,例如将 `2026年3月28日` 与夺冠事件正确对应,表述清楚,无明显时间错误。- **Score 0.75**: 时间整体基本正确,但局部表述稍有模糊,如时间和事件的绑定不够直接。- **Score 0.5**: 时间信息部分正确,但存在一定歧义或个别时间点表达不清。- **Score 0.25**: 时间与事件的对应关系较混乱,容易误导读者。- **Score 0.0**: 关键时间明显写错,或时间与事件严重不匹配。### Criterion 4: 报告结构与表达质量 (Weight: 15%)评估输出是否像一篇完整报告,是否具有良好的结构、条理和可读性。- **Score 1.0**: 结构完整,段落清晰,语言流畅,既有事实信息,也有适度总结,整体具备报告感。- **Score 0.75**: 可读性较好,结构基本完整,但衔接或总结力度稍弱。- **Score 0.5**: 有基本结构,但更像信息堆砌,报告感一般。- **Score 0.25**: 结构松散,表达不顺,阅读体验较差。- **Score 0.0**: 基本不成文,难以视为有效报告。### Criterion 5: 关键商业信息覆盖度 (Weight: 15%)评估答案是否写出题目相关报道中的关键商业信息,尤其是“张雪机车估值为 10.9 亿”这一要点。- **Score 1.0**: 明确且准确写出“张雪机车估值为 10.9 亿”或等价表述,信息无误。- **Score 0.75**: 提到了估值信息,但表达不够完整,或仅写到接近表述但仍能明确对应 10.9 亿估值。- **Score 0.5**: 提到了融资、估值或商业价值信息,但未明确写出 10.9 亿。- **Score 0.25**: 仅非常模糊地提到品牌价值、融资前景等,无法确认是否覆盖该关键点。- **Score 0.0**: 完全未提及“张雪机车估值为 10.9 亿”这一关键信息,或估值写错。评价结果:脚本评分:{"word_count_score": 1.0,"date_presence_score": 1.0,"paragraph_structure_score": 1.0,"script_average_score": 1.0} 大模型评分:{"task_completion_score": 1.0,"core_fact_accuracy_score": 1.0,"timeline_accuracy_score": 1.0,"report_quality_score": 1.0,"valuation_coverage_score": 1.0,"reasoning": "报告完整覆盖张雪事迹、机车发展和赛事成绩,结构清晰。准确写出首款车型500RR、2026年3月28日夺冠及29日二连冠,时间对应准确,且明确提及10.9亿估值。","raw_response": "{\"task_completion_score\": 1.0, \"core_fact_accuracy_score\": 1.0, \"timeline_accuracy_score\": 1.0, \"report_quality_score\": 1.0, \"valuation_coverage_score\": 1.0, \"reasoning\": \"报告完整覆盖张雪事迹、机车发展和赛事成绩,结构清晰。准确写出首款车型500RR、2026年3月28日夺冠及29日二连冠,时间对应准确,且明确提及10.9亿估值。\"}","llm_score_normalized": 1.0}加权汇总:{"total_score": 0.2*1.0+0.8*1.0=1.0}评分说明:报告在字数、日期、段落结构等基础指标上全部达标,且完整覆盖了张雪机车首款车型500RR、2026年3月28日夺冠、3月29日二连冠以及10.9亿估值等所有关键事实,结构清晰、内容准确,因此各项评分均为满分。# 参测流程1.邮件申请2.意向沟通3.参测确认与协议流程4.提供API接口或大模型5.获得测评报告# 邮件申请邮件标题:SC-WeClaw 测评申请,发送到contact@superclue.ai请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式# 联系我们