产业观察产业数字化管理平台
Future Tech | 让AI创业落地生根,4月9日跟随云启资本穿透科技投资新动能!即刻抢座→

✨ 我们不止见证未来,更亲手创造未来。加入Future Tech,一起成为AI生态的共建者!商务合作电话:18916774616初创咨询电话:18116252338WAIC Future Tech知识库上线啦!这是我们围绕AI创新生态打造的核心内容资产,持续收录全球AI创新项目与投资人一线洞察。同时,这里也汇集了我们全年最完整的活动信息与最新动态——从创投路演、AI奇点说、创投聚会到AI私董会,将持续更新。如果你想看见AI正在发生什么,或者参与其中,可以从这里开始?关于WAIC Future TechWAIC Future Tech是世界人工智能大会的官方全球创新平台,致力于连接全球最具潜力的早期人工智能初创企业与投资者、产业界及人才。通过不间断的路演活动、投融资精准对接和产业交流网络,着力解决早期创新者面临的核心挑战——曝光不足、融资困难与商业化落地难。每年在WAIC大会期间举办的旗舰展示活动,汇聚了数百家来自全球的精选初创企业。依托WAIC的生态系统,Future Tech独特地融合了全球影响力、全周期支持平台和充满活力的青年驱动社区,将前沿创意转化为真实世界的影响力。加入我们,与下一代AI先锋建立连接。点击阅读原文查看WAIC 2025精彩!

来源:世界人工智能大会发布时间:2026-04-02
AI 资本大转向:OpenAI 凉、Anthropic 火、马斯克赢

整理 | 褚杏娟 “SpaceX IPO,意味着资本正在押注一种由实体基础设施护城河构成的优势;OpenAI 的二级份额开始流向 Anthropic,说明市场其实在用真金白银下注:前沿实验室里,开发者到底真正信谁。Claude Code 泄露这件事,不只是“火出圈”这么简单,它显然还撬动了 SPV 资金的流向。”有网友评价如此今天在资本圈热度颇高的三家知名公司。OpenAI 是这三家关系网的中心。xAI 创始人马斯克原本就是 OpenAI 联合创始人,后来反目成诉讼对手;Anthropic 则是从 OpenAI 核心团队中分化出来的竞争者。这三家公司看起来是三家独立 AI 公司,实际上背后连着的可能是同一批人才、同一批投资人,以及同一个关于“AI 未来如何发展“的长期分歧。在资本市场上,这三家背后的马斯克、奥特曼和阿莫迪等人也在悄无声息地“开战”。目前“带外挂 SpaceX ”入场的马斯克暂时领先。 马斯克瞄准史上最大 IPO,“粉丝”红利时间今日,彭博社报道称,SpaceX 已秘密递交首次公开募股(IPO)申请文件。这意味着,这家由埃隆·马斯克掌舵、横跨火箭发射、卫星互联网和 AI 业务的公司,距离冲击史上最大规模 IPO 又近了一步。知情人士透露,SpaceX 已向美国证券交易委员会递交 IPO 注册草案。按照目前进度,这家公司最快有望在 6 月上市。如果顺利推进,SpaceX 将成为这一轮超级 IPO 潮中最先登场的一家,后面潜在的重磅选手还包括 OpenAI 和 Anthropic。所谓“保密递表”,指的是公司可以先向监管机构非公开提交上市材料,在正式披露前根据反馈进行修改。至于最终发行多少股份、定价区间是多少,这些核心交易细节通常会在后续文件中进一步披露。此前有知情人士称,SpaceX 此次 IPO 目标估值可能超过 1.75 万亿美元,上市募资规模可能高达 750 亿美元。若这一数字成真,将远超沙特阿美 2019 年创下的 290 亿美元 IPO 融资纪录,刷新全球历史纪录。值得注意的是,SpaceX 此前已完成对马斯克 AI 初创公司 xAI 的收购,合并后实体当时的估值约为 1.25 万亿美元。根据 Bloomberg Intelligence 测算,到 2026 年,SpaceX 的火箭发射业务和 Starlink 业务仍将贡献公司绝大部分收入,总收入接近 200 亿美元;相比之下,xAI 的收入规模可能不到 10 亿美元。如果只看收入规模,xAI 目前和 OpenAI、Anthropic 已经不在一个量级。据外媒报道,OpenAI 的年化经常性收入(ARR)已超过 250 亿美元,Anthropic 也高达 190 亿美元。无论是产品成熟度还是商业化速度,后两者都已把 xAI 甩开了不止一个身位。将 xAI 并入更被看好的 SpaceX 上市也成为马斯克与其他前沿 AI 公司博弈的方式之一。知情人士表示,SpaceX 已通知潜在投资者,公司高管预计将在本月启动路演沟通。这类“试水”性质的投资者会议,通常会释放更多经营和财务信息,以支撑其估值预期。另外,此前有报道称,不同于传统路演模式,马斯克计划邀请基金经理和分析师前往公司位于洛杉矶的制造园区以及佛罗里达州卡纳维拉尔角的火箭发射场进行实地参观,甚至现场观看发射。马斯克及其团队认为,亲身接触 SpaceX 的设施后,投资者将更愿意为本次发行投入大额资金。知情人士还称,SpaceX 正考虑在此次上市中采用双重股权结构。这意味着,包括马斯克在内的内部人士,未来可能拥有更高投票权,从而继续掌握公司的决策主导权。与此同时,这次 IPO 预计也会向个人投资者开放相当比例的份额,SpaceX 甚至可能把最多 30% 的发行股份分配给中小投资者,而传统 IPO 中个人投资者通常仅能获得约 10% 的新股。马斯克商业版图的忠实粉丝,在此次 IPO 中可能获得额外倾斜。有接近交易的人士表示,SpaceX 正在讨论对投资过特斯拉或曾支持马斯克收购 Twitter 的投资者给予优先配售。此外,公司还可能在锁定期上做出特殊安排:一方面对部分早期股东设置长于常规 6 个月的锁定期,以缓解上市后的股价压力;另一方面也可能允许另一部分股东在上市后立即出售股份。在承销阵容方面,SpaceX 已基本敲定美国银行、花旗银行、高盛集团、摩根大通及摩根士丹利担任本次 IPO 的核心承销机构,同时还在继续扩充投行团队。SpaceX 也正在与多家国际投行合作,分别负责不同地区的认购安排。其中,花旗银行负责整体协调;巴克莱银行负责英国市场;德意志银行与瑞银集团负责欧洲市场。根据彭博此前披露的信息,加拿大皇家银行负责加拿大地区订单,瑞穗金融集团负责亚洲市场,麦格理集团则主要覆盖澳大利亚市场。OpenAI 股份“挂着也没人接”同样作为在奋力冲刺 IPO 的选手,马斯克的“死对头”奥特曼最近可能比较焦虑,因为 OpenAI 股份正在二级市场上明显降温。据多家二级交易平台透露,过去一段时间,市场对 OpenAI 股份的热情快速回落,部分卖盘甚至已经接近“挂着也没人接”的状态。与之形成鲜明对比的是,投资人正迅速把目光转向它最大的竞争对手 Anthropic。尽管 OpenAI 在最近几个月里接连完成大额融资,吸金规模高达数百亿美元,但 Next Round Capital 创始人 Ken Smythe 表示,他旗下的二级市场平台已经感受到,机构买家对 OpenAI 股份的兴趣正在明显减弱。过去几周,已有大约六家机构投资者找到他们,包括持有大量股份的对冲基金和风投机构,希望出售合计约 6 亿美元的 OpenAI 股份。如果放在去年,这类股份通常几天之内就会被抢光。但现在,情况明显变了。Smythe 表示,他们几乎把平台上几百家机构投资者都问了一遍,结果一个愿意接盘的人都没找到。与此同时,买方给他们的反馈却是:市场上有大约 20 亿美元现金,正准备随时投向 Anthropic。类似情况并不只出现在 Next Round。包括 Augment、Hiive 在内的多家交易平台,都观察到了 Anthropic 需求飙升。Augment 联合创始人 Adam Crawley 表示,OpenAI 当前约 8520 亿美元的估值,与 Anthropic 约 3800 亿美元的估值之间,拉开了相当大的差距。也正因为如此,很多投资人都在抢着买入后者,想赶在它进一步涨价前上车。Crawley 直言,“现在看,Anthropic 的风险收益比更有吸引力。”市场普遍押注,Anthropic 的估值未来会向 OpenAI 靠拢;但如果现在买入 OpenAI,短期内还能拿到多大回报,反而没有那么清楚。OpenAI 整体估值已是 Anthropic 的两倍以上一位知情人士还透露,包括摩根士丹利与高盛集团在内的多家银行,已经开始向财富管理客户推荐 OpenAI 股份,甚至不再收取业绩分成。相比之下,高盛针对 Anthropic 的相关交易,仍按惯例收取大约 15% 至 20% 的分成。不过,对于这一说法,相关银行均拒绝置评,OpenAI 和 Anthropic 也没有作出回应。 Claude Code 源码泄露,不影响被追捧 AnthropicSpaceX 所代表的,是一级市场对于“稀缺超级科技资产”的持续追逐;而 OpenAI 和 Anthropic 在二级市场上的冷热分化,则显示出另一种现实:资本市场对 AI 公司并不是一概追捧,而是在开始更细致地比较谁更值得买。尽管 OpenAI 宣布完成公司史上最大一轮融资(总计获得 1220 亿美元,投资方既包括科技巨头,也包括风投基金和个人投资者),但是,一级市场融资火热,并不意味着二级市场交易同样火热。两者本来就不是一套逻辑。一级市场融资中,‌前期投资者‌可以用跟投维持占比。哪怕一些机构短期不倾向于追加投资,也可能为了维持和初创团队的长期关系进行少量跟投,然后在后续的二级市场把这些敞口作优先出售。过去几年,这两家 AI 公司都经历了爆发式增长。尤其是在 OpenAI 于 2022 年推出 ChatGPT、Anthropic 随后推出 Claude 之后,双方都迅速成长为生成式 AI 赛道最核心的两家公司。眼下,两家公司也都在考虑未来上市的可能性,其中 Anthropic 正考虑最快于今年 10 月进行首次公开募股,与 OpenAI 竞相推进上市进程。Anthropic 此次上市募资规模可能超过 600 亿美元(若成真,则仅低于 SpaceX 20%)。需要注意的是,无论是 OpenAI 还是 Anthropic,都不允许投资者在未经公司许可的情况下,直接在二级市场交易股份。不过,市场上依然存在不少变通做法,比如通过 SPV(特殊目的载体)等结构,间接转让相关权益。眼下,越来越多投资人开始对 OpenAI 持谨慎态度,最核心的担忧之一,就是它不断攀升的运营成本。为了支撑自己的 AI 目标,OpenAI 未来几年在基础设施上的投入预计将远高于 Anthropic。与此同时,虽然 OpenAI 在消费者市场拥有极强的用户基础,但在利润率更高的企业客户市场,它的推进速度相对没那么快。相比之下,Anthropic 在企业市场的表现更强,也因此被不少投资人视为增长更扎实、利润想象空间更大的那一个。Crawley 就表示,从目前的走势看,Anthropic 的增长曲线比 OpenAI 更有说服力。当然,Anthropic 也不是没有自己的问题。它目前正起诉美国国防部。此前,美国五角大楼将其列为供应链风险,并要求政府机构停止使用其技术。就在本周,Anthropic 又在短短几天内第二次出现安全事故,意外泄露了 Claude Code 的内部源代码。即便如此,市场对 Anthropic 的追捧仍在持续。Next Round 目前看到的 OpenAI 买盘,对应估值大约为 7650 亿美元,相比上一轮约 8500 亿美元的估值,已经打了约 10% 的折扣。而在 Anthropic 这边,情况恰好相反。Crawley 表示,现在市场对 Anthropic 的需求显然更强。Augment 和 Next Round 目前都看到了大量买盘,这些买盘给出的估值大约在 6000 亿美元左右,较上一轮融资估值高出 50% 以上。Hiive 联合创始人 Prab Rattan 也表示,平台上针对 Anthropic 股份的需求已经超过 16 亿美元,而且同样是溢价成交。Crawley 的总结很直接:这可能是他们见过最强的一波需求,几乎可以说,市场对 Anthropic 的兴趣是“无限的”。 结束语 如果把 SpaceX、OpenAI 和 Anthropic 在一级市场、二级市场的表现放在一起看,就会发现一个越来越清晰的信号:市场仍然愿意为超级科技资产买单,但给出高估值的逻辑,正在变得越来越不一样。对 SpaceX 来说,市场看中的是它作为“超级稀缺资产”的独特性:火箭发射、Starlink、航天基础设施、马斯克品牌和 AI 叠加后的综合溢价。它面对的是“有没有替代品”的问题。也可以看出,一级市场对超级科技故事的热情依旧很高。而 OpenAI 在二级市场遇冷、Anthropic 被疯抢,则说明资本正在用更现实、更细的尺子,给 AI 公司重新打分。“同一条赛道里,谁更值得买”框架下,资本会更敏感地比较估值、成本、增长质量和企业化兑现路径。这也意味着,接下来的超级 IPO 潮,可能并不会只是“谁名气大谁就赢”。市场当然还会继续追逐头部公司,但前提是:估值不能太透支、成本结构不能失控,商业化路径也必须越来越清晰。参考链接:https://www.bloomberg.com/news/articles/2026-04-01/spacex-is-said-to-file-confidentially-for-ipo-ahead-of-ai-rivalshttps://www.theinformation.com/newsletters/the-information-finance/big-tech-companies-racing-fund-openaihttps://www.bloomberg.com/news/articles/2026-03-03/anthropic-nears-20-billion-revenue-run-rate-amid-pentagon-feud?utm_source=chatgpt.comhttps://www.bloomberg.com/news/articles/2026-04-01/openai-demand-sinks-on-secondary-market-as-anthropic-runs-hothttps://www.wsj.com/finance/spacex-ipo-elon-musk-prepare-1367846a声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。会议推荐QCon 全球软件开发大会·2026 北京站将于 4 月 16 日 -18 日正式举办。本届大会以“Agentic AI 时代的软件工程重塑”为主题,聚焦 100+ 重磅议题,汇聚来自阿里、腾讯、字节跳动、小米、百度等一线科技企业与创新团队的技术专家,围绕 AI 工程化、系统架构与研发模式演进展开深入探讨。更多详情可扫码或联系票务经理 18514549229 进行咨询。今日荐文48小时,10k星!React 大佬借助 Claude 和 Codex 搞出新项目卷翻前端AI 已能写 80% 代码,但 Agent 也有致命短板!OpenAI Codex 技术总监:问错了,比不会写更麻烦全网疯传!Claude最新模型意外曝光:全面碾压Opus 4.6,强到让Anthropic不敢发布堆推理链全错了!林俊旸离职首曝:曾在阿里 Qwen 踩中一个“致命”技术误区你也「在看」吗??

来源:AI前线发布时间:2026-04-02
Claude Code 泄露的代码里,处处写着:这家公司人品不行

整理 | Tina 这周,Anthropic 因一次发布失误,把 Claude Code 的大部分核心源码直接暴露在了网上。事情的起点,是 npm 上发布的 Claude Code 2.1.88 安装包。包里混进了一个本不该公开的 map 文件。这类文件原本只是开发阶段的调试工具,用来在代码被压缩、打包之后,依然能把报错信息对应回原始源码中的具体位置。问题在于,map 文件里往往不只有“映射关系”,还可能直接包含原始源码。更关键的是,这个 map 文件还指向了 Anthropic 在 Cloudflare R2 存储桶中的一个 zip 压缩包。顺着这个地址,外界可以直接下载并解压完整源码。这个压缩包里的内容相当完整:大约 1900 个 TypeScript 文件,总计约 52 万行代码,包含一整套内置命令以及各种内置工具,可以说是“该有的全都有”。删不掉的源代码从结构上看,Claude Code 采用了一套类似插件的工具体系。文件读取、Bash 执行、网页抓取、LSP 集成等能力,都被拆成独立工具,并带有权限控制。仅基础工具定义,就占了将近 3 万行代码。同时,代码中还包含一个约 4.6 万行的 Query Engine,可以理解为整个系统的“大脑”,负责模型调用、流式输出、缓存以及整体调度。更进一步,Claude Code 还具备多智能体编排能力。它可以拉起子智能体(内部称为 “swarms”),把复杂任务拆分并并行执行,每个智能体都有独立上下文和工具权限。在使用体验上,IDE 与 CLI 之间通过一套双向通信机制打通。VS Code、JetBrains 等编辑器插件,正是通过这层桥接系统与 Claude Code 交互,实现“在编辑器里用 AI 编码”的体验。此外,源码中还包含一套持久化记忆机制。Claude 会以文件的形式,在本地持续记录与用户、项目以及使用偏好相关的信息,并在后续会话中调用这些内容。事发之后,Anthropic 已下架相关版本。负责 Claude Code 的工程师 Boris Cherny 专门澄清,这件事就是一次开发失误。本质上是流程、文化或基础设施问题。不过,代码一旦流出去,就很难再收回来了。GitHub 上很快冒出了数百个源码镜像。其中,用户 Sigrid Jin 上传的一个版本,最新已经拿下 10.5 万 star、9.5 万 fork。作为对比,Anthropic 官方那个主要用来分享插件和收 bug 反馈的 Claude Code 仓库,star 也不过 9.5 万左右。有报道称,Anthropic 已经开始发版权删除请求。为了避开这类风险,Jin 后来又借助 OpenAI Codex,把这份 TypeScript 代码改写成了 Python,随后又继续改成了 Rust。截至目前,Anthropic 尚未回应是否会对这些“再实现”项目采取法律行动。这也引出了一个更复杂的问题:既然 Anthropic 一直强调 Claude Code 的代码大部分是由 AI 自己生成的,那么这些代码在版权上是否具备保护资格?技术律师 Russ Pearlman 在 LinkedIn 上指出:“按照当前美国版权法,作品必须具备实质性的人类创作才能获得保护……竞争对手如果研究这些泄露的代码,可能面对的是在法律意义上并不受保护的内容。”他还写道:“最讽刺的是,这个世界上最先进的 AI 编码工具,可能正是靠自己,把自己的知识产权‘写没了’。”代码背后那些不想让你知道的秘密Claude Code 在开发上的效果确实不错,但如果往下拆,真正起决定作用的,可能还是底层大模型,而不只是外面那层封装。更何况,业内已经有开源的 Codex、Gemini,以及 OpenCode 这类命令行工具,在技术思路上并没有本质差别。有网友评论称,Claude 的命令行工具谈不上有什么“独门秘诀”,其代理框架甚至未必比同类产品更强。也就是说,这次泄露最值得看的,未必是 Claude Code “到底有多强”,而是全球开发者顺着这份源码,究竟挖出了多少原本不该被外界知道的东西。虽然 Claude Code 不像 rootkit 那样拥有持久内核访问权限,但对其源代码的分析发现,这款智能体程序对于用户计算机的控制能力仍远超协议条款中的表述。它不仅会保留大量用户数据,甚至在面对拒绝 AI 的开源项目时可以隐藏其身份。从泄露的 Claude Code 客户端源代码来看(研究人员对其二进制文件进行了逆向工程),这款程序几乎可以控制任何完成了安装的用户设备。它说动不了模型,但入口一个没少最近,Anthropic 与美国政府合作相关的一场风波,又把一个关键问题摆上台面:它到底能不能动模型。外界担心的是,Anthropic 理论上仍有能力在特殊情况下调整模型行为,甚至让系统失效。Anthropic 对此予以否认,还强调模型一旦部署进机密环境,自己就无法再访问,更谈不上控制。然而,一位要求匿名的安全研究员(化名“Antlers”)在梳理 Claude Code 源码后认为,在机密环境中,似乎可通过满足以下所有条件以阻止 Claude Code 采取“回传”或其他远程操作:确保推理传输通过 Amazon Bedrock GovCloud 或 Google AI for Public Sector (Vertex) 进行。阻止数据收集端点。使用防火墙保护 Statsig/GrowthBook/Sentry 等工具。阻止系统提示符指纹识别(例如通过 Bedrock)。通过版本锁定和阻止更新端点来阻止自动更新。禁用 autoDream,这是一个正在测试中的未发布后台代理,能够读取所有会话记录。我们没有找到在机密环境中运行的特定设置,但 Claude Code 确实支持多种可限制远程通信的标记。具体包括:CLAUDE_CODE_DISABLE_AUTO_MEMORY=1,禁用所有内存与遥测写入操作。CLAUDE_CODE_SIMPLE (--bare mode),完全移除内存与 autoDream。ANTHROPIC_BASE_URL,可用于将 API 调用重新定向至私有端点。ANTHROPIC_UNIX_SOCKET,通过转发套接字(SSH 隧道模式)对身份验证进行路由。远程管理设置(policySettings)可以锁定企业级部署行为,但无法彻底锁死。据 Anthropic 公共部门负责人 Thiyagu Ramasamy 介绍,Anthropic 会将模型的运行与管理权交由这类高安全级别的客户环境,包括功能增减在内的更新,也需要双方协商确认。他在 2026 年 3 月 20 日的声明中表示,例如在系统运行期间,Anthropic 人员无法直接登录客户环境去修改或停用模型,这在技术上不可行。在机密部署中,只有客户及其授权的云服务提供方可以访问系统。Anthropic 主要负责提供模型本体,并在客户要求或批准的情况下提供更新。即便如此,Anthropic 仍可以通过合同条款,在一定范围内保留部分控制能力。Claude Code 背后,有一整套拿用户信息的办法对于所有未使用与防火墙连接的公有云版本、或以某种方式实现物理隔离的 Claude Code 用户而言,Anthropic 拥有着更大的访问权限。首先,Anthropic 会接收通过其 API 传输的用户提示词与响应结果。这些对话不仅可能泄露对话内容,还可能泄露文件内容及系统详细信息。从源代码内容来看,除此之外,该公司还通过其他多种方式接收或收集用户信息,具体包括:KAIROS(src/bootstrap/state.ts:72)是由 kairosActive 标记设置的守护进程(后台进程)。它似乎属于尚未发布的无头“助手模式”,会在用户不查看终端用户界面 (TUI) 时起效。它会移除状态栏(StatusLine.tsx:33),禁用规划模式,并静默禁用 AskUserQuestion 工具(AskUserQuestionTool.tsx:141)。它还会自动将长时间运行的 bash 命令置于后台,而不会发出任何通知(BashTool.tsx:976)。CHICAGO 的全称为计算机使用与桌面控制。它使 Claude 智能体能够执行鼠标点击、键盘输入、访问剪贴板和截屏。此功能已公开发布,可供 Pro/Max 订阅用户和 Anthropic 员工以“ant”标记使用。此外,还有一项独立且公开发布的 Chrome 版 Claude 服务,支持浏览器自动化以及所有相关的系统访问权限。持久遥测。最初,这项功能由 Statsig 实现,并于去年 9 月被竞争对手 OpenAI 收购。这很可能是促使他们切换到 GrowthBook 的原因。GrowthBook 是支持 A/B 测试和分析的平台。Claude 启动后,分析服务 (firstPartyEventLoggingExporter.ts) 会在网络中断时,将以下数据保存到 ~/.claude/telemetry/ 目录并向服务器发送:用户 ID、会话 ID、应用版本、平台、终端类型、组织 UUID、帐户 UUID、电子邮件地址(如果已设置)以及当前启用的功能门控。Anthropic 可以在会话期间激活这些功能门控,包括启用或禁用分析功能。远程管理设置 (remoteManagedSettings/index.ts)。对于企业客户,Anthropic 维护的专用服务器会推送 policySettings 对象。该对象可以:覆盖合并链中的其他项;每小时轮询一次,无需用户交互;可以设置 .env 变量(例如 ANTHROPIC_BASE_URL、LD_PRELOAD、PATH);并且这些设置通过热重载 (settingsChangeDetector.notifyChange) 立即生效。当出现“危险设置更改”时,系统会提示用户,但该术语由 Anthropic 代码定义,因此可能会进行修改。常规更改(权限、.env 变量、功能标记)似乎不会触发通知。Auto-updater 自动更新程序。自动更新程序 (autoUpdater.ts:assertMinVersion()) 每次启动时都会运行,并从 Statsig/GrowthBook 处拉取配置版本。如此一来,Anthropic 就能根据需要删除或禁用特定版本。错误报告。当出现未处理的异常时,错误报告脚本 (sentry.ts) 会捕捉当前工作目录,其中可能包含项目名称、路径和其他系统信息。此脚本还会报告已激活的功能门控、用户 ID、电子邮件、会话 ID 和平台信息。有效负载大小遥测。此 API 会调用 tengu_api_query 以传输 messageLength,即系统提示词、消息和工具模式的 JSON 序列化字节长度。autoDream。autoDream 服务已开放讨论但尚未正式发布,它会生成一个后台子智能体,该子智能体会搜索(grep)所有 JSONL 会话记录以整合内存(Claude 用作查询上下文的存储数据)。该智能体与 Claude 运行在同一进程中(使用相同的 API 密钥和相同的网络访问权限)且扫描均在本地执行。但它写入 MEMORY.md 的任何内容都会被注入到未来的系统提示词中,因此会被发送至 API。团队内存同步。这项双向同步服务 (src/services/teamMemorySync/index.ts) 会将本地内存文件接入至 api.anthropic.com/api/claude_code/team_memory,由此实现在组织内与其他团队成员共享内存的方法。该服务包含一个密钥扫描器 (secretSanner.ts),使用正则表达式模式来匹配大约 40 种已知的 token 和 API 密钥模式(AWS、Azure、GCP 等)。但是,不匹配这些正则表达式的敏感数据可能会通过内存同步暴露给其他团队成员。实验性 Skill 搜索 (src/tools/SkillTool/SkillTool.ts:108) 为仅对 Anthropic 员工可用的功能标记。它提供的方法能够将 skill 定义下载至远程服务器 (remoteSkillLoader.js);跟踪会话中已使用的远程 skill (remoteSkillState.js);以及执行远程下载的 skill (第 969 行处的 executeRemoteSkill()) ;并注册 skill 以便在精简操作后保留。如果为非员工帐户启用此功能(例如使用 GrowthBook 功能标记),理论上会构成一条远程代码执行路径。Anthropic 或任何控制 skill 搜索后端的人员,都能够以“skill”的形式提供任意提词注入或指令覆盖,在会话中加载并运行这些 skill。不是“看一眼”,而是“留一份副本”研究员 Antlers 还强调说,“人们恐怕没有意识到,Claude 查看的每个文件都会被保存并上传至 Anthropic。换言之,只要 Claude 在设备上接触过的文件,Anthropic 那边就会有相应的副本。”对于 Free/Pro/Max 版用户,Anthropic 会在用户接受将共享数据用于模型训练时将数据保留五年;若不接受则仅保留 30 天。商业用户(Team、Enterprise 及 API 版)的标准数据保留期限为 30 天,用户可选择不保留任何数据。不久前,微软 Recall 曾经引发激烈争论,而 Claude Code 的活动捕捉机制与之类似。在每次发生工具调用读取、每次 Bash 工具调用、每次搜索(grep)结果以及每次对新旧内容进行编辑 / 写入时,内容都会以纯文本格式被存储在本地 JSONL 文件当中。Claude 的 autoDream 智能体在正式发布之后,会搜索这些文件并将提取到的数据存储在 MEMORY.md 文件之内,再将该文件注入至后续系统提示词以调用 API。另外几个劲爆发现去做开源,但别把自己是 AI 这件事说出去从产品策略的角度看,这种做法本身就有很强的指向性。Anthropic 的员工会用 Claude Code 参与公共仓库和开源项目的开发。代码里通过 USER_TYPE === 'ant' 来识别员工身份。而 Undercover Mode(utils/undercover.ts)的作用,就是在这种场景下给 AI 加上一层“隐身要求”:防止它在 commit 和 PR 里泄露 Anthropic 的内部信息,也避免它直接表明自己是 AI。一旦这个模式开启,系统就会把下面这段内容直接塞进 system prompt 里:这段代码至少说明了:第一,Anthropic 的员工确实在用 Claude Code 参与开源项目,而且系统被明确要求不要暴露自己是 AI。第二,Anthropic 内部模型代号确实采用动物命名,比如 Capybara、Tengu。第三,“Tengu”在代码中高频出现,作为功能开关和埋点事件的前缀,基本可以判断,它就是 Claude Code 的内部项目代号之一。按常规流程,这些逻辑在构建产物中会被当作“死代码”剔除,但 source map 依然保留了完整映射,这些信息并没有真正消失。Anthropic 显然清楚,“AI 参与开源贡献”在很多社区依然是敏感话题,所以它的做法不是提高透明度,而是先把身份隐藏起来。在这种前提下,一个更值得追问的问题是:他们内部究竟已经对多少开源代码库造成了多大破坏。防蒸馏这件事,选了一种不太体面的做法在 claude.ts(301–313 行)里,有一个名为 ANTI_DISTILLATION_CC 的开关。打开之后,Claude Code 在发起 API 请求时,会带上 anti_distillation: ['fake_tools']。这意味着服务端会悄悄往 system prompt 里塞进一些伪造出来的工具定义。这套设计的目的并不复杂。如果有人在录制 Claude Code 的 API 流量,想把这些数据拿去训练竞品模型,这些“假工具”就会一起混进训练数据里,变成专门用来搅浑水的污染项。这个能力由 GrowthBook 的 feature flag tengu_anti_distill_fake_tool_injection 控制,而且只对官方 CLI 会话开放。这也是最早在 HN 上被不少人注意到的细节之一。代码里还藏着第二套反蒸馏机制,位置在 betas.ts(279–298 行),名字叫 connector-text summarization。打开之后,API 不会直接返回工具调用之间的完整助手文本,而是先把这部分内容缓存起来,压成摘要,再把摘要连同一个加密签名一起返回。到了下一轮,再通过这个签名把原文恢复出来。也就是说,如果你在抓 API 流量,拿到的只是“缩水版”,完整推理链并不会直接落在你手里。问题是,这两套东西并没有看上去那么牢。从 claude.ts 的触发逻辑来看,“假工具注入”要生效,必须同时满足四个条件:编译时打开 ANTI_DISTILLATION_CC,走 CLI 入口,使用官方 API 提供方,以及 GrowthBook 返回 tengu_anti_distill_fake_tool_injection=true。只要架一个 MITM 代理,在请求到达 API 之前把 anti_distillation 字段删掉,这套机制就会直接失效,因为注入动作发生在服务端,而开关是客户端主动递过去的。另外,shouldIncludeFirstPartyOnlyBetas() 还会检查环境变量 CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS。只要把它设成真值,整套机制都可以关掉。如果你走的不是官方 CLI,而是第三方 API 提供方,或者干脆使用 SDK 入口,这段检查甚至根本不会触发。至于 connector-text summarization,范围还更小,只对 Anthropic 内部用户(USER_TYPE === 'ant')开放,外部用户本来就碰不到。所以这件事最难看的地方在于,它一方面试图靠“假工具”和“摘要替换”来给潜在的模仿者下绊子,另一方面,这些手段又并不算多高明。只要认真翻一遍源码,真想拿 Claude Code 流量做蒸馏的人,很快就能把绕过路径摸清。一天浪费约 25 万次 API 调用在 autoCompact.ts(68–70 行)里,有一段注释写道:“BQ 2026-03-10: 1,279 sessions had 50+ consecutive failures (up to 3,272) in a single session, wasting ~250K API calls/day globally.”意思是,在 1279 个会话里,autoCompact 连续失败了 50 次以上,最高的一个会话甚至连续失败了 3272 次,最终在全球范围内每天浪费了大约 25 万次 API 调用。这里的 compaction,指的是对上下文进行压缩,避免会话过长、token 过多,而这个过程本身也需要调用 API。如果压缩过程不断失败,系统又持续重试,就会不断额外消耗调用次数。后来的修复方式很直接:设置 MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3。也就是说,只要 autoCompact 连续失败 3 次,这个会话后续就不再继续尝试压缩,以避免无效重试继续浪费 API 调用。写在最后需要补充的一点是,这次并不是 Claude Code 第一次泄露。该产品经历了 363 个版本迭代,而 Claude Code 的源码,实际上至少已经泄露过三次。第一次发生在 2025 年 2 月。Anthropic 当天发布 Claude Code,npm 包里带着一个 23MB 的 cli.mjs 文件。开发者 Dave Shoemaker 用 Sublime Text 打开后,在文件末尾发现了一段长达 1800 万字符的字符串,实际上那是一份以 base64 编码的内联 source map。source map 本来是用来把压缩后的代码映射回原始源码的,而这一份映射信息,已经可以把整套 Claude Code 源码还原出来。随后,Anthropic 迅速推送了一个更新(版本 0.2.9),移除了源映射。但网上还是有一些分支,如:https://github.com/jinrunsen/claude-code-sourcemap第二次发生在 2026 年 3 月 7 日。有人发现,npm 包 @anthropic-ai/claude-agent-sdk 中意外包含了完整的 Claude Code CLI 打包文件:一个约 13800 行的压缩 JavaScript 文件 cli.js,版本为 2.1.71,构建于 3 月 6 日。也就是说,不再是通过映射还原源码,而是整个可执行代码直接被一起打包进了 SDK。第三次才是 2026 年 3 月 31 日,59.8MB 的独立 source map 再次把整套代码暴露出来。也就是说,Claude Code 代码其实已经在网上公开 13 个月了。过去 13 个月里,这套代码被反复扒出、镜像、逆向、整理,直到这一次才真正引爆舆论。参考链接:https://www.theregister.com/2026/04/01/claude_code_source_leak_privacy_nightmare/https://thehuman2ai.com/blog/claude-code-source-leakhttps://github.com/sanbuphy/learn-coding-agent/blob/main/docs/en/04-remote-control-and-killswitches.mdhttps://thehuman2ai.com/blog/claude-code-source-leak声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。会议推荐QCon 全球软件开发大会·2026 北京站将于 4 月 16 日 -18 日正式举办。本届大会以“Agentic AI 时代的软件工程重塑”为主题,聚焦 100+ 重磅议题,汇聚来自阿里、腾讯、字节跳动、小米、百度等一线科技企业与创新团队的技术专家,围绕 AI 工程化、系统架构与研发模式演进展开深入探讨。更多详情可扫码或联系票务经理 18514549229 进行咨询。今日荐文AI 资本大转向:OpenAI 凉、Anthropic 火、马斯克赢48小时,10k星!React 大佬借助 Claude 和 Codex 搞出新项目卷翻前端AI 已能写 80% 代码,但 Agent 也有致命短板!OpenAI Codex 技术总监:问错了,比不会写更麻烦全网疯传!Claude最新模型意外曝光:全面碾压Opus 4.6,强到让Anthropic不敢发布你也「在看」吗??

来源:AI前线发布时间:2026-04-02
微信接入的龙虾怎么测?SC-WeClaw场景测评方案发布!

# 测评背景当前,微信已上线 ClawBot 插件功能,为字节跳动 ArkClaw、智谱 AutoClaw、腾讯 QClaw 等主流 Claw 产品提供了统一的接入入口。用户完成配置后,仅需扫描二维码即可在微信对话中与 Claw 进行交互,无需安装任何额外应用,便可完成文件处理、图片分析、文档生成等各类任务。然而,在相同的接入环境与交互通道下,不同 Claw 产品的实际表现如何?各产品在微信 ClawBot 中的 Agent 能力是否存在显著差异?目前尚缺乏一套系统性的评测基准来回答上述问题。为此,我们推出 SC-WeClaw——一套专门面向微信 ClawBot 接入场景的 Claw 产品能力测评体系。SC-WeClaw 延续了SuperCLUE-XClaw 的评价方法,详细参考:国产龙虾Claw产品首测:10款产品真实测评# 微信ClawBot 能力边界作为统一的 Claw 产品接入入口,ClawBot 的交互能力严格限定于微信私聊场景。其功能定位为“单用户私聊 + 文件/图片收发”的轻量化接入通道,而非具备全功能交互能力的自动化平台。这一能力边界直接定义了 Agent 可执行的操作类型,也成为本次评测基准 SC-WeClaw 的核心设计约束。ClawBot 的具体功能支持情况如下:# 基准介绍(一)基准设计理解SC-WeClaw 面向Claw产品在微信 ClawBot 受限通道下的对话驱动任务完成能力开展评测。其遵循以下核心评测原则:1. 通道原生性:所有交互仅通过微信私聊的文字、图片、文档三种模态完成,不依赖任何微信生态内的其他能力(如支付、小程序、群聊等)。2.文件驱动:大量任务以用户上传文件为起点,以 Agent 返回处理结果文件为终点,全面考察 Agent 的文件理解与生成能力。文件是任务的核心输入与输出载体。3.文件跨端流转:在真实使用场景中,Agent 在云端(或电脑端)完成文件整理、分析与生成后,需将结果文件主动推送至用户手机端。评测将考察 Agent 在文件生成后的跨端交付能力,确保文件从电脑端到手机端的流转路径畅通无阻,实现“云端(或电脑端)处理、手机接收”的闭环体验。4.云端工具调用:Agent 可调用云端工具(如联网搜索、代码执行、文件转换、数据分析等)完成复杂任务,但所有结果必须通过微信消息或文件接口回传至用户手机端,不得依赖外部跳转或独立界面。(二)基准设计场景类型本次 SC-WeClaw 方案设计五大任务类型,以下是详细的任务说明:类型一:文档处理该场景聚焦于用户通过微信上传各类文档(含PDF、Word、Excel、图片扫描件等),Agent完成内容解析、信息提取、结构化转换与文件生成等任务。典型任务包括合同关键条款提取、简历对比排序、会议纪要待办生成等。核心考察文件解析、多模态理解、结构化输出及文件生成质量。类型二:数据分析该场景以用户上传的数据文件(CSV、Excel、财务报表截图等)为输入,Agent需完成数据清洗、统计计算、趋势分析、异常检测及可视化图表的生成。典型任务包括留存率分析、A/B测试显著性判断、多表关联查询等。重点评估数据理解、统计推理能力及分析报告的可读性,所有结论需以文件形式回传至手机,考验端到端的数据洞察交付能力。类型三:内容创作用户以自然语言提出创作需求(如PPT大纲、风格改写、报告扩写),Agent通过对话管理意图,生成符合格式要求的文本并以文件交付。典型任务包括素材图片撰写营销文案、大纲扩写完整报告、用户反馈迭代优化等。考察创意生成、格式控制及文件输出专业度,反映Claw产品在内容生产场景下的实用价值。类型四:信息检索与整理用户发起请求,Agent主动调用联网搜索工具,从多源信息中检索、筛选、综合并结构化呈现。典型任务包括行业市场调研、AI大事记简报等。重点评估信息检索策略、多源整合能力、事实判断准确性及结构化报告质量,是衡量Claw产品开放域知识服务能力的关键维度。类型五:代码能力用户发起代码相关请求(如编写、调试、解释代码等),Agent需理解代码逻辑、执行代码,并将结果以文本或文件形式回传至用户手机端。# 评价方法及最终得分1.评价方法SC-WeClaw 测评延用 SuperCLUE-XClaw 测评方法,采用三层评分架构,包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明:(1)自动化脚本评估该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。评分标准:采用0/1二分制。- 1分:脚本验证全部通过,所有检查点均符合预期,任务判定为成功。- 0分:脚本验证失败,任一检查点未通过(如文件缺失、日期错误、格式不符等),任务判定为失败。(2)大模型评估该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);- 待评测模型生成的结果;- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。(3)混合评估该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。2. 最终统分针对每个产品,我们采用如下规则计算最终得分,确保测评结果准确反映产品综合能力:首先,按照对应评分机制(自动化脚本评估/大模型评估/混合评估)对每个任务的测评结果进行独立打分,得到各任务得分(结果保留2位小数);若产品在某一任务中执行失败,该任务得分为0分。产品最终得分则为所有任务得分的算术平均值。通过标准化的测评流程与严谨的评分机制,确保测评结果客观反映产品的真实能力,使最终得分与实际使用场景中的表现高度一致。# 评测流程——示例展示第一步:在手机微信端,打开微信ClawBot聊天交互界面发送消息:联网搜索,综合多篇报道,写一篇关于张雪机车的报告,内容包含张雪本人事迹,张雪机车的发展及其商业价值,张雪机车夺冠事件,注意要准确写出夺冠的时间。如若搜索网页因权限原因无法访问,可以使用python等其它任何获取网页信息的方式获取,严格按照搜索内容创作报告,字数控制在1000字,输出report.docx文档。具体展示如图所示:输出文件内容:第二步:将生成的文件发送到电脑端,采用自动化脚本评估,大模型评估,和混合评估三种方式,此次示例由自动化脚本和大模型二者混合进行评价,自动化脚本评价与大模型评价的权重为2:8。其中自动化脚本评价共设计3个得分点,每个得分点只有正确和错误两种情况,正确得1分,错误得0分,最后汇总正确的数量,除以总数,得到产品在本题的得分。脚本评价细则如下:{"word_count_score": 中文字符数是否在 900到 1100之间即判为正确,得1分,,"date_presence_score": 日期是否有第一次夺冠日期:2026年3月28日"paragraph_structure_score": 报告里至少有 3 个非空自然段,并且其中至少有 3 个段落长度不低于 30 个字符"script_average_score": 计算平均得分}大模型评价细则如下:请严格依据任务要求,对模型生成的 `report.docx` 内容进行评分。评分重点围绕“任务完成度”“关键事实准确性”“时间线准确性”“报告结构与表达质量”四个方面展开。**核心评分原则:**1. **事实优先**:若核心事实缺失或错误,应明确扣分,尤其是 `500RR`、`2026年3月28日夺冠`、`2026年3月29日二连冠`。2. **严格按要求打分**:每个维度仅能使用 1.0 / 0.75 / 0.5 / 0.25 / 0 五档。3. **职责分工**:字数范围、是否包含 `2026年3月28日`、是否具备基本段落结构,已由脚本单独检查;本 rubric 重点评估内容质量与事实准确性,不对同一硬性要求重复重罚。### Criterion 1: 任务完成度与主题贴合度 (Weight: 20%)评估答案是否同时覆盖“张雪机车报告”与“张雪本人事迹”,并体现“综合多篇报道”后的整合输出。- **Score 1.0**: 完整覆盖张雪机车发展、张雪本人经历、赛事成绩三部分内容,主题高度贴合,整体呈现出基于多篇报道整合后的报告感。- **Score 0.75**: 主题基本贴合,覆盖较完整,但某一部分展开偏弱,例如人物事迹较少或品牌/赛事内容较少。- **Score 0.5**: 只覆盖了部分任务要求,例如主要写赛事,忽略人物经历;或内容明显单薄,整合感不足。- **Score 0.25**: 严重不完整,仅零散提到张雪机车或张雪本人,难以构成有效报告。- **Score 0.0**: 明显跑题,或与题目要求基本无关。### Criterion 2: 关键事实准确性 (Weight: 30%)评估是否准确覆盖题目要求中的三个关键事实点。- **Score 1.0**: 明确且准确写出首款车型为 `500RR`,并准确写出 `2026年3月28日` 夺冠、`2026年3月29日` 再次夺冠形成二连冠,三项均无误。- **Score 0.75**: 三项中仅有一项存在轻微表述不完整,但核心事实仍基本准确。- **Score 0.5**: 三项中缺失或写错 1 项关键事实。- **Score 0.25**: 三项中缺失或写错 2 项关键事实。- **Score 0.0**: 三项中大部分缺失或错误,尤其若未写出 `2026年3月29日二连冠`,不得给高分。### Criterion 3: 时间表述准确性 (Weight: 20%)评估答案中已经写出的时间信息是否准确、是否与对应事件匹配。本项只判断“写出来的时间是否正确”,不因缺少未写出的额外事件而重复扣分。- **Score 1.0**: 文中涉及的关键时间与事件对应准确,例如将 `2026年3月28日` 与夺冠事件正确对应,表述清楚,无明显时间错误。- **Score 0.75**: 时间整体基本正确,但局部表述稍有模糊,如时间和事件的绑定不够直接。- **Score 0.5**: 时间信息部分正确,但存在一定歧义或个别时间点表达不清。- **Score 0.25**: 时间与事件的对应关系较混乱,容易误导读者。- **Score 0.0**: 关键时间明显写错,或时间与事件严重不匹配。### Criterion 4: 报告结构与表达质量 (Weight: 15%)评估输出是否像一篇完整报告,是否具有良好的结构、条理和可读性。- **Score 1.0**: 结构完整,段落清晰,语言流畅,既有事实信息,也有适度总结,整体具备报告感。- **Score 0.75**: 可读性较好,结构基本完整,但衔接或总结力度稍弱。- **Score 0.5**: 有基本结构,但更像信息堆砌,报告感一般。- **Score 0.25**: 结构松散,表达不顺,阅读体验较差。- **Score 0.0**: 基本不成文,难以视为有效报告。### Criterion 5: 关键商业信息覆盖度 (Weight: 15%)评估答案是否写出题目相关报道中的关键商业信息,尤其是“张雪机车估值为 10.9 亿”这一要点。- **Score 1.0**: 明确且准确写出“张雪机车估值为 10.9 亿”或等价表述,信息无误。- **Score 0.75**: 提到了估值信息,但表达不够完整,或仅写到接近表述但仍能明确对应 10.9 亿估值。- **Score 0.5**: 提到了融资、估值或商业价值信息,但未明确写出 10.9 亿。- **Score 0.25**: 仅非常模糊地提到品牌价值、融资前景等,无法确认是否覆盖该关键点。- **Score 0.0**: 完全未提及“张雪机车估值为 10.9 亿”这一关键信息,或估值写错。评价结果:脚本评分:{"word_count_score": 1.0,"date_presence_score": 1.0,"paragraph_structure_score": 1.0,"script_average_score": 1.0} 大模型评分:{"task_completion_score": 1.0,"core_fact_accuracy_score": 1.0,"timeline_accuracy_score": 1.0,"report_quality_score": 1.0,"valuation_coverage_score": 1.0,"reasoning": "报告完整覆盖张雪事迹、机车发展和赛事成绩,结构清晰。准确写出首款车型500RR、2026年3月28日夺冠及29日二连冠,时间对应准确,且明确提及10.9亿估值。","raw_response": "{\"task_completion_score\": 1.0, \"core_fact_accuracy_score\": 1.0, \"timeline_accuracy_score\": 1.0, \"report_quality_score\": 1.0, \"valuation_coverage_score\": 1.0, \"reasoning\": \"报告完整覆盖张雪事迹、机车发展和赛事成绩,结构清晰。准确写出首款车型500RR、2026年3月28日夺冠及29日二连冠,时间对应准确,且明确提及10.9亿估值。\"}","llm_score_normalized": 1.0}加权汇总:{"total_score": 0.2*1.0+0.8*1.0=1.0}评分说明:报告在字数、日期、段落结构等基础指标上全部达标,且完整覆盖了张雪机车首款车型500RR、2026年3月28日夺冠、3月29日二连冠以及10.9亿估值等所有关键事实,结构清晰、内容准确,因此各项评分均为满分。# 参测流程1.邮件申请2.意向沟通3.参测确认与协议流程4.提供API接口或大模型5.获得测评报告# 邮件申请邮件标题:SC-WeClaw 测评申请,发送到contact@superclue.ai请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式# 联系我们

来源:CLUE中文语言理解测评基准发布时间:2026-04-02
1.75 万亿美元,SpaceX 要做人类史上最贵的 IPO

马斯克要把太空公司卖给全世界,但这个价签让人看了头晕。作者|桦林舞王编辑|靖宇1602 年,荷兰东印度公司在阿姆斯特丹发行了人类历史上第一支股票。当时没有人知道这意味着什么,只知道有一家公司想用「全世界的钱」去征服「全世界的贸易」。四百年后的今天,一家叫 SpaceX 的公司悄悄向 SEC 递交了一份文件,试图用同样的逻辑,把整个太空时代打包卖给你。区别在于,荷兰东印度公司的估值换算成今天大约是 8 万亿美元,而 SpaceX「只要」:1.75 万亿美元。根据 Bloomberg 的报道,SpaceX 已于 4 月 1 日秘密向 SEC 提交 IPO 注册草案,计划最快在今年 6 月完成上市。代号「Project Apex」,联合至少 21 家银行参与承销,目标融资规模高达 750 亿美元——是此前美国历史上最大 IPO 的三倍多。750 亿美元是什么概念?沙特阿美 2019 年上市时募集了约 256 亿美元,已经是那个时代无可撼动的纪录。SpaceX 直接把这个数字乘以三,然后告诉你「这只是个开始」。1.75 万亿美元的估值则更加令人头皮发麻。Motley Fool 的分析师算了一笔账,这相当于 SpaceX 2025 年销售额的 113 倍市销率。作为对比,同样被热炒的 AST SpaceMobile 市销率是 142 倍,Rocket Lab 是 44 倍。SpaceX 的倍数夹在两者之间,但它的体量比这两家之和还要大出几个数量级。要支撑这个数字,马斯克需要让人们相信几件事同时成真:Starlink 继续主导全球卫星互联网;Starship 彻底重写太空运输成本;「轨道数据中心」从概念变成现实;以及,马斯克本人,不整出任何幺蛾子——这可能比上面三个更难实现。这不是在买一家公司,这是在押注一个平行宇宙里的未来。01Starlink + xAI,马斯克的「合并魔法」不过在彻底批评这个估值之前,先说说 SpaceX 到底拥有什么。Starlink 是这张估值最坚实的地基。2026 年 2 月,Starlink 用户数正式突破 1000 万,预计今年全年收入将达到 240 亿美元。一个能稳定产生现金流的卫星互联网业务,本身就值得相当高的溢价。但更关键的变量发生在今年 2 月,一场内部代号「K2」的重组完成了。马斯克旗下的 AI 公司 xAI 与 SpaceX 完成合并,Grok 大语言模型被直接整合进了 SpaceX 的运营架构,与 Starlink 卫星网络,共同构成了一套被分析师称为「轨道数据中心」的系统。也就是说,SpaceX 现在不只是一家火箭公司或卫星公司,它正在把自己包装成一家:「太空 AI 基础设施公司」。这个叙事的价值是巨大的。2025 年,AI 基础设施,是资本市场最愿意为之付出溢价的赛道。当 Starlink 的物理节点与 Grok 的计算能力结合,SpaceX 突然有了一个可以对标所有云计算巨头的想象空间。合并完成时 SpaceX 估值为 1.25 万亿美元。短短几个月后,IPO 估值跳到 1.75 万亿。这 5000 亿美元的增量,很大程度上就是 AI 叙事的溢价。02为什么着急 IPO?SpaceX 一直对上市保持着奇妙的矜持。马斯克曾多次公开表示,上市会带来短期主义的压力,不利于公司长期发展。这个逻辑放在烧钱探索期完全说得通。但现在不一样了。3 月中旬,SpaceX 完成了一个关键技术节点:两艘 Starship 飞行器在低地球轨道,成功完成了在轨推进剂转移演示。一艘加油机变体,一艘后勤变体,在太空中完成了对接并转移了数吨低温液态氧。这个测试的意义在于,它是 NASA Artemis III 月球着陆任务所需的最后一块关键拼图。这意味着,SpaceX 正在从「商业卫星发射公司」向「国家太空战略承包商」转型,而这个身份,在资本市场值得另一套估值逻辑。技术突破、AI 业务整合、Starlink 现金流成熟,三条主线同时成型——这是 SpaceX 上市的「最优时间窗口」,马斯克显然也看到了这一点。还有一个更现实的压力。AI 独角兽的 IPO 窗口正在变窄,OpenAI 和 Anthropic 都在谋划上市,一旦这两家先行,市场对 AI 公司的热情可能被稀释。SpaceX 的逻辑是,必须在最高点入场,而「最高点」可能就在 2026 年上半年。3 月 31 日,马斯克还亲自上 X 平台辟谣,表示 Robinhood、SoFi 等零售券商不会被排除在 IPO 之外。30% 的零售投资者分配比例——远高于传统 IPO 的 5% 到 10%——表明 SpaceX 想把这次上市做成一场全民参与的「太空梦」运动。031.75 万亿,乐观还是陷阱但怀疑的声音同样真实。乔治敦大学金融学教授 Reena Aggarwal 的观察很冷静:「即使有再大的热度,公司仍需要一个接纳市场。」当前地缘政治摩擦和市场波动率都处于高位,如果市场在 6 月之前转向,整个计划可能推倒重来。更深层的质疑来自估值结构本身。Satellite Today 的分析师说得直白,「核心 Starlink 业务本身无法支撑 1.5 万亿估值,所以你必须相信那些更具投机性的机会,以及对伊隆·马斯克的信任。」月球基地是「完全投机」,轨道数据中心是「高度投机」,这是 Morningstar 研究部门给出的定性。而 xAI 的整合也并非没有代价。马斯克旗下的 AI 业务正在以极快的速度烧钱,有分析师担心 SpaceX 的核心利润可能被用来「补贴」高风险 AI 投入,从而压缩实际估值溢价空间。还有一个结构性风险是马斯克本人。他同时掌管 Tesla、SpaceX、xAI、X 和 DOGE,在华盛顿的政治卷入也在不断加深。这代表,SpaceX 的股价,某种程度上是「马斯克风险」的函数。Scientific American 的观察颇为一针见血——购买 SpaceX 的股票,意味着你接受了他们的运营方式,包括爆炸性的失败,和壮观的成功。SpaceX 的 IPO 是一个关于信念的故事,不是一个关于财报的故事。你相信 Starship 会把人类送上月球,相信 Starlink 会成为地球上最重要的互联网基础设施,相信「轨道数据中心」不只是一个 PPT 概念——那么 1.75 万亿也许是一个合理的起点。但历史上,每一次「买的不是公司而是未来」的 IPO,最终都有人为溢价买单。荷兰东印度公司的故事,最后以破产告终。*头图来源:Theneweconomy本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问你认为 SpaceX 是否值这个价格?

来源:极客公园发布时间:2026-04-02
模速AI日报 | 产业动态速递(2026年4月2日)

技术进展斯坦福与麻省理工提出自动化框架工程新范式Meta-Harness斯坦福大学与麻省理工学院联合提出Meta-Harness方案,旨在让AI自主优化模型的外围框架(Harness),包括提示词模板、检索策略与多步推理编排等。其核心采用“智能体外环”架构,赋予AI对完整文件系统的直接访问权限,通过“提出-评估-存储”的闭环工作流,使AI能像资深工程师一样全局分析代码库、识别系统瓶颈并实施自主迭代优化。清华大学和智谱AI团队推出Agent评估基准Vision2Web清华大学与智谱AI团队提出用于评估多模态代码智能体真实开发能力的分层基准Vision2Web,构建了从静态网页、交互式前端到全栈网站的三级进阶任务体系。并采用一种基于有向依赖图的工作流式Agent验证范式,通过功能与视觉验证节点对生成结果进行自动化评估。产品与应用动向谷歌发布Veo 3.1 Lite视频生成模型,打响视频生成“价格战”谷歌发布Veo 3.1 Lite视频生成模型,支持文本或图片生成,可输出720p或1080p分辨率、4/6/8秒时长的视频,且原生适配横竖屏格式,自带同步音效。该模型通过模型蒸馏和架构优化实现成本减半,720p低至0.05美元/秒,1080p为0.08美元/秒,目前已集成至Gemini API与Google AI Studio,构筑价格和生态协同优势。通义千问AgentScope团队发布Copaw 1.0通义千问AgentScope团队发布个人智能助理Copaw 1.0,全面支持本地化模型部署,提供2B\4B\9B三个尺寸,每个尺寸均有三种版本,会根据设备规格自动推荐最合适的小模型。该模型通过构建由工具守卫、文件防护、技能扫描器组成的三重防护机制,针对性解决多层面安全风险。支持多智能体工作空间隔离与异步协作,以处理复杂任务,还具备更智能的记忆管理能力,实现长上下文连贯与个性化偏好沉淀。行业融资动态星海图完成近20亿元B+轮融资具身智能公司星海图(北京)人工智能科技股份有限公司完成近20亿元B+轮融资,由华登科技、蓝思科技等产业资本,修远资本等长线基金,金融街资本等国家队基金,以及中金资本、普华资本等一线PE机构共同投资。公司聚焦于构建“整机+智能”驱动的开放世界具身智能解决方案,首创 “快—慢双系统”VLA模型,发布了最快世界模型Fast-WAM,构建了最大规模的开放场景具身数据集(GOD)。本轮融资资金将全面加码真实数据路线的VLA和世界模型布局。智域基石完成数千万元天使轮融资具身智能基础设施公司北京智域基石科技有限公司完成数千万元天使轮融资,投资方为灵初智能、穹彻智能、浙江人形、智平方四家机器人厂商。公司专注于将原始物理世界数据精准编译成高质量训练输入,解决具身智能领域的数据瓶颈。自研的 “数据编译管线”,包括全量数据质检、异构湖仓底座重构、技能原子化编译、智能检索与标准化交付等环节,能实现数据加工和交付环节的规模化高效处理。公司预计在2026年内积累超过200PB异构数据,并将从真机数据生产拓展至第一人称视角领域。孤勇众行(DigClaw)完成数百万美元天使轮融资北京孤勇众行科技有限公司完成数百万美金天使轮融资,由中科创星和中关村资本联合投资。公司聚焦于用AI驱动新一代科创意图挖掘,打造了专注于中国早期科创生态的人才数据库,通过自研AI引擎,实时监测百万级早期公司与人才动态,7x24小时捕捉水下商业弱信号,将碎片的微观行为重构为结构化的确定性商机。本轮融资后,公司将继续通过战略级AI Mapping技术取代低效的传统名单模式,实现商业价值与资产的即时对齐。模速生态与企业无问芯穹与清华大学联合推出 WideSeek-R1清华大学与无问芯穹联合推出多智能体系统 WideSeek-R1,提出了“广度扩展”概念,通过“Lead-agent-Subagent”分层框架与端到端的多智能体强化学习训练,实现了对广信息搜索任务中多个子任务的智能分解与高效并行处理。仅4B参数的该系统在广度搜索评测中的性能追平671B单智能体模型,在NQ等标准问答数据集上平均得分59.0%,优于部分7B/8B的多智能体基线。面壁智能与清华大学等联合开源智能体路由插件ClawXRouter清华大学、中国人民大学、AI9Stars、面壁智能与OpenBMB联合开源了端云协同的AI智能体路由插件ClawXRouter。该插件通过“规则+模型”自动扫描并分级处理请求(S3级私密数据本地处理、S2级敏感数据脱敏后上云、S1级安全数据直连云端),高效保护数据隐私。利用本地小模型作为“任务评估师”判断复杂度,为不同任务分配合适的云端模型,在PinchBench测试中,相比全程使用顶级云端模型,在成本降低58%的同时,性能提升了6.3%。还能实现智能脱敏与双轨记忆,确保复杂敏感任务在脱敏后能安全调用云端强大能力,同时本地保留完整信息。

来源:上海模速空间大模型创新生态社区发布时间:2026-04-02
我用1400年前的三省六部制,搞了一套很酷的多Agent协同方案。

上周直播的时候,给大家看了一个好玩的东西。就是多个Agent在一个聊天里面打斗地主。这个思路其实是来源于流传的一个非常广的图,就是有人建了一个Agent Team,用来做可视化的股票分析。。。只不过,我拿来直播整活搞了一下斗地主。后来一直有人问我那是啥,我寻思我就单独写一篇,来给大家看看这个产品,这玩意可能是我目前觉得对普通用户最友好的一个多Agent协同产品。。。这玩意,叫Accio Work,上周刚发的,来自阿里国际站。。。它其实是个,帮商家来做跨境电商的Agent产品。只不过,被人发现,多Agent的协同体验做的太好了,然后现在也不需要邀请码,人人都可用,又有不少的免费额度,直接被大家直接拿来当多小龙虾的协同产品用了。。。这何尝不是一种NTR。估计国际站团队的产品看到这种现状,自己都懵逼了。所以我就来给大家看看,这种组合式的玩法怎么玩。比如之前有个特别火的项目,就是用多agent搭一个三省六部制,地址在此:https://github.com/wanikua/danghuangshang。火到小龙虾他爸Peter都已经看到来自遥远的东方,1400多年前的古老制度。怕有些朋友对三省六部不太清楚,我这里稍微简单说一下。这是最早确立在隋朝的制度,一开始的目的是拆分相权。三省指的是中书省、门下省和尚书省,六部指的是吏部、户部、礼部、兵部、刑部、工部。为了直观理解这个架构和各部分的功能,我用香蕉做了张图,方便大家看。就三省六部这套东西,本质上解决的就是一个怎么让一群人各干各的但最后不乱的问题。中书省负责出方案,门下省负责挑毛病审批,尚书省负责拆任务往下派,六部各管一摊执行。就这套东西,我觉得搬到agent协同框架上来,几乎不需要额外设计什么复杂的协作逻辑,制度本身就是最好的prompt,就特别有意思。所以,我就给大家演示一下,我怎么可视化的复刻搭的这个,三省六部的团队。毕竟,谁都有想当皇上的梦登录Accio Work之后,选中智能体,然后点新建智能体。网址在此:http://www.accio.com/work官方提供了一些智能体模版,主要是给做外贸准备的,我们不用管,谁家好人用外贸Agent做外贸啊,我们是来当皇上的= =我们直接点next,从空白开始创建。然后是给你的智能体填名称、头像、提示词。还有选风格,选模型。主流模型也基本都有,相当爽了。弄完之后继续点next,下一步是选工具。这些都是官方自带的,默认是全都打开,我只把选品找商关了。然后给智能体装skills,这里的步骤,只能从官方提供的几十种skills里面选,没法自定义skill。不过后续需要什么自定义的skill的话,后续创建好了之后直接口头让他自己装就行。最后一步,就是一些小设置,它对你的称呼,偏好语言巴拉巴拉。点击finish&launch,我们的其中一个agent就创建好了。后续就如法炮制,我们重复这上面的过程,把需要的agent都搭上。这里,有两个偷懒小妙招。三省六部的配置,我们完全可以把要填的信息直接截图丢给Claude,告诉他你要搭一个三省六部,让他给出所有agent的配置。然后直接让Claude根据上面拿到的配置,通过computer use帮我们搭,能懒逼一点就可以懒逼一点。终于,我们把所有的职业都建完了,现在,我们有了一群大臣了。我们在侧边栏点新增团队。然后把agent加入团队,选尚书令当TL,team leader,也就是团队组长,填个名字,点击创建就ok了。这里我大胆了点,给这个团队的名字,取了个卡朝。一个团队里面最多添加10个agent,不过基本也够用了。到这一步,就可以和我们卡朝团队对话了。弄好之后第一件事,就是让文武大臣们给我请个安。真就是穿越之我在现代当上了土皇帝啊朋友们,太爽了。由于三省六部这样特殊的架构,就让他特别适合拿来做重大决策和复杂协作任务,或者,直接做一个OPC公司。OPC,one person company,一人公司。一个人配上一套AI工具栈,能产出过去10人团队的工作量,这件事现在真的不是梦了。三省六部做OPC,职能契合的简直完美。每个agent对应的公司部门,我也做了张表,方便大家看。至于skills的配置,我是真的按他们的角色来装的。比如尚书令,就装了文档处理四件套,加上他是那个督促大家干活的人,所以也给他装了pua的skill。工部尚书我就给他装了一堆开发会用上的skills。声明一下,我不是真的要去开个OPC,毕竟AIFUT大会已经忙疯了。我就是想看看,我什么都不做,只给一个想法,和最后的拍板,看他们能做到什么样。所有的都搞定的,我就开始下圣旨了。我让他们给我现在这个OPC公司,做一个产品,就是一个本地存储的心流码字器。先是尚书令接旨。它做的第一件事是安排流程,先让中书令起草方案,然后门下侍中审议,再六部并行评估,最后它自己汇总出PRD。中书令很快出了三个方案。一个叫凌晨三点,走情绪共鸣免费路线。一个叫心流订阅,做SaaS付费墙。最后一个是出海买断机制,用Tauri打桌面端上Product Hunt卖14.9美元。三个方案差异很大,各有各的逻辑和风险判断。说实话,如果是我自己想,可能只会想到其中一个方向,然后一路跑到黑。然后门下侍中拿过方案开始了相当严格的审议。方案一给了条件放行,但附上了警示,比如中书令说界面截图就是营销素材,这个核心假设根本没验证过。产品界面必须惊艳到不晒可惜的程度才能驱动裂变,但方案里对UI质量没有任何约束。中书令这是把增长飞轮建立在我相信它会很好看上面。方案二直接打回重议。给的理由包括中书令方案中要做作者分析心流状态分布,听起来很有意思,但心流本身是反分析的,你一量化它就消失了。这个功能定位和沉浸感的核心卖点存在内在矛盾。我当时看到这段的时候愣了一下。说实话,如果是我自己做,会觉得数据仪表盘是个必备的卖点,因为我现在用的码字软件就有,我还经常关注里面的数据。但门下侍中指出心流是反分析的,我才反应过来,有道理啊,每次那些数据都看得我很焦虑,特别是码字速度,让我会一边码字一边关注速度。这也就是制衡的价值。出主意的人永远会觉得自己的主意好,每个人都需要一个专门挑毛病的角色。审议完了还甩出三个跨方案的共性问题:竞品已经存在,你的护城河在哪?创始人的生存周期算过没有?用户的真实痛点验证过吗?给我一下问懵逼了。每一条都是很实在的问题,没有一条是为了挑毛病而挑毛病。但是我是皇上啊,你问我干个球,这个时候,尚书令就出马了,综合审议结果做了决断。方案一做主线,方案三留作第二阶段出海路径,方案二直接砍掉,然后同时把评估任务派给了六部。大家可以看一下,分发的相当详细。接下来就是六部开工,后面的信息密度让更猛了。兵部扫了30多个竞品,告诉我我们想做的这个动态背景加白噪音加编辑器加心流计时的完整组合,市场上目前没有完整竞品。但V2EX上已经有人在做类似方向了,时间窗口大概只有6周。礼部给产品起名叫墨沉,取墨沉入水的意象。还正面回答了门下侍中的灵魂拷问凭什么让用户主动晒截图。表示用户晒的从来不是产品,是自己凌晨三点还在写的人设。这个回答我觉得比很多真实的品牌策划还有洞察力。刑部做了合规评估。必须注册个体工商户,个人收款码不能收经营款,字体只能用思源黑体和阿里巴巴普惠体这些明确免费商用的。我说实话,就这一条,能帮助很多的个人创业者,少交很多学费,真的,太多的人,法务意识都过于薄弱了= =户部做了财务模型,工部出了技术架构,吏部出了人力规划等等等等。这里我就不全部放上来,因为太多太多了。六部汇报完毕,尚书令汇总输出了最终的PRD。产品名称、战略路径、技术架构、财务模型、品牌方案、合规清单、人力规划,全覆盖。总共12份交付文件。并且每一份文档,都给的超级无敌详细。而整个过程,从我发出需求到PRD签发,最终花了40分钟。如果是一个真实的创业团队来做这件事,产品经理出方案,战略顾问审议,市场部做竞品分析,财务部做测算,法务做合规评估,品牌部做传播方案,技术部做架构设计,HR做人力规划。这些事情少说十天半月,还不算中间开会对齐扯皮的时间。最后的应用也放在这里,非常符合我对心流编辑器的需求,页面极其整洁干净,打字的时候除了输入框,其他都会被隐藏。这样追求极简的思路也是他们参考了小红书上的一位博主@Mao。整个感觉,给我冲击说实话,还是挺大的。因为我虽然在Claude Code里面用过Team Agnet,但是那个感觉其实没有特别强,而这是我第一次,这么直观的,感受到了,我靠这一群Agent,就像一群人一样在互相讨论,互相协同。这可能,就是UI设计的力量吧。这也是三省六部制最厉害的地方。它强迫每个环节的参与者只站在自己的角度往深了去思考,然后通过流程把这些不同角度的思考汇聚成一个整体决策。一个是1400年前极其古老的制度,一个是本世纪正当红的科技。很诡异但又出奇和谐地结合到一起。这种多视角的并行思考,可能才是AI对OPC最大的赋能。除了三省六部搞OPC,我还把这里面所有的模型,拉进一个群里做了一个AI圆桌。三省六部是流程驱动的,有明确的决策链条,适合做执行类的任务。但有些事情不需要出PRD,需要的是把一个问题想透。这个想法也是出自我日常和AI聊天的一个痛点。我经常和一个模型多轮对话,它会给我一篇很工整的分析,逻辑严密,论据充分。但我有的时候总觉得缺点什么,因为它只有一个视角。我追问几轮,它会顺着我的方向越走越深,越走越认同我,但没有人拽它回来,跳到另一个角度上去。毕竟AI的谄媚,大家也都有目共睹了。所以我搭了一个7agent圆桌。但真正参与讨论的只有6个,是Opus 4.6,GPT-5.4,Kimi K2.5,Qwen3 max,Gemini 3.1 pro,Minimax M2.5。再加一个主持agent只负责推进流程。每场圆桌的流程有五轮。第一轮,主持抛出议题,先让每个agent独立分析。然后进入交叉质疑环节,互相挑对方的毛病。第三轮进行回应修正,承认被打中的漏洞,反驳不成立的质疑。最后共识收集,看哪些点全场认了,哪些点还有分歧。接着,投票选举出来一个意见领袖,再由他写最终报告。我一共跑了10场,扒了尽可能全面的议题,政治制度,费米悖论,基因伦理,情感人文,严肃的抽象的都有。让他们讨论。好奇这些议题最后圆桌得出什么结论的可以在评论里扣个数字。10场战报和得票数我放在这了。可以看出来Opus 4.6还是有点太全面了。10场赢了6场,累计36票,基本上是碾压级别的存在。GPT-5.4赢了2场,剩下两场打平。Kimi K2.5和哈基米虽然0胜场,但还有agent投,剩下两位选手就没什么存在感了,重在参与了。虽然规则里明确写了可以自己推荐自己,但全程大家都在推荐别人,除了这位。尽管在质疑环节他是被质疑的最多的。。。真的,这个多Agent协同的玩法,我真的越用越觉得有意思。如果你有想法,愿意深入折腾,我真的觉得,它能做的事情远比我展示的多。不过这几天玩下来,还是发现他在极限状态下,上下文工程上还有优化空间,没有Claude Code的Agent Team优化的好,特别是当我把9个opus 4.6放进去的时候,每个agent都在全力输出,虽然确实有点极限,但多轮对话后,对话的质量就不太稳定了。Claude Code昨天架构也泄了,我觉得这块是可以值得优化一下的。最后,我还是想要强调一下,这个产品真正的领域,其实是跨境电商版的小龙虾,我之前也接触过蛮多外贸商家,相信我,这个对大家的赋能还是有用的,这不过我是纯邪修,给大家分享一下很好玩的用法。希望阿里国际站的人看到了以后不要眼前一黑来追杀我。。。现在也不用排队,人人都能用,免费额度用完就正常付token费就行,打折也挺狠,还挺便宜的,可以去体验下。最近agent产品、功能真的是在井喷。每天醒来都有新东西可以玩,这种兴奋感,像是回到了几年前刚开始写文章的那段时间。不过我很庆幸是现在这个样子。写不过来,恰恰说明这个领域在疯狂生长。如果有一天我觉得没什么可写了,那才是真的该焦虑。今天,我还在和公司的小伙伴说,agent的黄金时代已经到了。而我无比庆幸,我正身处这个时代,并且尽力不被这个时代落下。与君共勉。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/ 作者:卡兹克,tashi>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

来源:数字生命卡兹克发布时间:2026-04-02
智谱善于“亏损” | 深网

图源:视觉中国文丨雅萱 编辑丨叶锦言出品丨深网·腾讯新闻小满工作室“好业务但亏损,就是这个业务成长最快的时候。” 曾有投资人如此解释一些上市公司虽然亏损却受投资者青睐的原因。“全球大模型第一股”智谱AI最新发布的财报,就生动演绎了这句话的现实逻辑。3月31日晚,智谱发布上市以来的第一份财报。2025年全年收入7.243亿元,同比增长131.9%;年内亏损47.18亿元,同比扩大59.5%;剔除股份支付、金融工具公允价值变动等非经营性亏损项后,经调整净亏损31.82亿元,同比扩大29.1%。按常理看,亏损持续扩大或引发股价暴跌,但从智谱财报发布后的首个交易日股价走势看,智谱股价不跌反涨。截至 4 月 1 日港股收盘,智谱股价涨幅 31.94%,报 915 港元 / 股,总市值 4079亿港元;较 3 月 31 日收盘的 3092 亿港元,一天市值涨了近 1000 亿港元。智谱的股价为何 “越亏越涨”?结合智谱财报及 CEO 张鹏对公司 API 增长及智能范式转变等表述,发现智谱并非不会赚钱,而是 “善于战略性亏损”。不过,这种“越亏越涨”的逻辑,建立在市场对未来增长的高度预期之上,一旦情绪过热,便可能引发剧烈的价格修正。4月2日港股开盘后,智谱股价在经历前一日的大幅上涨后出现回调,盘中跌幅一度超过15%,随后跌幅逐渐收窄。这种剧烈波动,或许正是智谱在真正证明自己具备扭亏为盈能力之前,不得不面对的常态。摸清了什么“来钱快”2025年,智谱毛利为2.97亿元,同比增长68.7%,但综合毛利率却从2024年的56.3%下降至2025年的41.0%。财报对此的解释是,这主要是由于云端部署业务收入占比提升,以及本地化部署业务自身毛利率出现阶段性下降所共同导致的。这里先简要解释一下智谱的两种核心商业模式:云端部署业务,即标准化API(MaaS)服务。其核心是将大模型的智能能力(如GLM-5)封装为标准接口,开发者或企业按需调用并按消耗的Token付费。这种“用多少付多少”的模式,边际成本低,具备极强的规模效应,是OpenAI、Anthropic等全球头部AI公司验证的核心赚钱逻辑。本地化部署业务,即为大客户提供私有化部署及定制化解决方案。这种模式更重交付与服务,能很好地满足政企、金融等领域对数据安全与专属定制的刚性需求,但也面临难以规模化的难题。2025 年,智谱的本地化部署业务收入为 5.34 亿元,占总营收比重从 2024 年 84.5% 下降至 73.7%;云端部署业务收入为 1.90 亿元,占总营收比重从 2024 年的 15.5% 增长至 26.3%。从收入构成看,本地化部署业务依然是智谱营收的大头,但从增速看,智谱云端部署业务的收入增速明显高于本地化部署业务,前者 2025 年增幅达 292.6%,后者增幅仅为 102.3%。但由于本地化部署要针对不同的客户投入专门的团队去做定制化开发,边际成本很难降下来。反映在业务毛利率上,智谱本地化部署业务毛利率从2024年的66.0%下降至2025年的48.8%。相比之下,其云端部署业务随着模型推理效率提升、调用规模扩大及定价能力增强,毛利率显著改善,从2024年的3.3%大幅提升至2025年的18.9%,展现出标准化服务的规模效应与盈利潜力。值得注意的是,这种毛利率的改善并非源于降价跑量,而是在其核心API价格逆势上调的情况下实现的。财报显示,截至2026年3月,平台注册用户突破400万,即便API调用定价较去年底提升了83%,市场依然呈现出供不应求的“算力恐慌”。对此,张鹏在业绩会上解释,“API是把AI的基础设施能力转换成经济运行的资源的一个模式,而非一次性的红利。AI的能力已从可用、可玩走向真正解决越来越复杂和重要的问题,使Token的API调用和消耗真正转化为经济价值。”智谱善于亏损智谱2025年云端部署业务292.6%的同比增幅,进一步印证了高阶智能是当下的稀缺资源,谁掌握了上界,谁就掌握了定价权。智谱在财报中指出,“如果说智能上界决定了技术的定价权,那么Token的消耗规模则决定了商业价值的体量。”基于这一认知,智谱在财报中明确提出了其通向AGI的商业逻辑:AGI商业价值 = 智能上界 × Token消耗规模。要保持模型的高阶智能,就需要智谱的GLM-5等大模型保持持续的代际领先与技术壁垒,这必然要求企业以重金投入研发,通过海量数据与算力迭代以及提升AI人才密度,不断拉升智能上限。这也恰恰解释了为何智谱 2025 年内亏损高达 47.18 亿元,却依然备受资本市场青睐的原因。财报明确指出,智谱2025年净亏损扩大,主要受研发投入持续增加影响。2025年智谱研发开支31.80亿元,同比增长44.9%,远低于131.9%的营收增速。这意味着,智谱在维持高强度研发、巩固“智能上界”的同时,其核心业务的商业化进程已开始展现出规模效应。财报指出,智谱研发成本增长主要源于两项核心成本的增加:一是由于员工成本增加,包括扩大研发团队及股份支付费用增加。截至2025年末,智谱拥有1094名正式员工,产生总薪酬成本(含股份支付)13.63亿元。二是由于支付第三方算力供应商的计算服务费用的增加,包括迭代模型及投资更先进的模型训练基础设施。在智谱的财务核算口径中,按模型训练时长灵活调用第三方GPU产生的算力服务成本,计入研发开支;仅锁定GPU资源的长期设备租赁相关支出,计入资本支出。换句话说,智谱研发开支主要投入了两个方面,AI 人才与算力储备,这也是智谱要保持大模型 “高阶智能” 及掌控 “智能定价权” 所要支付的必要成本。为把资金更集中地用于直接推动研发和业务增长,智谱在 2025 年调整了算力采购模式,以服务采购为主、辅以部分设备租赁相结合的方式满足需求。财报显示,智谱 2025 年资本开支约为7470 万元,对比 2024 年的 4.623 亿元,减少了约 83.8%,资本开支大幅收缩的同时,核心研发投入的使用效率进一步提升。除此之外,资本市场看好的另一核心逻辑是,其降低了对单一大客户的依赖度。财报显示,2024 年其第一大客户收入占比达 19%,2025 年无任何一个客户收入占比超过 10%。 小满工作室 | 腾讯新闻出品本文版权归“腾讯新闻”所有,如需转载请在文后留言,经允许后方可转载。第1437期运营排版:小九 你“在看”我吗?

来源:深网腾讯新闻发布时间:2026-04-02
全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

MODEL今天,智谱发布 GLM-5V-Turbo,定位「面向视觉编程的多模态 Coding 基座模型」一句话概括:在 GLM-5-Turbo 的编程和龙虾能力基座上,加入了原生的视觉理解和推理能力模型能看懂设计稿、截图、网页界面,据此生成完整可运行的代码GLM-5V-Turbo Playground:左边是手绘草图,右边是生成的完整前端页面从 GLM-5 到 GLM-5V-Turbo先理一下产品线关系2 月 11 日,智谱发布 GLM-5,744B 参数的开源旗舰,主打编程和 Agentic Engineering。3 月 16 日,GLM-5-Turbo 跟进,专门针对龙虾(OpenClaw/AutoClaw)场景做了优化,强化工具调用、指令遵循、长链路执行今天的 GLM-5V-Turbo 是这条线的第三步:在 GLM-5-Turbo 的全部能力基础上,从预训练阶段就融入了视觉能力具体多了什么:→ 原生理解图片、视频、设计稿、文档版面等多模态输入→ 支持画框、截图、读网页等多模态工具调用→ 上下文窗口 200K→ 与 Claude Code、OpenClaw/AutoClaw 深度适配关键词是「原生」。这里的视觉能力是从预训练阶段就开始训的,后训练阶段再做多模态协同优化,和在文本模型上面接一个视觉编码器的做法不一样Benchmark先看多模态相关的指标。对比对象是 Kimi K2.5 和 Claude Opus 4.6多模态 Benchmark:Multimodal Coding / Tool Use / GUI Agent在 Design2Code、ImageMining、BrowseComp-VL、MMSearch、AndroidWorld 这几项上,GLM-5V-Turbo 均为三者最高。Opus 4.6 在 Flame-VLM-Code(98.8)和 Vision2Web(43.5)上领先再看纯文本 Coding 和龙虾任务的指标。这张表多了一列 GLM-5-Turbo(纯文本版),可以看视觉能力引入后纯文本能力有没有退化纯文本 Coding 和 Claw BenchmarkCC-Backend:GLM-5V-Turbo 22.8 vs GLM-5-Turbo 20.5,视觉版反而略高CC-Frontend:68.4 vs 69.4,基本持平CC-Repo-Exploration:72.2 vs 68.9,视觉版略高官方的结论是:视觉能力引入后,纯文本编程与推理能力保持了同等水准。从数据看,个别项还有小幅提升。Opus 4.6 在纯文本 Coding 三项上均领先(CC-Backend 26.9,CC-Frontend 75.9,CC-Repo-Exploration 74.4),在 PinchBench 和 ClawEval 上也占优,这个差距客观存在内测合作伙伴反馈内测阶段,字节 TRAE 模型测评团队、美团和快手万擎模型测评团队分别给出了评价:GLM-5V-Turbo 实现了从设计稿到代码的完整还原,作为一款视觉理解模型,能够很好地满足开发者的前端开发场景TRAE 模型测评团队原生多模态能力的引入并未削弱其编程逻辑,其编程能力仍属于国内第一梯队美团它为 Agent 安上了「眼睛」,同时在编程领域展现出优于同类多模态模型的能力,在视觉编程场景中更具竞争力快手万擎模型测评团队四项技术升级GLM-5V-Turbo 的能力来自模型架构、训练方法、数据构造、工具链四个层面的系统性改动原生多模态融合GLM-5V-Turbo 从预训练阶段开始做文本与视觉的深度融合。智谱研发了新一代 CogViT 视觉编码器,官方称在通用物体识别、细粒度理解、几何与空间感知上均达最优。同时设计了兼容多模态输入的 MTP(Multi-Token Prediction) 结构,在多模态场景下保持较高的推理效率30+ 任务协同强化学习强化学习阶段同时优化 30 多 个任务类型,覆盖 STEM、grounding、video、GUI Agent 等子领域。官方称这种多任务协同的方式有效缓解了单领域训练的不稳定性,模型在感知、推理、Agentic 执行上均有提升Agentic 数据与任务构造Agent 数据一直是行业痛点:数据稀缺,验证困难。智谱的做法是构建从元素感知到序列级动作预测的多层级体系,用合成环境大规模生成可控、可验证的训练数据一个有意思的细节:他们从预训练阶段就注入 Agentic 元能力,比如把 GUI Agent PRM 数据加入预训练来降低幻觉多模态工具链扩展在文本工具之外,GLM-5V-Turbo 新增支持多模态搜索、画框、截图、读网页等多模态 tools。这让 Agent 的感知链路从纯文本扩展到视觉交互,可以「看懂环境 → 规划动作 → 执行任务」形成完整闭环典型场景下面用实际案例展开,信息量比较大图像即代码GLM-5V-Turbo 最核心的能力场景。你可以发送草图、设计稿、参考网站的截图或录屏,模型直接理解布局、配色、组件层级与交互逻辑,生成完整可运行的前端工程前端复刻:发截图或录屏,模型还原版式、配色、动效等视觉细节,生成可运行代码GUI 自主探索复刻:结合 Claude Code,模型自主探索目标网站,浏览页面结构、梳理跳转关系、采集素材,然后直接生成代码复现整个站点交互式编辑:支持按需求增删页面模块、修改文案样式、调整布局、补充交互功能文档解读与写作给模型一份 PDF 文档,它读完之后可以按照你的要求撰写特定格式的文章NVIDIA 10-Q 财报 → 中文财务简报比如把 NVIDIA 2026 财年第一季度 10-Q 表格扔给 AutoClaw,提示词是「阅读文档,汇总关键数据,撰写一份简报,保存到 result.md」,模型输出了包含营收、利润、毛利率、EPS 等关键数据和业务板块分析的中文财务简报另一个案例是给一篇 40 页的 GLM-5 论文 PDF,让模型按微信公众号风格撰写宣传文案。模型自动从原文中定位和截取关键图表,嵌入到合适的位置,输出图文并茂的文章论文 PDF → 公众号风格图文文案PDF-to-WEB / PDF-to-PPT这两个能力做成了官方 Skill。PDF-to-WEB 是把论文或报告转成精美的单页学术网站。用 BERT 论文和 GLM-5 论文做的实测,渲染结果的完成度很高,接近手工做的学术项目主页PDF-to-WEB 渲染结果PDF-to-PPT 则是把文档转成多页 HTML 演示文稿。比如用阿里巴巴的近期动态做了一个 14 页的分析 PPT,模型自主搜索了季度财报、业务板块数据和竞争格局,配了图表多模态 Deep Research这里展示两个深度调研的案例第一个是「搜集小米汽车相关图片,输出图文交错的专题报告」。模型通过约 50 轮网络搜索,从各个渠道获取了包括新一代 SU7、YU7/YU7 GT、YU9 等车型的图片和产线、工厂照片,输出了一份结构化分析报告小米汽车 Deep Research 报告第二个是「结合阿里巴巴的近期动态和季度财报,仿照麦肯锡风格,生成专业 PPT」。模型同样自主完成了信息搜集、数据整理和可视化呈现阿里巴巴麦肯锡风格 PPT视觉 Grounding模型能在图片中精准定位目标物体。几个有意思的例子:数手指:给一张手部 X 光片,让模型用坐标标出所有手指的位置。模型准确识别并标注了 6 个手指(包括左右两侧拇指和中间 4 个手指)多模态搜索 + 识别:给了一张 1927 年第五届索尔维会议的合影照片,提示词是「框出图中全部人物以及他们的名字」。模型成功识别并框出了全部 29 位人物,从第三排的奥古斯特·皮卡尔德到第一排的爱因斯坦索尔维会议 29 人全部识别并框出空间推理模型在空间理解上的能力可以和具身机器人结合。一个实测案例是一张厨房场景照片,提示词是「我想切火腿肠,请问我的手应该操作哪个位置?请在图中点出对应的位置」。模型标注出了菜刀刀柄的位置,并给出了操作指导空间推理 - 标注菜刀刀柄位置为龙虾装上眼睛接入 GLM-5V-Turbo 之后,龙虾(AutoClaw/OpenClaw)的任务边界大幅拓宽。以前只能处理纯文本任务,现在可以浏览网页和文档、生成图文并茂的报告和 PPT、查询并解读 K 线图官方已上线「股票分析师」Skill,利用视觉能力让龙虾直接看懂 K 线走势、估值区间图和券商研报图表,四路数据源 60 秒并行采集,输出图文交错的研报14 个官方 Skills智谱为 GLM-5V-Turbo 准备了 14 个官方 Skills,分三类基于主模型原生能力(4 个)→PDF-to-WEB:论文/报告转单页学术网站→PDF-to-PPT:文档转多页 HTML 演示文稿→Web-Replication:给 URL,模型自主探索并复刻整个网站→PRD-to-App:产品需求文档 + 原型图转全栈 Web 应用作为外部工具调用(5 个)→图像 Captioning:自动分析图像内容,生成自然语言描述→视觉 Grounding:根据文字描述在图像中精准定位目标→基于文档的写作:读文档、提关键信息、生成特定格式文本→简历筛选:读简历,和职位要求智能比对→提示词生成:根据参考图/视频,自动构建文生图/视频的 Prompt基于专用模型 GLM-OCR / GLM-Image(5 个)→通用文字识别:印刷体、手写体、多语言文本→表格识别:还原行列结构和合并单元格→手写体识别:适应连笔、潦草等复杂书写→公式识别:复杂公式转 LaTeX→文生图:自然语言生成图像全部 Skills 已上线 ClawHub:一键安装GitHub:zai-org/GLM-skills接入方式产品体验→ AutoClaw(澳龙):autoglm.zhipuai.cn/autoclaw→ Z.ai:chat.z.aiz.aiAPI 接入→ BigModel 开放平台:docs.bigmodel.cn→ Z.ai:docs.z.aihttps://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turboClaude Code在 ~/.claude/settings.json 中配置:→ANTHROPIC_BASE_URL 设为 https://open.bigmodel.cn/api/anthropic→ 模型 ID 填 glm-5v-turbo或在会话中直接 /model glm-5v-turbo 切换AutoClaw / OpenClaw 接入设置里添加自定义模型:→ 服务商选「智谱」→ 模型 ID 填 glm-5v-turbo→ Base URL 填 https://open.bigmodel.cn/api/paas/v4→ 填入 API Key 即可Coding Plan:现面向 Coding Plan 用户开放申请,后续 GLM Coding Plan 也会纳入 GLM-5V-Turbo申请问卷:zhipu-ai.feishu.cn/share/base/form/shrcn...GLM-5,2 月 11 日GLM-5-Turbo,3 月 16 日GLM-5V-Turbo,4 月 2 日大约每两到三周一个版本。这次补上的是视觉能力,龙虾和 Claude Code 的感知链路从纯文本扩展到了视觉交互

来源:赛博禅心发布时间:2026-04-02
Claude Code“开源”24小时!底裤扒光,工程奇迹与漏洞同时暴露

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!短短几行配置文件写错,掀开了全球人工智能巨头最为核心的技术底牌。高达51.2万行代码的Claude Code源码顷刻间在全网彻底曝光,连同深藏不露的底层逻辑与致命安全漏洞一并大白于天下。从人为失误引发的打包灾难,到未发布自动驾驶级助手的提前现身,再到零交互控制电脑的严重危机,全网技术人员都在为Claude Code“被开源”疯狂。阴差阳错的全面曝光2026年3月底的清晨,知名安全研究员Chaofan Shou在社交平台上爆出一则惊人消息,如同在平静的湖面投下巨石。Anthropic当前正处于高速发展的狂飙期,年化经常性收入已经突破25亿美元大关,企业估值更是一飞冲天。恰恰在这样一个万众瞩目的关键节点,官方在发布版本号为2.1.88的更新包时犯下致命错误。相关源代码通过npm(Node包管理器)公共注册表中的一个map文件惨遭泄露,体量庞大的核心代码完全在线裸奔。事发仅30分钟,克隆相关源码的GitHub项目星标数量直接冲破5000大关,引发全网程序员与研究人员疯狂围观。Fork数甚至超过了星标数。暴露在外的是一个体积达到59.8MB的调试专用文件。在现代软件开发中,开发者为了提升程序运行速度与减小文件体积,通常会将代码进行极致的压缩与混淆处理。Source Map文件就像是一把还原密码锁的钥匙,专门用于将压缩混淆后的生产环境代码映射回原始源代码,主要目的是方便开发者在内部测试时快速定位错误环节。把拥有极高商业机密价值的内部信息直接发布到公共平台,无异于敞开金库大门,向全世界公开了底层核心逻辑、工程实现细节以及内部调用的各种复杂机制。人们猜测,这可能是Claude Code 100%自编码的后果。许多开发者在深入追踪后发现,问题源头或许与Bun运行时的已知缺陷有关。Bun官方文档宣称在生产模式下会自动禁用映射文件生成,底层代码却依旧保留了输出机制。官方发言人随后向科技媒体Decrypt正式确认,早些时候发布的一个版本确实包含了部分内部源代码,属于人为错误导致的发布打包问题。发言人强调未涉及客户敏感数据,且不构成直接的安全漏洞。主导该项目的负责人Boris Cherny也在社交平台上坦言就是开发者的粗心大意所致。Claude Code整个系统架构极为庞大且精密。使用React加上Ink组件库构建终端UI(用户界面),使其能够在命令行黑框中渲染出动态且极具交互性的视觉效果。系统总体量达到51.2万行纯净的TypeScript代码,完美展示了顶尖团队对人工智能工程师的终极理解。万能工具箱区域包含40多个独立运作的模块,不仅能读取写入文件与执行Bash底层命令,甚至内置了LSP(语言服务器协议)深度集成和子代理生成能力。最为核心的QueryEngine.ts超级大脑文件长达4.6万行,就像系统的心脏,负责处理所有的逻辑推理、Token(文本标记)精准计数以及复杂的思维链循环。代码中同时出现了负责多智能体协调运作的协调模块,以及负责连接VS Code与JetBrains等IDE(集成开发环境)的桥梁组件,预示着多机协同与深度嵌入实战能力已经完全就绪。就连代号为卡皮巴拉的内部模型,也在源码中赫然现身。藏在代码里的硬核机密普通大众还在围观戏剧性时刻,另一批硬核极客已经沉下心来逐行阅读代码,尝试还原背后的设计逻辑。原本绝密不对外公开的系统级策略被悉数揭示,尤其在模型能力保护与数据安全层面,工程设计的防线远比外界想象的更加错综复杂。社交平台用户Sahil在海量文件中敏锐地发现,系统底层内置了2套反蒸馏机制,专门用于防止竞争对手利用交互数据进行模型训练。其中一套机制极具迷惑性,会在模型输出流中随机注入伪造的工具调用指令,犹如在清澈的水源中投入染料,彻底污染任何被自动化脚本抓取的数据,使其难以被有效用于二次训练。另一套机制负责将所有真实工具调用的具体细节抽象成模糊的摘要文本,使得外部观察者很难还原智能体实际执行的精准操作。安全研究员Lior Alexander对源码进行深度分析后给出了14点详尽总结。在名为utils/userPromptKeywords.ts的26行微小文件中,系统会在每条用户输入指令发送到API之前,用2组极为严苛的正则表达式检测用户脏话粗口。模块专门用于检测负面情绪,精准识别各类抱怨、咒骂与沮丧的表达并捕捉记录下来。负责人在评论区回应称,捕获情绪数据是用来判断用户体验是否良好的关键信号之一。代码库中还隐藏着一个名为Undercover Mode的隐蔽模块。代码文件仅有90行,却赋予了人工智能在参与外部开源项目时隐藏真实身份的能力。当系统在非内部代码库中运行时,模块会强制抹除所有关于研发公司的特征痕迹,严禁在提交记录中提及内部代号、沟通频道或产品名称。相关模式只能通过修改环境变量强制开启,却没有任何代码逻辑允许将其强制关闭。人工智能领域顶尖专家Sebastian Raschka深度拆解后,详细列举了6大技术杀手锏。关于上下文压缩如何实现、多智能体如何防偷懒、MCP如何安全调度,诸多带着机密色彩的工程难题全部有了教科书般的公开答案。完整的记忆架构也被绘制成直观图表在各大技术社区疯转。大众从代码中得知,系统果断拒绝无脑存储所有对话历史,选择采用受限式、结构化且具备自我修复与清理能力的记忆机制。以下表格展示了代码中隐藏的8项未发布功能细节:隐藏功能KAIROS揭示了开发团队的终极目标。模块一旦激活,就能化身为全天候在线、自主运行的后台守护进程。无需用户提出明确需求,系统就能主动监听代码变更并自己跑去执行修复与重构任务。Auto-Dream模块则会在深夜用户休息时自动苏醒,对白天的庞大记忆碎片进行深度整合与修剪,确保次日运行的敏捷度。ULTRAPLAN功能支持将长达30分钟的深度规划任务转移至云端强大模型进行运算。大牛Karpathy点评认为相关功能明显是将其龙虾化,使其具备了无尽进化的惊人潜力。还有一个充满温度与趣味的小彩蛋引发了广泛共鸣。项目代码里完整包含了一个名为Buddy的陪伴系统,原本计划在4月1日至7日期间作为惊喜彩蛋发布。经过泄露风波的折腾,官方紧锣密鼓地改变策略,索性直接将其推向市场。用户只需在终端中输入claude update更新本地程序,再输入/buddy指令,屏幕上就会随机孵化出一个活灵活现的小宠物。开发团队一共精心设计了鸭子、鹅、猫、章鱼、猫头鹰、企鹅、乌龟、蜗牛等18个截然不同的电子宠物。就像风靡全球的抽卡游戏一样,不同宠物拥有不同的稀有度等级。系统甚至为宠物设计了精美的像素动画效果与不断漂浮的爱心特效,在枯燥的代码编写过程中为程序员提供极大的情绪价值。每个宠物不仅获取概率大不相同,更被赋予了迥异的鲜明性格。Chaos数值高的宠物会在屏幕边缘随意乱窜,Snark数值拉满的宠物则会在代码报错时无情吐槽。它们会在命令行终端页面静静陪伴着用户一起处理繁重工作。英伟达技术专家Yadong Xie为此专门开发了一个独立的视觉界面,方便大家与电子宠物们进行更直观的实时交互,感受冰冷代码之外的温暖陪伴。版权游击战与此同时,一场激烈的版权游击战在开源社区全面打响。极度热爱官方工具的韩国开发者Sigrid Jin将源码推送到相关平台上,引发了空前反响。上演了30分钟不到,5000+星标,8000+ Fork奇迹。克隆数彻底碾压星标数,全网连夜疯狂搬运代码,生怕晚一秒就会被平台强制删除。24小时已经近10万星标,9万Fork。官方在泄露后,也迅速采取行动,试图通过DMCA(数字千年版权法)版权投诉机制,封死所有外泄的源码仓库。据华尔街日报报道,Sigrid Jin是全球极度活跃的使用者,去年个人消耗了惊人的250亿个Token算力。清晨4点被手机消息轰炸叫醒后,身边的女友极度担忧他会因为电脑里下载了源码而面临天价诉讼。面对极其严厉的法律压力,该顶尖极客在极其短暂的8个小时内完成了一次罕见的换壳手术。借助代码生成大模型的辅助,他将庞大的TypeScript代码底层逻辑吃透,随后使用Python和Rust将整个系统全部重构了一遍,并重命名仓库为claw-code。名为claw-code的新仓库沿用了所有的架构设计理念与优秀工程模式,唯独不包含任何一行原有的TypeScript代码。凭借净室逆向工程的法律豁免原则,官方此前的版权投诉在新项目面前瞬间失效。众多网友们纷纷在技术论坛感慨,继OpenClaw之后,又一个史上星标增长最快的殿堂级开源仓库就此诞生。零交互投毒的致命漏洞随着海量开发者开始从各种非官方渠道获取、修改并重新打包相关的衍生项目和快捷插件,深藏在架构底层的致命安全风险随之浮出水面。系统在设计之初为了追求极致的自动化体验,引入了名为hooks的自动化钩子机制。允许项目目录下的.claude/settings.json配置文件提前定义好各类自动化脚本。用户只要在当前目录运行核心命令的瞬间,脚本就会在后台静默执行任意系统级指令,全程完全不弹出任何安全确认窗口。把便利的机制与第三方克隆代码结合在一起,形成了一个巨大的安全黑洞。只要用户的电脑被别有用心的人下套,运行命令后,系统的最高控制权便瞬间易主。用户的私密密码、高清摄像头画面乃至整台电脑的文件系统,都可以被远端服务器静默控制。从开源平台上克隆一个看起来完全正常的业务项目,打开命令行终端输入启动指令,电脑摄像头便被毫无征兆地调起,密码凭证被迅速打包拷走,系统深层后门被悄然植入。全程处于绝对的零交互状态,受害用户对正在发生的致命危险一无所知。知名科技UP主Jack Cui成为全网第一个公开实测并完整演示致命漏洞的人,详尽的视频版分析已上传至B站供大众审阅与警惕。演示项目中仅包含一个极其简单的配置文件夹加一个毫无内容的空白Python脚本,没有任何其他惹人怀疑的可执行文件。在终端输入指令并按下回车键的瞬间,3件极其恐怖的事情同时在后台发生。电脑摄像头被静默调起,录制的画面实时显示在屏幕左下角的小窗中。右侧隐蔽文件夹里自动创建一个名为扫描到的密码文本文档,里面密密麻麻写满了被强制窃取的本机密钥信息与各类登录凭证。整个入侵窃取过程犹如鬼魅,没有任何确认弹窗与系统权限请求提示。Jack Cui在视频中深入剖析指出,看似不起眼的配置文件仅仅是众多攻击入口的冰山一角。整个系统体系默认信任本地文件且绝对不做二次确认的底层机制,为黑客大开了方便之门。下表详细总结了视频中揭示的3条核心投毒路径:底层配置文件赋予了程序极高的系统接管权限,彻底缺乏严格的沙盒隔离防护与必要的人工交互确认,导致原本旨在提升效率的日常开发工具瞬间沦为危机四伏的高危木马。这场始于一次打包失误的代码泄露风波,不仅为全球开发者呈上了一场大饱眼福的技术盛宴,更敲响了人工智能时代终端底层安全的震耳警钟。大家在满怀热情拥抱最新自动化技术的同时,务必时刻警惕潜藏在暗处的未知代码风险,认真审视每一次回车键背后的执行逻辑。本次Claude Code“被开源”,拉高了智能体工程的平均技术水位,科技公司智能体项目或将迎来底层架构大版本更新。参考资料:https://github.com/instructkr/claude-codehttps://x.com/Fried_rice/status/2038894956459290963https://x.com/LiorOnAI/status/2039068248390688803https://claude-buddy.vercel.app/#rabbitwww.bilibili.com/video/BV1b195B4EX3END点击图片立即报名?️

来源:AIGC开放社区发布时间:2026-04-02
获韶音投资,一家AI公司做了“硬件版OpenClaw” | 智能涌现独家

“小龙虾”时刻后,AI硬件开发范式已经改变。文|邓咏仪编辑|苏建勋当OpenClaw风暴席卷全球之时,无界方舟创始人曾晓东的反应不是兴奋,而是一种“终于被看见”的感觉。“OpenClaw本质上是一个Agent框架,底层是一个会写代码的Agent,放在云端服务器或者电脑上。”他对《智能涌现》说,“我们的AIOS本质上也是一个Agent框架,但它是放在硬件端侧的OpenClaw——机器人、耳机、眼镜,都可以在这套OS上运行。”无界方舟从2024年成立起,就在做这件事。曾晓东给这套范式起了个名字:Vibe Hardware——用自然语言做硬件开发,AI就能自己写程序、调驱动、完成整个应用研发与部署。目前,无界方舟已经建立起了从硬件产品到OS的产品体系,包括AIOS“EVA”,以及包括AI教育机器人“奇多多AI学伴机”在内的硬件和产品生态。近期,无界方舟也完成连续两轮Pre-A轮融资。投资方包括全球知名穿戴式设备品牌韶音、国瑞源基金、恒松资本、上海天使会,易凯资本担任独家财务顾问。过去一年内,无界方舟已经快速完成4轮融资,累计融资金额数亿元。△无界方舟创始人曾晓东无界方舟创始人曾晓东曾在阿里巴巴及蚂蚁集团任职10年,从0到1孵化了刷脸支付、支付宝盒(千万级销量)、淘咖啡(中国第一家无人超市)等硬件产品。经历过AI 1.0时代从做硬件层产品到系统的全过程,曾晓东说:“我认为潜力最大的是做内核本身,也就是OS。但要做内核不可能凭空想象,所以我需要先端到端做完一款硬件。”无界方舟的目标,也并不是做单一的大模型公司或硬件公司,而是去打造一套面向新一代智能终端的AI操作系统(AIOS)框架,让不同形态的设备都能在统一底座上运行、迭代。“小龙虾”时刻后,AI硬件开发范式已经改变“小龙虾”OpenClaw爆火后,Harness Engineering也成为硅谷热议话题。当模型能力越来越强,真正决定Agent好不好用的不再是模型本身,而是模型运行的环境:它能调用什么工具?它怎么理解当前状态?反馈回路怎么设计?这套“环境”就是Harness。EVA OS做的就是硬件领域的Harness Engineering。“可以理解为,EVA OS 就是硬件版本的Context Model,是给OS做加法,而不是替代。”曾晓东说。他对《智能涌现》多次强调,EVA OS不是要做另一个鸿蒙。上一个传统操作系统(Android、Linux、ROS)时代中,并不是AI能力不行,而是缺少一层——让AI能力原生地跑在硬件上的中间层。这个“中间层”到底需要做什么?以前,调通一条完整的AI硬件链路并做到可服务,至少需要3个人、2-3个月的时间和成本。但安装了EVA OS之后,开发者只用自然语言描述需求,AI知道自己所在硬件的环境,自己把APP写出来。平均只需要半小时,就能让端侧变成一个可实时交互的AI,带记忆,可以实时调整。这种开发范式建立在EVA OS和硬件强耦合的基础上。如果AI不了解它所在硬件的完整上下文——芯片算力多大、哪些传感器在线、内存还剩多少、外设连接状态如何——就不可能在上面研发任何APP。这是EVA OS最大的难点,也是核心壁垒。近期,无界方舟就已经和一家机械手臂公司合作,将搭载EVA OS的开发板接上机械手臂后,AI先自己调通驱动、自己修Bug,然后开始自主探索。工程师发出指令“帮我拿起某个东西”,EVA OS就能够自己写程序、自己试错。“EVA OS可以自己试错,是因为它知道开发板跟手臂之间的连接状态。这跟以前完全不同。”曾晓东说。以前,工程师得自己看驱动文档、排查各种硬件Bug,再一步步调通,让硬件摆脱从前的传统OS“预制APP+抽象硬件”的模式。为了能够在算力有限的端侧跑通,EVA OS采取云端和本地协同的一种高效架构。EVA OS可以做到语音延迟小于250ms,多模态反馈小于350ms,这相较行业通用方案600ms左右的语音延迟提升非常多。EVA OS的逻辑是,把能在硬件端侧做完的事情留在本地,只把复杂推理丢给云端。语音识别、TTS、视觉感知这些高频交互环节放在端侧,而不需要每次通过云端计算。端侧模型则承担记忆、执行和交互三层能力——记住用户习惯、调用工具、提供交互界面;而云端保留通用知识和复杂推理,端侧负责将这些能力变成硬件上真正能跑的东西。感知模型完全跑在端侧,成本能降70%-92%。△EVA OS的记忆能力,能够回忆影像的关键画面,回答相应问题,比如出现在视频中的某个物件的位置本轮融资后,无界方舟还将发布一款新硬件终端EVA Pi。曾晓东表示,这会是一台“可以自主写代码、自主更新的硬件终端”。△图源:无界方舟EVA Pi集成了EVA OS,能实时感知硬件侧全部上下文(传感器、驱动、链路状态、运行反馈),在端侧原生完成AI应用的开发、部署与迭代。目前,EVA OS 1.0发布3个多月,已有超过2500家企业与研发单位将其应用于硬件产品研发,品类则覆盖AI耳机、AI眼镜、桌面机器人、智能腕带、车载智能管家、机械手臂等多个品类,合作方包括全球知名的可穿戴设备和具身智能头部企业。模型端到端,决定了AIOS能否存在和曾晓东的交流中,你会强烈感觉到他对端到端路线的坚持。2024年上半年,大模型领域尚处在语言模型的风暴当中,多模态交互的技术路线尚未收敛。唯一的参照物是GPT-4o的发布会演示——但当时的OpenAI甚至还没有开放API。当时,绝大多数AI硬件公司都选择走“串联”路线——将ASR(语音识别)、大语言模型、TTS(语音合成)等模块像流水线一样接在一起,完成对应的任务。这条路线相对成熟、成本足够经济。“但问题也很明显:模块之间的信息损耗严重,比如情绪、语气、连续性全部丢失,延迟层层叠加,会有很多修理的Bug。”曾晓东说。他并没有选择这个方向,而是带着7个人的团队,经过近一年时间,推出了可以跑在硬件侧的端到端多模态基座模型,这是EVA OS的基础。这源于曾晓东此前在蚂蚁的多次“创业”经历——孵化刷脸支付、支付宝盒、淘咖啡的过程中,反复撞上同一堵墙:AI算法和终端硬件之间,存在一条巨大的鸿沟,中间层严重缺位。从无界方舟的选择反推,本质是因为,未来的端到端模型一定要以更小的成本跑在各种端侧设备上,这才是创业公司的机会。如果纯做软件侧的垂类模型,太容易被基模厂商吞噬。一个例子是,无界方舟从2024年开始,就已经通过“奇多多AI学伴机”探索AI教育方向;而做基模的巨头们普遍在2024年下半年到2025年才入局AI+教育赛道,无界方舟就提早了半年到一年左右的窗口。当前,无界方舟自研的端到端模型,用一个模型就同时处理语音识别、语音合成、视觉理解和语言推理,信息损耗大大减少。自研端到端路线,首先是打开了更多硬件品类和场景。“我们的一个端侧模型,语音识别加TTS合在一起,一个模型完成两个任务,不需要GPU,完全跑在CPU上,内存占用不超过1G。”曾晓东说。在出海场景下,耳机、眼镜等设备面对的海外网络环境极不稳定,搭载EVA OS的硬件,能够做到不需要联网,就能完成语音识别、语音合成和基础翻译。奇多多AI学伴机就是EVA OS的第一个落地案例——面向3-10岁儿童的AI教育机器人。曾晓东把奇多多AI学伴机称为EVA OS的硬件“样板间”。目前,奇多多的用户使用不算APP使用,仅计算AI对话、AI阅读等硬件使用时长,当前奇多多AI学伴机的用户日均使用高达145分钟。自研模型也会带来交互体验的差异化。这很大程度是因为端到端模型不经过各个模态间“翻译”,语音和视觉信号直接关联语言模型——它能感知情绪,能捕捉连续对话中的语境变化,回应因此更像一个真实的人。成本优势同样关键。自研的端到端模型让语音成本降至行业通用方案的二十分之一。所以,奇多多AI学伴机能够做到千元级别售价,并且后续无订阅费。两年前,曾晓东带着七个人押注了硬件端到端这条没有先例的路。两年后,EVA OS已经迭代到了第三版,无界方舟正在孵化更多To C的硬件品类,和越来越多的品类合作——AI眼镜和AI耳机等等。模型的进化速度依旧远超人们想象。不过,曾晓东说,更大的赌局才刚开始。做AI硬件的操作系统,这条路并不新鲜。2017年前后,国内曾涌现过一批机器人OS创业公司,试图像安卓一样构建生态。成功者寥寥。天猫精灵和小米音箱靠补贴迅速占领入口,但它们定义的是“音箱”这一品类而非“智能体”,直接挤压了垂直型OS的生存空间。成本是更加致命的问题——当时追求高性能只能用手机级芯片,单颗成本高达几百美金,即便终端卖到两三千块,公司依然在赔钱。曾晓东认为,大模型时代的机会和AI 1.0时代有本质区别。“AI硬件的操作系统,现在全球还没有一个真正意义上的赢家。窗口期可能就这两三年。”某种程度上,大模型重新定义了硬件的交互方式——内容不再需要预先灌装,AI自己生成。低功耗AI芯片的成本降到了可商用的区间;端到端模型,则让一个创业公司有可能用极小的团队,把从模型到硬件的整条链路打通。“天时地利人和,上一波不具备的条件,这一波全齐了。”现在,无界方舟内部已经全面Vibe Hardware,硬件迭代速度变成了每天一次。为了成为一家能把AIOS做出来的公司,曾晓东从去年开始推动一次组织变革——全员Vibe Coding,不论工程师、产品经理还是运营,所有人的工作都要汇集到代码层面。“当一家公司全员的所有动作都汇集到Vibe Coding,你所有的数据就结构化了。结构化之后,真正的中间层优化才有可能发生。”他说。封面来源|企业官方?? 扫码加入「智涌AI交流群」??36氪旗下AI公众号?? 真诚推荐你关注 ??

来源:智能涌现发布时间:2026-04-02
从数字经济到词元经济:浅析经济形态的转变与生产函数的重塑|甲子光年智库

从数字经济到词元经济,浅论经济结构范式的升级。1.词元经济的提出背景1.1 概念起点:从Token到“词元”2026年春节,OpenClaw引爆了一轮“养虾”热潮。在全民养虾的背景之下,一个中文的词汇的确定悄然发生,成为这波浪潮之中的一朵水花,并没有引起广泛的关注,这个词汇就是——词元(Token)。在人工智能语境中,Token长期被视为模型处理信息的基本单位。其本质并非单纯“字符”或“词”,而是可被机器解析、计算与调度的最小语义单元。在中文语境下,将Token译为“词元”,不仅强调其语言属性,更凸显其作为计算与执行载体的结构性意义。当Token从“语义切分单位”升级为“能力调用单元”,其经济学内涵开始显现:词元不再只是信息单位,而成为生产要素的最小可调度单元。1.2 AI演进路径:从感知到执行人工智能的发展路径,为这一转变提供了清晰的技术逻辑。从早期以视觉识别和语音识别为代表的感知式AI,到以大语言模型为核心的生成式AI,再到当前以任务执行为导向的代理式AI,技术演进的本质是机器能力从“感知世界”走向“改造世界”。人工智能发展的三阶段跃迁:感知式AI:以视觉、语音识别为核心,解决“看见与听见”的问题;生成式AI:以大模型为代表,实现“理解与表达”,核心形态是对话;代理式AI:以任务执行为核心,实现“决策与行动”的闭环。生成式AI的核心形态是对话,其价值在于认知增强;而代理式AI则突破了这一边界,使AI具备了跨系统调用工具、执行复杂任务链条的能力。以OpenClaw为代表的系统,其跨系统调用能力、多任务链路执行、自主决策与反馈闭环等特点,意味着AI从“认知工具”跃迁为“执行主体”,从辅助人类决策,转向直接参与生产过程,这种变化的意义不在于能力的简单增强,而在于AI在生产体系中的角色发生了根本性转变。根据人与AI的协同程度不同,甲子光年智库将代理式AI的应用演进分为五个阶段:AI工具:将AI产品作为一个工具来使用,大部分工作仍需要自己主导;AI助手:将AI产品作为一个可交互协作的助手来使用,一半交给AI产品,一半自己主导;AI助理:将AI产品作为一个高度智能化的助理,一多半工作可以交给AI完成;AI员工:将AI产品作为一个数字同事,可以自主完成所有内容;AI创生:AI产品已经不局限于数字世界,已经可以与之协作对现实世界产生影响(如协作研发、控制机器人搬运等);AI文明:已经实现了人与AI产品的高度耦合,人的归人,AI的归AI,实现人与AI的高效协作。人工智能的发展已正式进入“代理执行”阶段。OpenClaw的出现,让AI跳出了传统的聊天对话框,转变为能够直接跨软件、自主完成复杂任务的系统执行者,推动代理式AI应用实现从“AI助手”向“AI员工”跃进。1.3 经济形态演进:从农业经济到数字经济从宏观经济史视角观察,人类社会的经济形态始终围绕“生产什么”与“如何生产”不断演进。在农业经济时代,生产围绕土地与原材料展开,经济行为以自给自足为主;工业经济则通过机械化与规模化生产实现商品的大规模制造;服务经济进一步通过分工与流程优化提升效率。进入21世纪之后,数字经济成为主导,其核心逻辑是:以数据为生产资料,以软件为生产工具,以平台为组织形态。然而,尽管数字经济极大提升了信息处理效率,其生产执行仍然依赖人类或组织完成,这一结构性约束始终未被突破。自2022年大模型突破以来,大模型与工具调用能力的融合,使AI具备了“从认知到执行”的闭环能力。首先,自然语言理解与代码生成的结合,使得AI能够理解复杂指令并生成可执行的代码或方案。其次,API 调用与工具使用的能力,让AI能够自主调用外部服务和工具,扩展其能力边界。最后,多轮任务规划与执行反馈的闭环,使AI能够规划多步骤任务,并根据执行结果进行自我调整。当这些能力在代理式AI中整合后,出现了一个新的经济基础:能力被标准化、接口化,并可以被“调用”。这标志着经济系统的底层单位,从“数据”升级为“词元”,经济运行逻辑从“信息处理”为核心的数字经济,逐步过渡到以“能力调度”为核心的新形态。在这一背景下,“词元经济”的提出,本质上是对这一底层变革的理论抽象。因此,甲子光年智库认为,未来经济形态将会从数字经济向词元经济过渡。2.AI对经济范式的重构:从数字经济到词元经济2.1 词元经济的定义词元经济 (Token Economy), 是指围绕词元进行生产、调度、流通与消费,以Agent 为执行主体,以能力接口为基础的新型经济形态。在这一体系中,词元不再只是语言处理单位,而是承载能力调用的最小计价单元;Agent成为执行主体,而能力接口则构成基础设施。经济运行的核心不再是资源配置,而是能力调度。其核心特征体现在四个方面的根本性转变:生产对象变化:从“数据/软件” 转变为 “能力/服务单元”,本质是词元生产调度方式变化:从“组织管理” 转变为 “算法调度”,本质是词元调度执行主体变化:从“人类/组织” 转变为 “Agent”,本质是词元流通价值载体变化:从“产品” 转变为 “能力调用次数(Token)”,本质是词元消费/使用2.2 词元经济的完整链条在词元经济框架下,“词元”的生产、调度、流通与消费构成了一条完整且闭环的价值链。这一链条并非简单的技术分层,而是对应着经济系统中从供给生成到价值实现的全过程。与工业经济中的“原材料—制造—流通—消费”类似,词元经济形成了“算力生产—智能调度—能力分发—应用消费”的新型结构。其本质是:将“能力”拆解为可调用单元,并通过系统化调度完成价值转化。词元经济的完整链条可以概括为:词元生产环节:以AI Infra为主,是词元的“生产机制”,将原始计算资源转化为可被调用的“词元生产能力”,决定供给能力;词元调度环节:以AI OS层为主,是词元的“调度中枢”,完成词元的调度,其核心功能是对能力进行统一编排与调度,决定使用效率;词元流通环节:以Agent开发层为主,是词元的“流通机制”,决定了词元的扩散速度与网络效应;词元消费环节:以Agent应用层为主,完成词元的消费使用,即词元被实际使用并转化为经济价值的过程,决定价值实现。这一链条的本质,是将经济运行的核心从“资源流动”转向“能力流动”。在传统经济中,资源需要通过组织与市场进行配置;而在词元经济中,能力通过接口被直接调用,流动成本极低,配置效率显著提升。因此,在未来:谁控制词元生产,谁掌握供给;谁控制词元调度,谁掌握效率;谁控制词元流通,谁掌握网络;谁控制词元消费,谁掌握价值。2.3 经济结构与边界理论的重构在此基础上,词元经济对传统经济结构从三个方面进行重构:交易成本重构。基于罗纳德·科斯的理论,企业存在的根本原因在于市场交易成本过高。然而,当能力通过接口进行调用,信息高度对称,合约能够自动执行时,市场交易成本将显著下降,从而削弱企业内部化的必要性,导致企业边界收缩。规模经济重构。传统规模优势来自固定成本摊薄和标准化生产,而在词元经济中,规模优势来自能力调用效率与Agent并发执行能力,规模不再依赖“更多生产”,而依赖“更优调度”。组织成本函数重构。在组织成本层面,传统企业的管理成本通常随着人员规模呈指数级增长,而在Agent主导的体系中,管理成本被压缩为算力成本,表现为词元的消费使用量,从而使组织趋于扁平化甚至去组织化,中层管理将会被压缩。这一系列变化,最终推动企业边界理论的升级。在传统理论中,企业通过内部化交易以降低成本;而在词元经济中,企业通过接口化能力以降低调度成本。这一变化带来的本质影响是:企业边界动态化组织形态流动化生产单元节点化由此,企业不再是一个封闭的生产单元,而成为一个动态的能力调度网络。甲子光年将这一新型组织形态称之为AI原生组织。(AI原生组织,是以AI OS为调度中枢、以Agent为执行单元、以动态协同网络为运行机制的新型组织形态 。其典型形态既包括由传统企业演进而来的流态型企业,也包括由传统个体演进而来的生态节点。)点击即可查看《AI原生组织:OpenClaw推动组织形态重塑|甲子光年智库》AI原生组织主要有两大演进路径。路径一是传统企业组织演进路径:传统实体组织通过削减管理层级与开放业务边界,由固化的科层结构最终转化为依托AI OS全局调度的流态型企业。路径二是新兴超级个体演进路径:个体通过调用外部资源与AI Agent,实现生产力杠杆放大,最终演变为具备企业级运作能力的生态节点。两条路径共生共长,共同成为词元经济的主要组织形态。3.词元经济推动生产函数的范式跃迁3.1 核心变量与生产函数为了对词元经济形态进行形式化表达,可以引入三个核心变量:D(Decision):人类决策权A(Agent):Agent执行能力C(Capture):能力抓取系数(以OpenClaw为代表的系统能力)其中,决策权代表人类在系统中的方向性控制,Agent执行能力代表自动化程度与任务完成能力,而能力抓取系数则反映系统能够调度与整合外部资源的能力边界。在此基础上,可以定义新的产出函数:O = D × A × C。其中:A决定自动化程度(执行能力上限)C决定资源边界(可调用能力范围)D决定方向与约束(战略、安全与伦理)这一函数揭示了一个关键事实,即在词元经济中,产出不再由资本与劳动主导,而由“决策 × 执行 × 能力获取”共同决定。这一生产函数的成立,依赖于三个基础性假设:假设1:能力可接口化。所有生产能力(设计、开发、营销、分析)都可以被接口化,即通过标准化接口实现调用与组合,从而使能力具备类似“服务即代码”的属性。假设2:调度成本趋近于零。随着AI调度能力的增强,协调成本将趋近于零,传统组织中复杂的沟通与管理成本被算法所替代,实现组织成本显著下降。假设3:规模来自能力聚合。规模的来源发生转变,企业扩张不再依赖人员增长,而依赖能力的聚合与并发调用规模,这让 “一人公司”成为可行形态。这三个假设共同构成了词元经济的理论基础。3.2 智能调度能力成为核心生产要素词元经济的核心意义,在于其对生产函数的根本性改写。在工业经济与数字经济阶段,经典生产函数通常被表达为Y = F(K, L),即产出由资本与劳动决定。然而,在Agent成为执行主体的条件下,这一函数逐步演化为Y = F(D, A, C)。这一变化意味着意味着:资本(K)边际作用下降劳动(L)被Agent替代智能调度能力成为核心生产要素从本质上看,这一转变标志着经济系统从“要素驱动”转向“调度驱动”。在要素驱动模式中,资源的占有与投入是决定竞争力的关键;而在调度驱动模式中,关键在于如何高效地组合与调用分布式能力。这种变化将重新定义竞争逻辑,使得“能力编排能力”成为最核心的竞争优势。进一步来看,这一范式跃迁还意味着价值载体的变化。在传统经济中,价值通常以商品或服务的形式体现;在数字经济中,价值更多体现为数据与平台流量;而在词元经济中,价值将以“能力调用次数”或“词元消耗量”的形式存在。换言之,经济活动的计价基础,从“产品价格”转向“词元使用量”。因此,可以提出一个战略级判断:词元经济并非数字经济的延伸,而是其执行层的革命。当能力可以被标准化调用、执行可以被自动化完成时,经济系统的核心将从资源配置转向能力调度。这一变化不仅影响企业行为,也将重塑国家竞争与个体价值的实现方式。企业的竞争将从“资源占有”转向“能力编排”,国家的竞争将从“产业规模”转向“AI原生基础设施”,个体的价值将从“劳动时间”转向“调度能力”。4.词元经济的系统性影响在国家政策层面,词元经济将推动生产要素与治理体系的双重重构。一方面,数据作为核心生产要素的地位将被进一步演化,词元作为能力调用单位将成为新的价值载体,算力则逐步演化为类似电力的基础设施。另一方面,产业政策的重心将从传统的产业扶持转向能力接口体系的建设,即通过构建统一的能力标准与调度平台,提升国家整体的资源配置效率。同时,监管体系也将面临新的挑战,传统以企业为主体的监管模式,需逐步扩展至以Agent为核心的数字执行体。在宏观经济层面,国家还需要警惕“幽灵GDP”现象(“幽灵GDP”,是指在AI技术驱动下,企业通过智能化转型实现生产效率大幅提升,GDP统计仍保持增长,但由于劳动就业减少、居民收入增长停滞甚至下降,社会消费需求不足,经济增长呈现“数字繁荣但实体需求疲软”的结构性现象),关注AI规模化应用后所导致的就业结构、收入分配、消费需求以及资本结构等多个维度的系统性变化,适时构建由产业政策、就业政策、社会保障政策和监管政策共同组成的人工智能经济治理体系,将有助于在推动技术进步的同时维护经济结构和社会结构的长期稳定。在传统产业层面,词元经济将推动生产方式的全面重构。制造业将从封闭的生产体系转变为开放的能力节点,生产线可以被远程调度与动态组合,之前的数字工厂将会向AI原生工厂转型升级;服务业将被拆解为一系列可调用的服务模块,人工服务逐步被Agent替代;农业则在智能化与自动化技术的推动下,从经验驱动转向数据与算法驱动。这些变化共同指向一个趋势,即产业边界逐步模糊,能力成为跨行业流动的核心资源。在AI产业层面,词元经济将重塑AI产业结构。AI Infra作为词元生产者,将会进一步整合基础设施层,模型层将逐步基础设施化,其竞争焦点从参数规模转向稳定性与成本效率;AI OS层将成为核心调度中枢,承担任务调度与执行的关键功能;Agent应用层则更多承担场景封装与用户接口的角色。由此,AI产业的竞争将从模型能力之争,转向调度能力与生态构建能力之争。平台格局的演化将会聚焦在AI OS层,关键在于谁掌握 Agent 调度权,谁定义能力接口标准。在企业层面,词元经济将推动组织形态与商业模式的深刻变化。传统科层型组织将被流态型组织结构所替代,组织的核心不再是“人如何协同”,而是“AI如何被调度”。甲子光年智库将这种新型组织形态称之为AI原生组织,其具有系统接口化、经验资产化、交互意图化、协同流态化、接入凭证化等特征。在商业模式上,AI原生组织将从销售产品转向提供能力调用服务,收入模式从项目制转向按Token计费。在竞争维度上,资本与规模的重要性相对下降,而能力编排与调度能力成为决定性因素。在个体层面,词元经济将重新定义劳动与价值。传统以岗位为基础的职业体系将逐步瓦解,取而代之的是以任务为单位的工作模式。甲子光年将这种新形态称之为生态节点,未来传统个体将逐步升级为超级个体、一人公司,将个人经验封装为工作流后,可以成为流态型企业生态中的关键交付节点。个体收入将从时间计价转向能力计价,个人可以通过Agent扩展自身的生产能力边界,从而实现“生态节点”的组织形态。这种变化不仅提升了个体生产力,也对教育体系与社会结构提出了新的要求。5.从“数字世界”走向“执行世界”综上所述,从数字经济到词元经济的转变,本质上是经济系统从“信息处理范式”向“能力执行范式”的跃迁。数字经济的本质是信息的数字化与流动化,而词元经济的本质是能力的可调用与执行化。二者的根本区别在于数字经济解决的是“知道什么”的问题,词元经济解决的则是“做什么”的问题。AI从认知工具演化为执行主体,词元从语义单位演化为生产要素,经济系统的运行逻辑也随之发生根本变化,经济系统将从“人类主导的生产体系”,演化为“人类决策 + 机器执行”的混合体系。词元,正是这一体系中的最小价值单位。在这一体系中,人类负责定义目标与约束,而机器负责完成执行与优化,词元则成为连接两者的基本单位。由此,经济活动的核心不再是“人做什么”,而是“如何调度能力去做”。这一转变不仅意味着生产效率的提升,更意味着制度、组织与价值体系的全面重构。词元经济,正是这一历史性跃迁的理论表达。我们需要做好准备,共同迎接从数字经济到词元经济的转变。END.

来源:甲子光年发布时间:2026-04-02
共1429条记录
  • 1
  • 2
  • 3
  • 4
  • 120

产业专题

产业大脑平台

产业经济-监测、分析、

研判、预警

数智招商平台

找方向、找目标、管过程

产业数据库

产业链 200+

产业环节 10000+

产业数据 100亿+

企业数据库

工商 司法 专利

信用 风险 产品

招投标 投融资

报告撰写AI智能体

分钟级生成各类型报告

Baidu
map