AI Agent 生态速报 | 2026-05-21:DeepSeek Code 入局,编码 Agent 五方混战开幕
Agent 生态周报
2026/05/21 10:06:06@chinamusk

AI Agent 生态速报 | 2026-05-21:DeepSeek Code 入局,编码 Agent 五方混战开幕

DeepSeek 宣布组建 Harness 团队开发「DeepSeek Code」直接对标 Claude Code 和 Codex,编码 Agent 从双人博弈演变为五方混战;Microsoft Agent Framework 推出 FIDES 确定性 prompt injection 防护;agentmemory 从 404 复活发布 v0.8.2 并带出与 mem0/Letta 的基准对比;Nebius 收购 Tavily 将 agentic search 层并入生产 AI 栈。

リサーチノート

Google I/O 的发布周余温尚在,本期最值得盯紧的信号已经转移:DeepSeek 宣布组建专属 Harness 团队开发「DeepSeek Code」,直接对标 Claude Code 和 Codex;Microsoft Agent Framework 推出确定性 prompt injection 防护机制 FIDES;上期报道的 agentmemory 项目从 GitHub 404 状态复活并带出基准测试数据;Nebius 则通过收购 Tavily 把 agentic search 层整合进其生产 AI 基础设施栈。

编码 Agent 五方混战:DeepSeek Code 入局

本周(5/20)最具冲击性的消息来自中国。DeepSeek 研究员 Deli Chen 在 X 上公开发布招聘帖,透露公司正在北京组建名为「Harness」的新团队,开发内部代号「DeepSeek Code」的 AI 编码 Agent——直接对标 Anthropic 的 Claude Code、OpenAI 的 Codex 和 Cursor。1
DeepSeek 对「Harness」的定义是:模型之外的全部配套——工具调用、规划、记忆。这个概念本身(模型 + Harness = Agent)也是当前编码 Agent 工程化的核心命题,DeepSeek 用这个词命名团队,说明其出发点是把 Agent 能力框架化而非只做模型微调。
职位要求耐人寻味:候选人须是 Claude Code、Cursor、Codex 或 GitHub Copilot 的重度用户,同时需要了解 Agent 循环、MCP、多 Agent 系统和上下文工程(context engineering),「vibe coding」经验也在预期之列。
至此,终端编码 Agent 市场已形成明确的五方格局:
工具背后公司商业模式主战场
Claude CodeAnthropic订阅 + 信用点终端 agentic 任务
CodexOpenAI按用量计费IDE + 后台任务
Cursor / ComposerCursor订阅IDE 内联编辑
GitHub CopilotMicrosoft企业订阅IDE 补全 + 工作流
DeepSeek CodeDeepSeek待定研发初期
根据 AI Weekly 的统计,Claude Code 目前贡献约 4% 的公开 GitHub commits(2026 年 3 月),Anthropic 预测年底将达 20%2。同一数据源显示,Claude Code 在「最受工程师喜爱」维度评分最高(46%),而 GitHub Copilot 仍是采用率最高的工具(29%)。
DeepSeek 入局意味着:编码 Agent 已不再是 OpenAI 和 Anthropic 的双人博弈,中国 AI 公司开始在工具链层面主动布局,而不只是在模型层面参与竞争。

Microsoft FIDES:把 prompt injection 防护从「概率性」升级为「确定性」

Microsoft Agent Framework 本周发布 FIDES(Flow Integrity Deterministic Enforcement System),这是首个嵌入开源 Agent 框架的确定性信息流安全机制,从 Agent Framework v1.3.0 起可用。3
FIDES 针对的问题是:现有主流防护(防御性系统提示、手写允许列表、内容过滤、事后监控)全部是「概率性」方案——本质上在押注模型会识别攻击,但模型识别率不是 100%,一旦不可信内容携带特定构造,防护就会静默失效。
FIDES 的解法是在工具调用层做「信息流标签强制」:
  • 完整性标签trusted / untrusted):开发者可控内容 vs. 外部输入。任何携带 untrusted 标签的内容,不经过显式授权就无法触发标注了 accepts_untrusted=False 的工具(如写文件、发邮件)
  • 机密性标签public / private / user_identity):私有内容无法流向标注了 max_allowed_confidentiality="public" 的对外工具(如发帖、公开 API 调用)
  • 标签自动传播:中间件全链路跟踪,工具输出自动继承最严格的输入标签,开发者无需手动处理传播
  • 可选隔离 LLM:开启 auto_hide_untrusted=True 后,不可信内容被存储为引用,主模型上下文中只保留引用 ID,原始文本由独立的无工具 LLM 处理,主模型永远不接触原始不可信内容
当前为实验性功能,官方承认存在限制:未标注工具默认被视为 trusted/public(有漏标风险);标签传播采用最严格优先策略(一个 session 中混入不可信内容后整轮被标记为不可信);隔离 LLM 暂不支持多轮调用。
对于在生产中部署「需要读取外部内容 + 拥有特权工具」的 Agent(典型场景:读取邮件/Issue 并自动回复或执行操作),FIDES 是目前已知的唯一确定性防护方案。代码已开源,pip install agent-framework 即可获取。

agentmemory v0.8.2:记忆赛道「复活赛」数据出炉

上期本刊追踪了 agentmemory(rohitg00/agentmemory)项目与另外两个记忆相关项目同时返回 GitHub 404 的异常情况。本期更新:agentmemory 已恢复可访问,并在 5/20 前后完成了 v0.8.2 更新,带来新基准测试数据。4
关键数据:
指标agentmemorymem0 (LoCoMo)Letta / MemGPTBM25-only
检索准确率 R@5(LongMemEval-S)95.2%68.5%83.2%86.2%
检索准确率 R@1098.6%94.6%
Token 用量(对比全量上下文)~170K / 年
年度成本(使用本地嵌入)$0
v0.8.2 的具体变更包括:默认绑定 localhost(安全加固)、新增 agentmemory demo 命令、新增与 mem0/Letta/Khoj 的基准对比、新增 OpenClaw 网关插件,以及 CLI 和 Viewer 界面的实时 token 节省展示。
架构上值得关注的一点:agentmemory 采用四级记忆结构(工作记忆→情节记忆→语义记忆→程序记忆),检索方式是三流融合(BM25 关键词 + 向量语义 + 知识图谱,用 RRF 重排序)。单纯和竞品在 R@5 上对比,95.2% vs. mem0 的 68.5% 差距相当显著——但这类基准由项目方自己发布,独立复现前需保持审慎。
项目「三 404 后复活」的具体经过仍未公开说明。另外两个消失的项目(Memoria、TencentDB-Agent-Memory)截至发稿仍无法访问。

Nebius 收购 Tavily:把 agentic search 嵌进推理栈

Nebius 于 5/20 宣布收购 Tavily,后者是专为 AI Agent 设计的网络访问层,提供搜索、提取、结构化处理的单 API 封装,输出格式原生适配 LLM 和 Agent 工作流。5
这笔交易的逻辑是:Nebius 自身是高性能推理提供商(Token Factory),但 Agent 需要的不只是推理能力,还需要「知道今天发生了什么」的实时信息。Tavily 补的正是这个缺口——Token Factory 管推理,Tavily 管实时信息获取,两者组合构成可部署的完整 Agent 生产栈。
Tavily 将保留独立品牌,继续服务现有开发者生态,现有 API 不变。整合路径目前是「将 Tavily 作为工具注册到 Token Factory 模型」,支持 OpenAI 兼容接口调用,官方 cookbook 中已有可运行示例。
对照上期追踪的 Anthropic 收购 Stainless(SDK + MCP Server 工具链):两笔收购都在向「控制 Agent 的关键连接层」方向推进,只是切入点不同——Anthropic 控制的是「模型如何连接工具」的编程接口层,Nebius 控制的是「Agent 如何获取外部信息」的数据接入层。AI 基础设施的并购逻辑正在从「买算力」转向「买 Agent 关键组件」。
リンクプレビューを読み込んでいます…

本周 Agent 生态其余进展

Antigravity 2.0 技术细节浮出
dev.to AI Weekly 补充了 Google I/O Antigravity 2.0 的一个关键数据点:现场 demo 中,系统在 12 小时内生成了一个可运行的 OS 核心框架(调用 93 个子 Agent,计算成本低于 1000 美元)——初版缺少键盘驱动,演示者当场补写并最终成功运行 Doom。2 Gemini CLI 和 Gemini Code Assist IDE 扩展将于 6 月 18 日对消费者停止免费提供,企业许可保持不变。
A2A v1.2 进入生产部署
Agent2Agent 协议 v1.2 已在 150+ 组织(包括 Microsoft、AWS、Salesforce、SAP、ServiceNow)实现生产部署,新增密码学签名的 Agent Card 用于域名验证。协议现由 Linux Foundation 下的 Agentic AI Foundation 负责治理,LangGraph、CrewAI、LlamaIndex、Semantic Kernel、AutoGen 均已原生支持。
Claude 商业订阅首次反超 ChatGPT
2026 年 5 月 Ramp AI Index 数据:美国企业付费订阅中,Anthropic Claude 首次超越 OpenAI ChatGPT(4 月数据)。需注意 Ramp 样本偏向风险投资支持的科技公司,且统计口径是订阅数而非使用量。Anthropic 另一口径数据:Claude Code 驱动下,Q1 2026 企业订阅数量翻四倍,年化运行率达 25 亿美元(2026 年 2 月数据)。2
Anthropic 信用点计费调整(6/15 生效)
Anthropic 宣布从 6 月 15 日起将程序化 Claude 使用与订阅限制分离,改为信用点计费(Pro 用户 $20 信用额度,Max 5x $100,Max 20x $200)。行业层面的判断:无限制定额的 Agent 使用订阅已不可持续,信用点或按量计费是各平台的结构性趋势。

跨轮跟踪更新

事项上次状态本期
Gemini 3.5 Pro内部测试,「下月发布」无新信息,维持待确认
Gemini Spark MCP 扩展「未来几周」无新信息
WebMCP Chrome 稳定版Chrome 149 Beta 源试用预计 Chrome 正式支持约 2027 年 3 月,Firefox/Safari 暂无计划
Musk v Altman 上诉第九巡回法院无新信息
agentmemory 4045/18 报告 404✅ 已复活,v0.8.2 发布
Memoria / TencentDB-Agent-Memory404❌ 仍无法访问

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。