字节跳动发布豆包 Seed 2.1 系列模型:强化通用 Agent 能力,全面支持跨工具、多模态与真实工作流交付

SmartHey6月23日消息,字节跳动今日在火山引擎官网上线豆包 Seed 2.1 系列大模型,涵盖 Pro 与 Turbo 两大版本,并同步更新了 Seed-Evolving 模型。

Seed 2.1 聚焦日常生活辅助、专业工作提效与前沿技术探索三大场景,研发过程中持续整合内外部用户及开发者的实际反馈,并以真实业务案例驱动优化路径;评估体系亦转向更务实的方向——重点关注模型在端到端工作流中的交付表现,而非仅依赖静态基准测试分数。

更可靠的通用 Agent 能力:Seed 2.1 显著提升多步骤任务的规划与执行稳定性,尤其在跨应用、跨环境(如聊天工具、浏览器、代码平台、文件系统)的复杂协作中表现突出。面对高价值办公任务(如项目策划、合同分析、PPT生成)或个性化生活咨询(如旅行规划、健康建议、学习路径设计),模型可自主完成信息整合、工具调用、内容生成与结果校验,输出具备可操作性的交付成果。

更稳定的代码工程交付能力:Seed 2.1 具备企业级端到端 Coding 能力,能完整承接需求理解、模块开发、缺陷定位、环境配置及运行验证等全流程,显著降低人工介入频次,提升研发闭环效率。

更强劲的多模态与基础能力:模型在视觉理解、知识融合与逻辑推理等底层能力上持续增强,对文档图像、多视角照片、长视频等内容的理解更精准,为 Agentic 场景、代码工程及创新探索提供坚实支撑。

目前,Seed 2.1 系列已全面接入豆包 App 与 TRAE 平台,其 API 接口也已在火山引擎开放,支持开发者快速集成部署。

Seed 2.1 进一步拓展了通用 Agent 的适用边界:在专业工作中,它正逐步替代部分需外部顾问或专业团队介入的环节——例如资料研读、方案草拟、内容编排与成果归档,助力企业实现降本、增效与知识沉淀;在个人场景中,它能高效处理混合格式输入(PDF、图片、网页截图、对话历史),综合上下文进行深度推理并给出可执行建议。

在权威基准评测中,Seed 2.1 表现稳健:Workspace Bench(聚焦复杂文档检索与协同生成)、Agent Startup Bench(基于真实AI原生创业公司调研构建)均达领先水平;Seed 2.1 Pro 在 GDPval(衡量真实任务经济价值的指标)中斩获最高分。

评测结果印证:Seed 2.1 能在复杂材料与模糊目标之间建立有效映射,产出具备实际效用与商业价值的交付物;同时,在更高难度的专业任务中仍保持强鲁棒性与泛化力。

尤为值得关注的是,Seed 2.1 Pro 在新近发布的 Agents' Last Exam(ALE)基准中跻身第一梯队。该评测设计新颖、覆盖广、优化窗口短,能更客观反映模型应对未知专业任务时的任务拆解、工具调度与长程执行能力。

Agents' Last Exam 基准评测中,左侧为完整通过率,右侧为平均综合得分

面向个人生活中的复杂咨询,Seed 2.1 的响应质量与可信度进一步提升。此类任务往往涉及多源异构信息(行业报告、过往记录、截图、语音转文字等),要求模型具备跨模态理解、上下文记忆与偏好适配能力。Seed 2.1 在 xDailyBench、Doubao Multi-Turn Bench 等日常场景基准中表现稳定,并在 Toolathlon、SeedClawBench 等强调工具协同与多轮交互的评测中保持竞争力,验证其在30+垂类(教育、健康、金融、旅行等)中精准识别用户意图、调用合适技能、输出高质量建议的能力。

SeedClawBench 是由 Seed 自主开发的内部基准,用于评估在 OpenClaw 风格、面向用户的场景中,Agent 提供实际辅助的能力

依托升级后的视觉理解能力,Seed 2.1 可在复杂任务中更准确解析视觉语义、锚定用户目标,并驱动后续执行。在 Claw-Eval (MM) 等 Visual Agent 专项评测中整体表现优异。

这意味着模型不仅能识别文档、视频、空间结构等多维视觉信息,更能围绕任务目标进行信息提炼、关系建模与结果生成——例如根据多角度实拍图自动生成标准户型图,或结合截图完成信息检索、文案撰写与前端代码生成等连贯操作。

Image2FloorPlan 为内部自建评测集,考察的任务为理解多张真实照片并绘制平面户型图

在专业生产力场景中,真实工作流天然具备跨界面特性:需在聊天窗口、搜索引擎、浏览器、代码仓库、本地文件与第三方工具间无缝切换。为此,Seed 2.1 重点强化 Computer-Use Agent(CUA)能力,提升其在动态GUI环境中的稳定性与适应性。

在 MobileWorld 手机GUI任务基准中,Seed 2.1 取得当前参评模型最高分,表明其能精准识别屏幕状态、判断操作意图,并连续完成点击、输入、应用切换等动作;在 OSWorld 基准中亦保持领先,且通过强化学习优化决策路径,将任务平均执行步数减少16%,显著提升效率。

此外,Seed 2.1 在 CreativeWork 基准中同样表现亮眼。该基准覆盖 Notion(文档协作)、Canva(视觉设计)、Figma(界面原型)三类典型生产力环境,验证模型可在目标理解、步骤分解、GUI交互与MCP工具调用之间自主协同,稳定完成从构思到交付的全链路任务。

CreativeWork 是 Seed 自研的基准,用于评估 Agent 在真实生产力场景中协同使用 GUI 与 MCP 工具的能力