美团发布开源万亿参数大模型LongCat-2.0：原生支持100万Token超长上下文，国产万卡集群稳定训练突破

推荐 2026-06-30 11:38

字号

SmartHey6月30日消息，美团今日正式发布新一代万亿参数大模型 LongCat-2.0，并宣布全面开源。

LongCat-2.0 被称为业界首个在五万张国产GPU卡构成的算力集群上完成全流程预训练与高效推理的万亿级MoE模型（总参数量达1.6万亿，平均激活参数约480亿，动态激活范围为330亿至560亿），从零启动全量预训练，原生支持长达100万Token的超长上下文理解与生成。

在正式版发布前，LongCat-2.0 预览版已通过 OpenRouter 平台及专属站点 longcat.ai 向全球开发者开放API调用。截至目前，该模型稳居 OpenRouter 全球大模型月度调用量前三甲——在 Hermes、Claude Code 和 OpenClaw 三大主流平台中，分别位列全球第一、第二和第三位。

其预训练数据规模超30万亿Tokens，涵盖高质量中文、英文、多语言文本及多样化代码语料；针对万卡级国产训练中频发的硬件故障、通信抖动、显存溢出与数值不稳定等挑战，LongCat 团队围绕稳定性、正确性与训练效率三大核心维度，系统性攻克国产AI基础设施适配难题。

在稳定性方面，通过HCCL通信异常自动捕获、弹性扩缩容调度与毫秒级故障自恢复机制，将月均日均故障率降低70%以上；

在正确性方面，自主研发确定性计算算子、Bitwise级一致性校验与实时参数健康检测体系，在保障训练收敛可靠的同时，显著提升关键模块数值精度，并优化All-Reduce通信逻辑；

在效率方面，融合流水线并行调度、显存分层复用与算子级核绑定控制，实现模型训练MFU（Model FLOPs Utilization）提升1.5倍。

最终，LongCat-2.0 实现稳态日吞吐超1万亿Tokens，成功达成万亿参数MoE架构在纯国产算力平台上的可持续、高鲁棒性训练闭环。

在推理阶段，LongCat-2.0 构建了模型—算子—框架三级协同优化体系：

依托大规模专家并行带宽聚合技术，支撑万亿参数MoE模型低延迟解码；
首创“零计算专家”机制，将其无缝嵌入专家通信流程，使被路由至空闲专家的Token完全跳过冗余传输与计算；
针对通信、Attention、GEMM等关键算子深度定制调度策略，并结合权重预取与指令提前下发等框架级优化，显著压缩端到端推理等待时延。

模型采用自研 LongCat Sparse Attention（LSA）稀疏注意力机制，摒弃传统“逐Token扫描”模式，转而智能识别并聚焦关键语义片段，将长文本处理的计算复杂度由O(n²)降至O(n)，确保在100万Token极端长度下仍具备精准信息定位与深层语义理解能力。

针对代码任务中Token计算需求高度异构的特点（如变量命名 vs 递归推导），LongCat-2.0 基于零计算专家实现细粒度token级动态激活（33B~56B），简单Token零开销，复杂Token自动分配更多计算资源，实现真正的“按需算力”。

其创新MOPD（Modularized Orthogonal Parallelism & Dispatch）架构，将Agent、Reasoning、Interaction三类专家能力模块化解耦：Agent Experts专注工具调用与自主容错；Reasoning Experts深耕数学建模与STEM领域逻辑推演；Interaction Experts强化指令对齐与多轮交互体验。推理时由轻量门控网络实时判别任务类型，动态调度最适配专家模块，而非粗粒度参数融合。这一设计使其在编程、逻辑推理与人机协同等关键维度均取得突破性表现。

综合权威评测结果显示，LongCat-2.0 在代码能力与通用智能体（General Agent）任务中表现尤为突出。

编程能力方面，LongCat-2.0 在聚焦真实工程复杂度的 SWE-bench Pro 基准测试中斩获59.5分，超越 Gemini 3.1 Pro（54.2）、GPT-5.5（58.6）及 Claude Opus 4.6（57.3）；在多语言代码评测集 SWE-bench Multilingual 中取得77.3分，紧追 Claude Opus 4.6（77.8）；在真实终端命令交互场景 Terminal-Bench 2.1 中达70.8分，验证其在运维部署、脚本调试等一线开发任务中的强健执行与自主纠错能力。

面向企业级办公智能体落地需求，LongCat-2.0 在多项真实场景评测中达到或逼近前沿闭源模型水平：在搜索智能体基准 RWSearch 中得分78.8；在生产力任务集 FORTE 中达73.2；在浏览器交互评测 BrowseComp 中斩获79.9——充分证明其在复杂意图理解、多步任务编排与跨应用协同方面的实用化能力，有力支撑企业级AI Agent规模化部署。