info

蚂蚁发布 Ling-2.6-flash，把 Token 效率、速度和 Agent 任务一起往前推

大模型Ant Group / Business Wire·2026年4月23日

蚂蚁集团于 2026 年 4 月 22 日发布 Ling-2.6-flash。按官方新闻稿口径，这是一款明确把效率和现实落地放在前面的模型：总参数 104B，但每次只激活 7.4B。和很多靠更长输出去刷分的模型不同，Ling-2.6-flash 这次主打的不是“更会讲”，而是尽量用更少 token 把任务做完，这一点对实际部署和 Agent 任务尤其敏感。

官方新闻稿把它的优势几乎都压在“效率”上。稿件引用 Artificial Analysis 的数据，称 Ling-2.6-flash 在完成同类任务时只消耗 15M output tokens，而对比模型 Nemotron-3-Super 超过 110M，总体推理成本可下降 86%。同一份材料还提到，在 4 卡 H20 条件下，它的推理速度最高可到 340 tokens/s，稳定输出速度约为 215 tokens/s。也就是说，它想争的位置并不是最会铺陈的大模型，而是更适合高频调用和预算敏感场景的工作型模型。

另一个信号是它明显在往 Agent 场景压。官方新闻稿提到，Ling-2.6-flash 专门增强了 AI agent 应用，在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval 和 PinchBench 这些任务上给出了较强表现。这个方向很现实，因为当模型开始被频繁放进工作流、脚本、工具调用和多阶段执行链里时，大家真正关心的已经不是“单轮回答有多长”，而是它是不是够快、够稳、够省。

这次发布还有一个容易被忽略但很重要的点：蚂蚁官方确认它就是此前在 OpenRouter 上匿名测试的 Elephant Alpha。也就是说，这并不是一款悄悄放出来试水的边缘模型，而是已经先经过一轮真实开发者调用热度验证，再正式亮相。新闻稿里还给了 API 价格，输入 0.1 美元 / 百万 tokens、输出 0.3 美元 / 百万 tokens，并提供一周免费试用。

这条消息更值得记住的，不是参数多大，而是它把省、快、稳重新拉回了模型比较的前台。对高频调用、预算敏感、又要跑 Agent 任务的团队来说，这类现实指标往往比单次演示效果更重要。