蚂蚁发布 Ling-2.6-flash,把 Token 效率、速度和 Agent 任务一起往前推

蚂蚁集团于 2026 年 4 月 22 日发布 Ling-2.6-flash。按官方新闻稿口径,这是一款明确把效率和现实落地放在前面的模型:总参数 104B,但每次只激活 7.4B。和很多靠更长输出去刷分的模型不同,Ling-2.6-flash 这次主打的不是“更会讲”,而是尽量用更少 token 把任务做完,这一点对实际部署和 Agent 任务尤其敏感。
官方新闻稿把它的优势几乎都压在“效率”上。稿件引用 Artificial Analysis 的数据,称 Ling-2.6-flash 在完成同类任务时只消耗 15M output tokens,而对比模型 Nemotron-3-Super 超过 110M,总体推理成本可下降 86%。同一份材料还提到,在 4 卡 H20 条件下,它的推理速度最高可到 340 tokens/s,稳定输出速度约为 215 tokens/s。也就是说,它想争的位置并不是最会铺陈的大模型,而是更适合高频调用和预算敏感场景的工作型模型。
另一个信号是它明显在往 Agent 场景压。官方新闻稿提到,Ling-2.6-flash 专门增强了 AI agent 应用,在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval 和 PinchBench 这些任务上给出了较强表现。这个方向很现实,因为当模型开始被频繁放进工作流、脚本、工具调用和多阶段执行链里时,大家真正关心的已经不是“单轮回答有多长”,而是它是不是够快、够稳、够省。
这次发布还有一个容易被忽略但很重要的点:蚂蚁官方确认它就是此前在 OpenRouter 上匿名测试的 Elephant Alpha。也就是说,这并不是一款悄悄放出来试水的边缘模型,而是已经先经过一轮真实开发者调用热度验证,再正式亮相。新闻稿里还给了 API 价格,输入 0.1 美元 / 百万 tokens、输出 0.3 美元 / 百万 tokens,并提供一周免费试用。
这条消息更值得记住的,不是参数多大,而是它把省、快、稳重新拉回了模型比较的前台。对高频调用、预算敏感、又要跑 Agent 任务的团队来说,这类现实指标往往比单次演示效果更重要。