Qwen3.7-Max 正式发布：35 小时自主执行与 1,158 次工具调用背后，哪些指标更该先看

大模型Alibaba Cloud·2026年5月21日

Alibaba Cloud Community 在 5 月 21 日的官方文章中介绍 Qwen3.7-Max：这是一个面向 Agent 时代的专有模型，重点放在“写代码、调试、自动化办公流程”和“长时自主执行”。文章里给出的描述很明确：它可以在多种 agent 框架（如 Claude Code、OpenClaw 等）上工作，并把这种跨框架表现当作能力目标之一。

文中最直观的例子是一段长时自主执行的 kernel 优化：在约 35 小时的连续运行里，模型完成了 432 次 kernel 评测，总计发起 1,158 次工具调用，自己写、编译、profiling、改错，再迭代到更快的实现。对实际使用者来说，这类展示的重点不在“跑了多久”，而在它能不能把中途失败、编译错误、性能瓶颈这些常见障碍处理掉，并且在多轮修改后保持方向一致。

如果你准备把它放进工程工作流，先别急着换掉现有模型。更稳的做法是拿两类任务各跑一遍：一类是带工具的多步工程任务（读仓库、改多文件、跑脚本、修回归），看它在中途出错时能不能继续推进；另一类是“写到一半就会分叉”的需求澄清任务，看它是不是会把约束条件越写越乱。跑完再对照官方文章里列出的评测设置与工具链约束，结论会更接近真实落地成本。