Qwen3.7-Max 正式发布:35 小时自主执行与 1,158 次工具调用背后,哪些指标更该先看

Alibaba Cloud Community 在 5 月 21 日的官方文章中介绍 Qwen3.7-Max:这是一个面向 Agent 时代的专有模型,重点放在“写代码、调试、自动化办公流程”和“长时自主执行”。文章里给出的描述很明确:它可以在多种 agent 框架(如 Claude Code、OpenClaw 等)上工作,并把这种跨框架表现当作能力目标之一。
文中最直观的例子是一段长时自主执行的 kernel 优化:在约 35 小时的连续运行里,模型完成了 432 次 kernel 评测,总计发起 1,158 次工具调用,自己写、编译、profiling、改错,再迭代到更快的实现。对实际使用者来说,这类展示的重点不在“跑了多久”,而在它能不能把中途失败、编译错误、性能瓶颈这些常见障碍处理掉,并且在多轮修改后保持方向一致。
如果你准备把它放进工程工作流,先别急着换掉现有模型。更稳的做法是拿两类任务各跑一遍:一类是带工具的多步工程任务(读仓库、改多文件、跑脚本、修回归),看它在中途出错时能不能继续推进;另一类是“写到一半就会分叉”的需求澄清任务,看它是不是会把约束条件越写越乱。跑完再对照官方文章里列出的评测设置与工具链约束,结论会更接近真实落地成本。