智谱推出 GLM-5V-Turbo,视觉编程开始往“看图写代码”走了一步
4 月 2 日,智谱发布 GLM-5V-Turbo,定位为首个原生多模态 Coding 基座模型。与常见的纯文本 Coding 模型不同,这款模型把视觉理解和编程能力做进了同一条链路,设计稿、网页截图、K 线图表进来,直接生成可运行代码,实现“所见即所得”的编程体验。
这个方向瞄准了一个具体的开发场景。很多流程里,尤其是在前端开发和真实 GUI 操纵等场景中,麻烦的不是让模型补一段函数代码,而是要先让它看懂界面、屏幕状态、页面结构,再决定下一步怎么改。视觉和代码能力合进同一个基础层,让这段转换的距离进一步缩小。
官方信息显示,模型原生处理文本、图片、视频等多模态信息,在多模态 Coding 和 Agent 相关基准上以更小尺寸取得了领先;引入视觉能力的同时,纯文本编程与推理能力保持在同等水准而并未退化。从这个定位来看,智谱的目标在于把两件事合进同一个基础层,而不是给现有 Coding 模型外挂一个视觉模块。

另一个值得关注的点,是它与 OpenClaw 的深度适配。按照官方公开信息,GLM-5V-Turbo 让 OpenClaw 龙虾这类 Agent 具备了真正的视觉能力,直接看懂屏幕,再规划和执行任务。这一步打通之后,AI 编程的入口会慢慢从“写提示词”转向“读界面、改界面、操作界面”。
当然,在能看懂截图和能稳定完成复杂 GUI 任务之间,仍然有很长一段距离。但方向上,这款模型表明了一件事,下一阶段的编程助手,在动手前得先看得懂自己身处的环境。目前 GLM-5V-Turbo 已通过智谱 MaaS 平台开放接入。