DeepSeek 这轮被讨论的焦点,开始从代码、长上下文和价格转到图像输入。量子位的实测稿显示,DeepSeek 识图模式已经能碰 OCR、表格识别、网页复原、找不同和空间推理这些任务,而且可以在识图时选择是否开启深度思考。它还处在灰度阶段,能力分布并不均匀,但这个入口已经足够说明 DeepSeek 正在补上多模态工作流里的关键一块。
对普通用户来说,变化先落在资料整理上。很多日常任务原本都卡在第一步:课件截图要先抄成文字,表格图片要先转成结构,网页界面要先描述清楚,PDF 截图要先拆出段落。模型如果能直接读取图片里的文字、布局和表格,后面的总结、改写、对比和提问就可以更早开始。这里节省的不是一次点击,而是少了一轮人工搬运信息的过程。
量子位实测里,OCR 和表格表现比复杂推理更接近可用。把 DeepSeek V4 技术报告摘要丢进去,非思考模式能很快给出文本结果;表格图片也能整理成 Markdown。网页截图复原成 HTML 这一类玩法更能说明问题,因为它要求模型不只是看见文字,还要理解页面结构、按钮和跳转关系。对产品、设计和前端场景来说,这类能力比“描述图片内容”更有用。
开发者最容易感受到的变化,会出现在界面理解和前端工作流里。过去让模型帮忙改页面,经常要先把截图翻译成一段文字说明,再补充哪里错、布局怎么偏。识图能力如果稳定下来,模型可以直接看截图里的间距、布局、按钮和表格结构,再结合代码继续判断。它不会自动替代前端调试,但能减少一层“先解释画面”的成本。
复杂视觉推理还需要保留判断。实测中,空间推理题在非思考模式下给错了答案,开启深度思考后才答对,而且耗时较长;找不同任务也出现了幻觉。这说明 DeepSeek 识图现在更适合先放在信息抽取、结构整理和页面复原这类任务里,复杂视觉推理还不能直接当最终答案使用。写教程和工作流时,这个边界要讲清楚,不能把灰度测试说成全面稳定上线。
这次更新放回 DeepSeek 的整体路线里看,意义在于输入形态变多了。代码、文档、表格、截图、网页和图表如果能进入同一个模型入口,用户后面比较工具时就不只问“谁会写代码”,还会问“谁能少让我搬资料”。这类变化对导航站很适合继续延展,因为它直接对应 OCR 工具、网页复刻工具、前端 AI 编程工具和多模态助手的选型。
DeepSeek 识图模式现在还需要继续观察,尤其是灰度范围、模型版本和复杂任务稳定性。但从 5 月初这批素材看,它已经足够写成一个清楚的结论:最先改变的不是抽象的多模态竞争,而是那些原本要把图片、表格和网页手动整理成文本的任务。
参考来源
- 量子位:DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)
- https://www.qbitai.com/2026/04/411797.html