百度在 2026 年 5 月 9 日发布文心大模型 5.1,并把它同步上线到百度千帆模型广场和文心一言官网。官方博客提到,5.1 在继承 5.0 预训练基础的同时,把总参数压缩到约三分之一、激活参数压缩到约二分之一,并把预训练计算成本压到同规模同类模型的约 6%。同一天,它在 Arena Search 排行榜上拿到 1223 分,进入全球前列,也成了不少团队重新评估“国内搜索型模型入口”的触发点。
如果你在意的是“搜索能力”,别急着把它等同于联网插件。更有用的拆法是把任务拆成两段:一段是多源资料的检索与归并,另一段是把归并后的信息组织成可继续修改的产出物。Arena Search 这一类排名的参考价值也在这里,它更接近真实工作里那种“来源多、口径杂、需要整理”的输入形态,而不是单一事实问答。
Agent 能力也同样需要落到任务上看。官方与媒体报道都提到,文心 5.1 在 τ³-bench、SpreadsheetBench-Verified 这类评测里强调了工具调用与复杂任务执行表现,并在对比里提到了 DeepSeek-V4-Pro。对开发者来说,这类信息的落点通常不是“谁更强”,而是它能否稳定完成你那组固定动作:从网页或文档里抽字段、生成结构化表格、做规则校验、再把结果写成一段能交付给同事复核的说明。
下面是一份更容易复现的测试清单,你可以用同一套材料同时跑文心 5.1 与其他入口(例如 ChatGPT、Gemini、DeepSeek、Kimi),看差异到底出在哪里:
1) 多源检索:给 5 个来源链接(公告、媒体报道、技术博客、产品页、文档页),要求输出同一口径的时间线与差异点,并在正文里标注每条信息来自哪个来源。
2) 资料归并:给一份公司内部的产品介绍 + 一份外部竞品页 + 一段用户反馈,要求合并成一份“可用于评审”的结构化摘要,字段固定(目标用户、核心卖点、限制条件、风险点、待核实问题)。
3) 表格类 Agent:给一份 CSV(或复制表格内容),要求先做清洗(缺失值、异常值、重复行),再输出两张表:一张是清洗后的结果,一张是规则校验报告(哪些行被改了、为什么改、改前改后是什么)。
4) 深度搜索 + 结论约束:给一组问题,要求每个结论都必须能回到来源句子,不能写“可能、或许”这类模糊判断;如果来源里找不到就明确写“无法从来源确认”。
如果你是通过千帆平台接入,TechWeb 的报道提到开发者可以通过修改 model_name 为 ernie-5.1 来调用 API。把上面这套测试脚本化以后,你就能很快判断它到底适合放在“资料入口”“搜索归并”“结构化抽取”还是“长任务执行”这一段,而不是被榜单分数带着走。
参考来源
- IT之家:百度发布文心大模型 5.1:搜索能力位居国内首位,预训练成本仅为业界 6%
- https://www.ithome.com/0/948/079.htm
- ERNIE Blog:ERNIE 5.1 Officially Released! Topping Multiple Leaderboards
- https://ernie.baidu.com/blog/posts/ernie-5.1-0508-release/
- TechWeb(转载至新浪科技):百度文心大模型5.1发布:登顶多个榜单,预训练成本仅为业界 6%
- https://finance.sina.com.cn/tech/roll/2026-05-09/doc-inhxhqpf1482100.shtml