李彦宏宣称无幻觉，文心一言亲测却 “打脸”？

2024/11/14 16:51 新识研究所

　　11月12日，在百度世界2024大会上，李彦宏在主题为《应用来了》的演讲中，公开对外表达了“过去24个月，AI行业的最大变化是什么?是大模型基本消除了幻觉”的看法，并且发布了检索增强的文生图技术(iRAG)，称其可“用于解决大模型在图片生成上的幻觉问题，极大提升实用性”。

　　然而在体验中，新识研究所却发现文心一言在文字与文生图上消除/解决了幻觉，可能只是李彦宏的“幻觉”。

　　一：李彦宏说大模型消除幻觉，文心一言复现却漏洞百出?

　　作为在发布会上展示的技术，除了当场演示不翻车之外，最起码要做到让用户可以复现。但李彦宏这次的现场演示，却实在让人怀疑他用的是不是提前预设好的东西。

　　在大会当场，李彦宏隆重推出了检索增强的文生图技术——iRAG。据介绍，该技术将百度搜索的亿级图片资源与基础模型能力相结合，能生成极为逼真的图片。李彦宏强调，iRAG技术效果远超原生文生图系统，成功消除了机器味，并显著提升了AI生成图片的实用性。

　　那么是怎么个消除了机器味、证明生成的图片是真实的呢?李彦宏拿出了天坛作为案例。

　　首先，李彦宏使用某开源模型生成了一张北京天坛的图片，然后告诉大家，这张天坛图片是错误的，因为天坛只有三层而该开源模型生成的图片中天坛有四层，并告诉大家，这就是图像等多模态模型幻觉的最真实情况。

　　而在指出这个开源模型的错误后，李彦宏也展示了文心一言利用iRAG技术生成的爱因斯坦在天坛的图片，以展现百度iRAG技术消除多模态模型幻觉的实力。

　　这一切看似很流畅，使用了iRAG技术生成的图片也的确不再“臆想”，但在我们复现该图片的时候，却出现了问题。

　　在同样的要求之下，文心大模型生成的“天坛”却不像李彦宏当场展示的一般，而是给出了有四层的“天坛”图片，这不刚好也算是犯了李彦宏指出同行们的错误吗?

　　在层数之外，这张生成的“天坛”照片在下面栏杆的数量上也与真实的天坛对不上号，真实的天坛共有三层栏杆，而生成的图片则有四层甚至五层栏杆出现。

　　或许有人觉得我这样的要求有点“吹毛求疵”，但在五次同样的要求之下，文心一言有三次给出了“打脸”李彦宏的输出结果，实在令人有些汗颜。

　　而在另外一张现场展示的“大众揽巡汽车飞跃长城”图片上，文心一言也给出了同展示相去甚远的答案。

　　左上图为真实的大众揽巡，左下为大会展示的大众揽巡，而右图则为再次生成的大众揽巡，李彦宏展示的图片与真实的揽巡的确相差不远，但为何再次生成的图片，连大众的logo都被“幻觉”掉了呢?

　　在图片之外，李彦宏表示文字层面的RAG已经做得很好，基本让大模型消除了幻觉，但作为日常深度使用各家大模型的用户来说，起码在豆包、Kimi、文心一言这些大众使用频率最高的大模型应用上，是远远达不到李彦宏所说的程度的。

　　而从技术上来说，RAG(检索增强生成)本质上是一种基于信息检索方法缓解LLM幻觉的技术，就是无法彻底杜绝模型的幻觉问题，这似乎就是Transformer架构本身的问题，例如在处理代码编写和数学等需要推理的任务时，RAG的表现就不那么理想了，而如此武断地给出RAG基本让大模型消除了幻觉的论断，真的没有问题吗?

　　二：李彦宏，才是被“忽悠瘸”的那个?

　　如果说像这样的事件是偶然的话那还可以理解，但从AI时代开始李彦宏与百度的多次发声与动作来看，也不能排除李彦宏被下面做产品、做业务甚至所宣传的人“忽悠”出幻觉的可能。

　　作为最先发布大模型的企业，百度的文心一言在去年年初可谓是风光无两，就差把中国大模型之光的title安在脑袋上了。但一年半之后的现在，占尽先发优势的文小言的MAU只有豆包的四分之一，同文心一言年龄相仿的月之暗面的产品Kimi也快要赶上。

　　而要追究个中原因，虽然的确脱不开近几个月豆包有抖音“独家宣传权”、Kimi大肆烧钱的因素，但归根结底，还是由于百度在大模型上的进展并没有保持住领先优势。

　　在今年4月Create 2024百度AI开发者大会上，百度带来了包括智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder在内的三个AI开发工具，其中的智能体开发工具AgentBuilder似乎有很大的超越性，也被百度寄予了厚望。

　　但是，在创建智能体的能力上，百度的超越性并没有宣称的那么大。

　　以豆包为例，发现智能体、创建AI智能体也早已对C端用户放开，并在真实的使用中并不输给百度AgentBuilder开发的智能体。

　　李彦宏对于大模型技术和趋势的一些发言和判断，也经常会让人觉得与现实发展并不相符。

　　同样在今年4月Create 2024百度AI开发者大会上，李彦宏曾表示：“开源模型会越来越落后”。他给出的原因是，大家以前用开源觉得便宜，其实在大模型场景下，开源是最贵的，所以开源模型会越来越落后。

　　开源模型成本高就一定会落后?显然并不是直接的因果关系。更何况在技术领域，几乎每一个开发者都信奉开源的力量，认为开源驱动了绝大多数技术创新，那为什么到了李彦宏这里就出现了另一种答案呢?

　　而再往前，早在去年百度发布文心一言时，李彦宏就称“百度文心一言和OpenAI差距可能在两个月左右”，但王小川直言“这可能是平行宇宙里的李彦宏说的，不是我们这个世界里的”。至于彼时百度文心一言和ChatGPT的差距究竟有多大，当前文心一言的使用体验有没有追上GPT-4o，其实明眼人都能看得出来。

　　再加上一直以来重发布、轻落地，重宣传、轻体验的大模型应用功能迭代，很难让人不怀疑，以技术出身的Robin，是真的跟随百度进入了AI时代，还是在潜移默化之间被筑起的信息茧房慢慢同化，成为了那些产品开发人员、业务人员乃至公关人员的“发声筒”了?

　　参考资料：

　　《李彦宏是不是被骗了?》，数字进化岛;

　　《大模型「幻觉」，看这一篇就够了 | 哈工大华为出品》，量子位;

　　《(全文)李彦宏最新演讲：文心大模型每天调用量达15亿》，数据观;

　　《李彦宏宣布：百度iRAG技术让AI生成图片更逼真，大模型幻觉问题已解》，小熊财经;

　　作者：杨启隆

　　编辑：丁力

　　榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn（把#换成@）。

分享到微博分享到微信

李彦宏宣称无幻觉，文心一言亲测却 “打脸”？

相关阅读

新动态

关注度

最话题