文心一言只是ChatPPT我们和它深

虽然OpenAI在前一天发布GPT-4抢走了不少热度、带来一些压力，但百度并未改变原计划，在上周四如期推出了大型语言模型、生成式AI产品“文心一言”。

把时间拨回到发布会召开那一刻。

当文心一言顶着“国内第一个”的光环亮相后，百度CEO李彦宏坦承，文心一言对标ChatGPT甚至是GPT-4，门槛还是很高的，“我自己测试感觉还是有很多不完美的地方”。

或许是这样的表态，以及李彦宏在现场用录屏展示的操作，影响了资本市场的信心。在发布会最关键的时刻，百度股价却出现短线急跌。

但随着“文心一言”逐步放开体验，以及百度对外释放“申请测试企业破9万”等信息，资本市场的态度开始分化甚至反转。

上周五，百度股价大涨14%。随着新的一周到来，百度股价今天（3月20日）延续涨势，早盘高开3%，收盘涨幅收窄至1%左右，相关概念股也随之拉升。

百度股价走势

在发布会上，“文心一言”展示了文学创作等五方面功能。但由于现场是视频演示，被部分网友调侃为“ChatPPT”。

在真实场景中，文心一言的水平到底如何？实力能否对标ChatGPT？观察者网在拿到测试资格后，也对文心一言进行了一番实测。

先总结下结论，正如李彦宏所说，文心一言的表现确实“算不上完美”、“进步空间很大”，甚至有时候还会胡说八道，但强如GPT-4也不能完全避免这些问题。

从实测来看，文心一言的表现没有想象中的那么差，甚至在部分场景中有些出人意料。随着公测逐步放开，反馈越来越多，文心一言这类大模型的水平可能会进一步提高。

文心一言生成的图片

实测“五大功能”，部分结果出乎意料

在发布会上，李彦宏相继介绍了文心一言的五个功能：文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

利用这五个功能，文心一言帮刘慈欣续写了《三体》，介绍了洛阳纸贵背后的经济学原理，计算了鸡兔同笼数学题，并根据指令生成了海报和一段宣传视频。

在真实场景中，文心一言的水平如何？观察者网也一一测试了这五个功能。

首先是文学创作。

在接收到“用观察者网四个字做一首藏头诗”的指令后，文心一言输出的结果如下：

从结果来看，文心一言理解了藏头诗的指令，但内容乏善可陈，算不上优秀，只能说是以诗歌的格式输出了几句话，而且其中一句并不符合指令的要求。

当把“观察者网”四个字打了双引号后，输出的结果则改进了不少。

第二个场景是商业文案创作。

在接收到“为观察者网制作一条宣传口号”的指令后，文心一言输出了以下内容：

从结果来看，文心一言的表现可以说有些出人意料。

因为它不仅按指令要求制作了一条口号，而且还解释了口号所蕴含的意义。

更关键的是，它好像还十分了解观察者网的日常工作内容，强调了“观察者网提供的内容不仅仅局限于中国，而是全球范围内的新鲜资讯和独特视角。”

这和观察者网“全球视野，中国关怀”的定位已十分接近。

在商业新闻稿生成方面，文心一言的表现也可圈可点，准确理解了指令要求和人物角色。

第三个场景是数理逻辑推算。

先用小品中的“经典案例”考验一下文心一言。

从测试结果来看，文心一言在简单的数学计算理解上没有问题，但在沟通的连续性上似乎表现的并不好，这在一定程度上影响了对话体验。

再换一个小学生日常会遇到的试题，文心一言很快给出了正确答案。但当被问到解题思路时，文心一言则理解错了题意，并给出了错误的答案。

再换一个类似数学题，文心一言好像又理解错了题意，直接给出了错误的答案（正确答案：鸡有12只，兔有19只）。

可见，在数理逻辑推算方面，文心一言还有很大进步空间。在目前水平下，如果问题表达的不够清晰，文心一言很容易给出错误答案。

第四个场景是中文理解。

其实在前面的场景中，已经在一定程度上体现了文心一言的中文理解能力，这里再用两个例子考验一下它。

在以上几个问题中，文心一言体现了自己的中文语言理解能力。但在另外一些问题上，它则切入了“一本正经胡说八道”的模式。

第五个功能是多模态生成，即输入和输出的内容不限于文字，可以根据文字生成图片、语音或视频，这个功能也是ChatGPT不具有的。

在“文生图”方面，文心一言在简单要求下表现的中规中矩，基本上理解了指令要求。

但在用诗词生成图片方面还有待进步。

文心一言的视频生成能力则因成本较高，现阶段还未对所有用户开放，但它会给出拍摄相关视频的方法，这一点值得肯定。

对比火热的ChatGPT，表现如何？

人们之所以