经济学原理

文心一言只是ChatPPT我们和它深


虽然OpenAI在前一天发布GPT-4抢走了不少热度、带来一些压力,但百度并未改变原计划,在上周四如期推出了大型语言模型、生成式AI产品“文心一言”。

把时间拨回到发布会召开那一刻。

当文心一言顶着“国内第一个”的光环亮相后,百度CEO李彦宏坦承,文心一言对标ChatGPT甚至是GPT-4,门槛还是很高的,“我自己测试感觉还是有很多不完美的地方”。

或许是这样的表态,以及李彦宏在现场用录屏展示的操作,影响了资本市场的信心。在发布会最关键的时刻,百度股价却出现短线急跌。

但随着“文心一言”逐步放开体验,以及百度对外释放“申请测试企业破9万”等信息,资本市场的态度开始分化甚至反转。

上周五,百度股价大涨14%。随着新的一周到来,百度股价今天(3月20日)延续涨势,早盘高开3%,收盘涨幅收窄至1%左右,相关概念股也随之拉升。

百度股价走势

在发布会上,“文心一言”展示了文学创作等五方面功能。但由于现场是视频演示,被部分网友调侃为“ChatPPT”。

在真实场景中,文心一言的水平到底如何?实力能否对标ChatGPT?观察者网在拿到测试资格后,也对文心一言进行了一番实测。

先总结下结论,正如李彦宏所说,文心一言的表现确实“算不上完美”、“进步空间很大”,甚至有时候还会胡说八道,但强如GPT-4也不能完全避免这些问题。

从实测来看,文心一言的表现没有想象中的那么差,甚至在部分场景中有些出人意料。随着公测逐步放开,反馈越来越多,文心一言这类大模型的水平可能会进一步提高。

文心一言生成的图片

实测“五大功能”,部分结果出乎意料

在发布会上,李彦宏相继介绍了文心一言的五个功能:文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

利用这五个功能,文心一言帮刘慈欣续写了《三体》,介绍了洛阳纸贵背后的经济学原理,计算了鸡兔同笼数学题,并根据指令生成了海报和一段宣传视频。

在真实场景中,文心一言的水平如何?观察者网也一一测试了这五个功能。

首先是文学创作。

在接收到“用观察者网四个字做一首藏头诗”的指令后,文心一言输出的结果如下:

从结果来看,文心一言理解了藏头诗的指令,但内容乏善可陈,算不上优秀,只能说是以诗歌的格式输出了几句话,而且其中一句并不符合指令的要求。

当把“观察者网”四个字打了双引号后,输出的结果则改进了不少。

第二个场景是商业文案创作。

在接收到“为观察者网制作一条宣传口号”的指令后,文心一言输出了以下内容:

从结果来看,文心一言的表现可以说有些出人意料。

因为它不仅按指令要求制作了一条口号,而且还解释了口号所蕴含的意义。

更关键的是,它好像还十分了解观察者网的日常工作内容,强调了“观察者网提供的内容不仅仅局限于中国,而是全球范围内的新鲜资讯和独特视角。”

这和观察者网“全球视野,中国关怀”的定位已十分接近。

在商业新闻稿生成方面,文心一言的表现也可圈可点,准确理解了指令要求和人物角色。

第三个场景是数理逻辑推算。

先用小品中的“经典案例”考验一下文心一言。

从测试结果来看,文心一言在简单的数学计算理解上没有问题,但在沟通的连续性上似乎表现的并不好,这在一定程度上影响了对话体验。

再换一个小学生日常会遇到的试题,文心一言很快给出了正确答案。但当被问到解题思路时,文心一言则理解错了题意,并给出了错误的答案。

再换一个类似数学题,文心一言好像又理解错了题意,直接给出了错误的答案(正确答案:鸡有12只,兔有19只)。

可见,在数理逻辑推算方面,文心一言还有很大进步空间。在目前水平下,如果问题表达的不够清晰,文心一言很容易给出错误答案。

第四个场景是中文理解。

其实在前面的场景中,已经在一定程度上体现了文心一言的中文理解能力,这里再用两个例子考验一下它。

在以上几个问题中,文心一言体现了自己的中文语言理解能力。但在另外一些问题上,它则切入了“一本正经胡说八道”的模式。

第五个功能是多模态生成,即输入和输出的内容不限于文字,可以根据文字生成图片、语音或视频,这个功能也是ChatGPT不具有的。

在“文生图”方面,文心一言在简单要求下表现的中规中矩,基本上理解了指令要求。

但在用诗词生成图片方面还有待进步。

文心一言的视频生成能力则因成本较高,现阶段还未对所有用户开放,但它会给出拍摄相关视频的方法,这一点值得肯定。

对比火热的ChatGPT,表现如何?

人们之所以


转载请注明:http://www.deudeguo.com/jyjs/25540.html


当前时间: