9.9和9.11哪个大?13.8%和13.11%谁大谁小?这两个比大小的问题,前段时间难倒众多大模型,在网上掀起热议。
除此之外,向大模型提问“草莓(strawberry)这个单词有几个r时”,多家主流大模型回答错误,即使是百度的文心一言、阿里的通义千问、字节的豆包也都集体出现错误答案。
针对这些问题的出现,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。“要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”
时隔10天,再次向主流大模型提问,仍有部分大模型给出的是错误答案。
另外,在测试过程中,还发现多家大模型对于日期计算无法给出正确答案,如去年11月11日至今有多少天,有的无法确定去年是哪一年、今天是几月几日,而有的即便是确认了,也会出现计算错误。
比大小
一场在大模型领域开展的数学能力小测试——比大小,最初由综艺节目《歌手2024》排名引发。不少网友和媒体向大模型助手提问:9.9和9.11哪个大?13.8%和13.11%谁大谁小?
彼时,“BAT”三家的文心一言、通义千问和元宝,都给出了正确答案,但是部分大模型给出了错误答案,有的是全错,有的则是一个对一个错。
7月29日,再此向主流的大模型提问时,“BAT”三家依旧都给出正确答案。针对“9.9与9.11谁大”这一问题,智谱AI的智谱清言、百川智能的百小应都回答正确,而月之暗面的Kimi、字节的豆包仍回答错误。
在回答时,有部分大模型会呈现推理过程,比如豆包认为9.11大于9.9。是因为9.9表示9+0.9=9.9,9.11表示9+0.11=9.11,0.9大于0.11,所以9.9小于9.11。
将问题改成13.8%和13.11%谁大谁小时,百小应、智谱清言、Kimi、万知AI都给出了正确答案。
单词字母计数
在比大小的问题引起热议的同时,单词字母计数的问题也浮现出来。
向主流大模型提问:strawberry这个单词有几个r时,“BAT”里只有腾讯元宝回答是正确的,百度文心一言、阿里通义千问都给出了错误答案:2。
(腾讯元宝)
而在反问文心一言后,其再次分析得出的答案仍是2。
通义千问同样肯定自己的答案是正确的,还再次进行了解释:“strawberry”这个单词确实只有两个 “r”。让我再次确认一下拼写:s-t-r-a-w-b-e-r-r-y。
- 第一个“r”在第三个位置,
- 第二个“r”在第七个位置。
所以 "strawberry" 中确实只有两个 "r"。
豆包和通义千问如出一辙,反问后仍确认自己的答案:“strawberry”这个单词中“r”分别出现在“straw”和“berry”部分,一共2个。
百川智能的百小应、智谱AI的智谱清言、零一万物的万知AI、月之暗面的Kimi等都出现回答错误,其中万知AI的答案为1个“r”。
日期计算
在不断向大模型提问时发现,除了比大小、单词字母计数有误外,日期计算也难倒了诸多大模型。
当向百度大模型文心一言提问:去年11月11日至今有多少天时,文心一言回答:这是一个日期计算问题,要求确定从去年11月11日至今经过了多少天。解题关键在于确定起始和结束日期,并考虑期间的闰年情况,从而准确计算出两个日期之间的天数差。经过计算,从去年11月11日至今有261天。
这个答案实际上是正确的,但是为了核实它是凑巧答对还是有逻辑地计算正确,追问了一下计算过程,其假设了“去年”是2022年,而“至今”是2023年的某一天,比如2023年8月1日。
由于其用的是假设,则再追问能否确定去年是哪一年和今天是几号,文心一言根据公历日历明确去年是2023年,今天是7月29日。在此基础上,要求它重新计算去年(2023年)11月11日至今(2024年7月29日)有多少天时,它分月份给出的天数均是正确的,但是在计算过程中依然给我出了错误答案。要求其核对后,它坚定认为自己的答案是正确的。
同样的场景在腾讯元宝上也再次上演,元宝首先给出的答案也是正确的,但是当要求展开计算过程时候,发现其将起始日期定为2022年11月11日—2023年8月15日。因为展开计算过程与初次给的261天的结果不相同,元宝还修改了一下截止日期。
让元宝确认好去年是2023年、今天的日期是2024年7月29日后,元宝给出了更为出奇的答案:36天。
让它再次确认时,它给的计算过程又是2022年11月11日至2023年8月15日,算出的天数为277天,与此前计算的268天又不一致。
“BAT”里阿里的通义千问是最直接确定去年11月11日和今天的日期为2023年11月11日至2024年7月29日的,但是在相加的过程中,少计算了一个月份,最终答案还是错误。提示其少加了一个月,其依然给出的是错误答案。
“BAT”的大模型纷纷出现各种错误时,有独角兽企业也出现了错误,比如百川智能的百小应,在计算11月11日至月底天数时,计为30日,导致最终结果错误;零一万物的万知AI则把去年定为2021年,最后得出了999天的结果。
但是也有部分独角兽企业给出了惊喜。针对这一问题,月之暗面的Kimi、智谱AI的智谱清言给出了正确答案,且给出的推理过程也是正确的。比如Kimi先是确定去年11月11日和今天的具体日期,再根据自然月、闰年等信息,确定每月的天数,最后进行相加。