近期,人工智能领域再次出现了引人注目的事件。继大模型在数值识别上的失误之后,国产大模型在统计字符上出现了集体失误,而ChatGPT依然展现出了其准确性。

13.8和13.11事件回顾
在最近的一次社会事件中,一个简单的数学问题“13.8和13.11哪个大?”不仅难倒了部分人类,还让多个大模型折戟。 这个问题源自于一档综艺节目中,两位歌手的得分差异引发了网友的热议。令人意外的是,不少大模型也给出了错误的答案,认为13.11大于13.8。 这一现象不仅暴露了大模型在基础数学问题上的处理缺陷,也引起了人们对AI常识性问题处理能力的质疑。
然而这次,我们又意外发现了一个令人惊讶的现象:国产大型语言模型(LLM)如豆包、Kimi、元宝、百度文心在计算文本字符数量的任务上出现了失误,而ChatGPT却能够准确无误地完成这一任务。
意外的发现
事情是这样的,我们在进行SEO相关的字符数统计时,原本期望得到一个简单而直接的答案。然而,国产LLM在这一基础任务上的表现却出人意料。
MeoAI | 17000+AI工具导航 | 全球AI工具集合 | 免费AI工具 | 专注AI人工智能
上面的这个标题字符数是51个,大家也可以用Word工具直接查看。

国产LLM的表现
豆包:
以下是豆包的计算过程和其中的问题:
- “MeoAl”:豆包将其计算为4个字符,但实际上“MeoAl”包含5个字符。
- “17000+Al工具导航”:豆包将数字“17000”计算为5个字符,这是正确的,“+”算作1个字符也是正确的。问题在于“Al工具导航”的计算,豆包估算为10个字符,但实际上应该是6个字符(每个汉字算1个字符)。
- 其他部分:豆包对其他部分的计算也是类似的,将每个汉字算作1个字符,但对英文单词和数字的计算存在误差。
- 总和计算:4+1+16+1+10+1+8+1+10也不等于79啊。
真是让人难崩!

Kimi:
用Kimi算过两次,两次的结果都不一样。

下面的到时快要接近正确的了,每次统计时没有统计空格,但是到最后他说5 + 1 + 5 + 1 + 2 + 2 + 2 + 1 + 2 + 2 + 2 + 1 + 2 + 2 + 2 + 1 + 2 + 2 + 4 = 40个字符。让我们笑了,大家来算算是多少吧!

元宝:
腾讯元宝更是匪夷所思,第一次问的结果和让他详细介绍计算步骤给出的结果竟然不一致!而且两次都不对,哈哈!第一次问说是总字符数为78个,第二次让介绍详细步骤,又算出来为47个。真是反复无常,善变的一个小家伙呢!


百度文心:


ChatGPT的精准表现
与国产LLM形成鲜明对比的是,ChatGPT在计算文本字符数量的任务上表现出了极高的准确性。它能够迅速且准确地计算出文本的字符数量,展现了其在基础文本处理任务上的稳定性和可靠性。而且回复给人的感觉就是稳准话不多,牛!

原因分析
国产LLM在字符统计任务上的失误可能源于多种因素。首先,这些模型可能在训练过程中过于侧重于复杂的语言模式,而忽视了对基础文本处理能力的培养。其次,模型的注意力机制可能在处理这类简单任务时不够集中,导致错误。此外,数据集的偏差和训练算法的局限性也可能是导致失误的原因。
对国产LLM的反思
这一意外发现再次提醒我们,尽管国产LLM在许多领域展现出了惊人的能力,但它们仍然存在局限性。这些失误不仅仅是技术上的缺陷,更是对国产LLM设计和训练方法的挑战。如何让国产LLM在处理复杂问题的同时,也能准确无误地完成基础任务,是当前人工智能领域亟待解决的问题。
未来的改进方向
为了提高国产LLM的准确性和可靠性,研究人员需要重新审视模型的训练数据和算法。可能的改进方向包括:
- 增强基础能力训练:在模型训练中加入更多的基础文本处理任务,以强化其基础能力。
- 优化注意力机制:调整模型的注意力分配,使其在处理简单任务时也能保持专注。
- 跨领域学习:鼓励模型在不同领域间进行学习,以提高其适应性和泛化能力。
结语
国产LLM在字符统计任务上的失误虽然令人意外,但也为我们提供了宝贵的反思机会。通过不断优化和改进,我们有理由相信,未来的国产LLM将更加强大和可靠。同时,这也提醒我们,在依赖人工智能的同时,保持批判性思维和自我检查的重要性。ChatGPT的精准表现也为国产LLM提供了一个学习和追赶的榜样,激励着国产LLM在技术发展的道路上不断前行。