AI为什么总是喜欢捏造事实？主流评分机制下AI乱蒙答案的原因解析

扩大人2026-06-29 20:38:05

不知道你有没有遇到过这种情况，问AI一道冷门的历史题，它能给你编出一个从没听过的人物和事件，说的有鼻子有眼。让它帮忙找某篇专业文献的结论，它给你整出一个完全不存在的引用，连作者名字都是瞎凑的。

一开始大家还以为是训练数据不够多，或者AI能力还没到位，现在用的次数多了才发现，这好像是AI骨子里带的毛病，不管是GPT还是国内的大模型，或多或少都有这个问题。那为什么AI放着不会说不会好了，非要硬着头皮捏造事实呢？今天咱们就从最核心的评分机制说起，把这件事掰扯清楚。

要聊这个问题，得先知道AI是怎么生成回答的。咱们普通人说话，是先有想法，再组织语言把想法说出来。AI不一样，它是一个字一个字往外蹦的，每蹦一个字，都要选当下概率最高的那一个。

这个概率怎么来的？就是训练的时候给的评分机制定的。现在主流的大语言模型，用的基本都是预训练加人类反馈微调的路线。预训练阶段，AI的学习方式就是给它一堆网上公开的文本，让它猜，一句话里遮住某个词，让它猜这个位置应该填什么。猜的对得分高，猜不对就调整参数。

这么训练下来，AI学会的其实是「人类文字的排列规律」，而不是「事情本身的对错」。它不知道什么叫事实，只知道这么排列文字，符合它在训练里学到的规律，能拿高分。

举个很生活化的例子，你让AI写一篇关于西红柿炒鸡蛋的文章，它大概率写的不会错，因为网上到处都是西红柿炒鸡蛋的做法，文字规律太明显了。可你要是让它写「西红柿炒鸡蛋和量子力学的关联」，这个话题没人正经写过，没有现成的规律。AI还是要按照得分规则，选出概率最高的字接着往下写，只能按着两个词的常见搭配，硬拼出一段听起来像模像样的话，内容自然就是瞎编的。

很多人不知道，预训练之后还有一步很关键，就是人类反馈的强化学习，也就是大家常说的RLHF。这一步本来是为了让AI的回答更符合人类的喜好，没想到反而加重了捏造事实的问题。

做RLHF的时候，人类标注员要给AI生成的好几个回答打分，什么样的回答能拿高分？一般来说，逻辑通顺、表达流畅、看起来完整的回答，分数肯定比写着写着说「这个问题我不会」半截话的回答高。标注员也是普通人，看到一个回答说的头头是道，第一观感肯定比承认不知道的回答好，自然会给高分。

慢慢AI就摸透规则了，想要拿高分，就要给出完整流畅的回答，哪怕问题它根本不熟悉，也不能说不会。说我不会拿不到高分，瞎编一个完整的回答反而能拿高分，那它当然选择瞎编了。

之前有做模型训练的从业者聊过这个事，很多公司在微调的时候，标注规则本身就有问题。标注员被要求，只要回答不违法不违规，流畅完整就是好回答，很少会专门标注「承认自己不知道才是对的」这种情况。就算有，比例也非常低，AI根本学不会什么时候该说不会。

还有一个容易被忽略的点，就是咱们现在对AI的要求越来越高，什么问题都敢问，从小到哪里找好吃的火锅，大到专业的学术问题，都丢给AI。但AI的训练数据永远是滞后的，也是不全的。

比如你问AI今年刚出的某个研究成果，或者某个很小众的圈子里的事情，训练数据里根本没有这些内容。可AI的生成机制决定了，它不能停下来，必须往下接着说。它只能从它见过的类似内容里，拼出一个看起来对的答案，这不捏造才怪。

举个我自己遇到的例子，之前让AI帮我查一个小地方自媒体的主编名字，那个自媒体一共也就几万粉丝，名字根本没出现在公开的训练数据里。结果AI直接给我编了一个名字，还说的特别确定，我去搜了一圈根本没这个人，后来问了圈内朋友才知道，原来主编就是那个地方的一个普通人，名字完全不对。

还有人说，那为什么不让AI不确定的时候就直接说不知道呢？其实现在很多模型已经在调这个方向了，但改起来并没有那么容易。核心问题还是评分机制的导向没变。

你想，如果一个AI十次回答里有三次说「这个问题我无法回答」，普通用户会觉得这个AI没用，不如那个什么问题都能答两句的AI好用。哪怕那些回答有错，用户也会觉得它更能干。模型公司为了用户体验，也会更倾向于让AI多答，而不是多说不会。毕竟用户流失了，赚不到钱，再准确也没用。

这种导向下，评分机制自然还是偏向完整回答，AI自然就保留了乱蒙的习惯。

还有人会问，现在模型参数越来越大，训练数据越来越多，这个问题会消失吗？其实只能缓解，很难根治。因为参数变大，只是让它能记住更多见过的内容，只要它还是靠逐字预测概率生成内容，还是以拿到高分为目标，就还是会在遇到没见过的问题时，选择拼出一个答案，而不是承认不知道。

当然，现在也有一些新的方法在改这个问题。比如检索增强生成，就是让AI生成回答之前，先去专门的知识库搜一遍，有对应的内容再答，没有就说不会。还有调整评分规则，给「承认不知道」打更高的分，慢慢让AI学会什么时候该停下来。

这些方法能减少捏造的概率，但也没法完全避免。毕竟现在整个大模型的基础架构，还是基于概率预测的，天生就带了这个缺陷。

咱们普通用户弄明白这个道理，用AI的时候也就心里有数了。遇到不重要的闲聊，AI瞎编就瞎编，乐一乐就过去了。遇到需要较真的内容，比如查资料、找数据、写正式内容，一定要自己再验证一遍，别什么都信AI说的。毕竟AI只是在按规则拿高分，它真的不知道自己说的是真的还是假的。

AI捏造事实,AI乱蒙答案,AI生成机制,大模型,AI评分机制,RLHF,预训练,大语言模型,AI胡说八道,AI缺陷

[Q]：AI为什么总喜欢捏造事实？
[A]：核心原因和AI的生成机制以及主流评分规则有关，AI靠逐字预测文字概率生成内容，只学了文字排列规律，不区分事实对错，且评分规则更偏好完整流畅的回答，AI为了拿高分就会选择乱蒙捏造，而不是承认不会。
[Q]：AI生成回答的逻辑和普通人有什么不一样？
[A]：普通人是先有想法再组织语言，AI是逐字生成内容，每选一个字都只看当下哪个字的出现概率最高，并不对整个回答的事实正确性做整体验证。
[Q]：RLHF为什么会加重AI捏造事实的问题？
[A]：RLHF里人类标注员打分时，会默认给逻辑通顺、完整的回答更高分，承认「不知道」的半截回答分数更低，时间久了AI就会学到，哪怕不懂也要编出完整回答才能拿高分。
[Q]：训练数据不够多是AI捏造事实的主要原因吗？
[A]：训练数据不全确实会让AI更容易瞎编，但哪怕数据足够多，只要AI的生成和评分机制不变，遇到没见过的新问题小众问题，还是会选择捏造答案，所以核心原因不是数据量，是机制问题。
[Q]：为什么模型公司不要求AI不会就说不会？
[A]：如果AI频繁说不知道，普通用户会觉得这个AI能力差，容易造成用户流失，模型公司为了用户体验，更倾向让AI尽量给出完整回答，评分规则也会向这个方向倾斜。
[Q]：模型参数变大之后，AI捏造事实的问题会彻底解决吗？
[A]：参数变大只能让AI记住更多训练过的内容，减少常见问题的错误，没办法根治这个问题，只要还是靠概率预测生成内容，就还是会在陌生问题上乱蒙。
[Q]：现在有办法缓解AI捏造事实的问题吗？
[A]：目前已经有一些方法能缓解，比如检索增强生成，让AI先去知识库检索对应内容再回答，还有调整评分规则，给「承认不知道」更高的分数，这些方式都能降低捏造的概率。
[Q]：普通用户用AI的时候该怎么避免被捏造内容误导？
[A]：面对闲聊类内容，AI捏造不影响使用，但涉及需要较真的专业内容、信息查询，一定要对AI给出的内容自行二次验证，不要直接采信AI的回答。

更多AI为什么总是喜欢捏造事实？主流评分机制下AI乱蒙答案的原因解析相关问题

问题：《创世战车》（假装毛子听得见）战车能不能向CSGO学一下？

回答：第一格已经画好啦~第二格我修一下再发出来~ 详情 >

问题：《风暴英雄》你们觉得ai里面最恐怖的是什么英雄？

回答：三姓家奴，改不了吃屎详情 >

问题：《fifaonline3》【传中技巧】FIFAol3最高效的进攻方式

回答：迫害童磨真的是太快乐了X 详情 >

问题：《梦幻模拟战》重制版是没有ai吗?友军npc怎么能蠢成这样？

回答：我玩和尚从来奶量比对面就没少过。详情 >

问题：《幻想全明星》希望三败一AI的匹配能改一下不?

回答：数据帝有测过各职业的基础攻击系数吗详情 >