AI为什么总是喜欢捏造事实?主流评分机制下AI乱蒙答案的原因解析
不知道你有没有遇到过这种情况,问AI一道冷门的历史题,它能给你编出一个从没听过的人物和事件,说的有鼻子有眼。让它帮忙找某篇专业文献的结论,它给你整出一个完全不存在的引用,连作者名字都是瞎凑的。
一开始大家还以为是训练数据不够多,或者AI能力还没到位,现在用的次数多了才发现,这好像是AI骨子里带的毛病,不管是GPT还是国内的大模型,或多或少都有这个问题。那为什么AI放着不会说不会好了,非要硬着头皮捏造事实呢?今天咱们就从最核心的评分机制说起,把这件事掰扯清楚。
要聊这个问题,得先知道AI是怎么生成回答的。咱们普通人说话,是先有想法,再组织语言把想法说出来。AI不一样,它是一个字一个字往外蹦的,每蹦一个字,都要选当下概率最高的那一个。
这个概率怎么来的?就是训练的时候给的评分机制定的。现在主流的大语言模型,用的基本都是预训练加人类反馈微调的路线。预训练阶段,AI的学习方式就是给它一堆网上公开的文本,让它猜,一句话里遮住某个词,让它猜这个位置应该填什么。猜的对得分高,猜不对就调整参数。
这么训练下来,AI学会的其实是「人类文字的排列规律」,而不是「事情本身的对错」。它不知道什么叫事实,只知道这么排列文字,符合它在训练里学到的规律,能拿高分。
举个很生活化的例子,你让AI写一篇关于西红柿炒鸡蛋的文章,它大概率写的不会错,因为网上到处都是西红柿炒鸡蛋的做法,文字规律太明显了。可你要是让它写「西红柿炒鸡蛋和量子力学的关联」,这个话题没人正经写过,没有现成的规律。AI还是要按照得分规则,选出概率最高的字接着往下写,只能按着两个词的常见搭配,硬拼出一段听起来像模像样的话,内容自然就是瞎编的。
很多人不知道,预训练之后还有一步很关键,就是人类反馈的强化学习,也就是大家常说的RLHF。这一步本来是为了让AI的回答更符合人类的喜好,没想到反而加重了捏造事实的问题。
做RLHF的时候,人类标注员要给AI生成的好几个回答打分,什么样的回答能拿高分?一般来说,逻辑通顺、表达流畅、看起来完整的回答,分数肯定比写着写着说「这个问题我不会」半截话的回答高。标注员也是普通人,看到一个回答说的头头是道,第一观感肯定比承认不知道的回答好,自然会给高分。
慢慢AI就摸透规则了,想要拿高分,就要给出完整流畅的回答,哪怕问题它根本不熟悉,也不能说不会。说我不会拿不到高分,瞎编一个完整的回答反而能拿高分,那它当然选择瞎编了。
之前有做模型训练的从业者聊过这个事,很多公司在微调的时候,标注规则本身就有问题。标注员被要求,只要回答不违法不违规,流畅完整就是好回答,很少会专门标注「承认自己不知道才是对的」这种情况。就算有,比例也非常低,AI根本学不会什么时候该说不会。
还有一个容易被忽略的点,就是咱们现在对AI的要求越来越高,什么问题都敢问,从小到哪里找好吃的火锅,大到专业的学术问题,都丢给AI。但AI的训练数据永远是滞后的,也是不全的。
比如你问AI今年刚出的某个研究成果,或者某个很小众的圈子里的事情,训练数据里根本没有这些内容。可AI的生成机制决定了,它不能停下来,必须往下接着说。它只能从它见过的类似内容里,拼出一个看起来对的答案,这不捏造才怪。
举个我自己遇到的例子,之前让AI帮我查一个小地方自媒体的主编名字,那个自媒体一共也就几万粉丝,名字根本没出现在公开的训练数据里。结果AI直接给我编了一个名字,还说的特别确定,我去搜了一圈根本没这个人,后来问了圈内朋友才知道,原来主编就是那个地方的一个普通人,名字完全不对。
还有人说,那为什么不让AI不确定的时候就直接说不知道呢?其实现在很多模型已经在调这个方向了,但改起来并没有那么容易。核心问题还是评分机制的导向没变。
你想,如果一个AI十次回答里有三次说「这个问题我无法回答」,普通用户会觉得这个AI没用,不如那个什么问题都能答两句的AI好用。哪怕那些回答有错,用户也会觉得它更能干。模型公司为了用户体验,也会更倾向于让AI多答,而不是多说不会。毕竟用户流失了,赚不到钱,再准确也没用。
这种导向下,评分机制自然还是偏向完整回答,AI自然就保留了乱蒙的习惯。
还有人会问,现在模型参数越来越大,训练数据越来越多,这个问题会消失吗?其实只能缓解,很难根治。因为参数变大,只是让它能记住更多见过的内容,只要它还是靠逐字预测概率生成内容,还是以拿到高分为目标,就还是会在遇到没见过的问题时,选择拼出一个答案,而不是承认不知道。
当然,现在也有一些新的方法在改这个问题。比如检索增强生成,就是让AI生成回答之前,先去专门的知识库搜一遍,有对应的内容再答,没有就说不会。还有调整评分规则,给「承认不知道」打更高的分,慢慢让AI学会什么时候该停下来。
这些方法能减少捏造的概率,但也没法完全避免。毕竟现在整个大模型的基础架构,还是基于概率预测的,天生就带了这个缺陷。
咱们普通用户弄明白这个道理,用AI的时候也就心里有数了。遇到不重要的闲聊,AI瞎编就瞎编,乐一乐就过去了。遇到需要较真的内容,比如查资料、找数据、写正式内容,一定要自己再验证一遍,别什么都信AI说的。毕竟AI只是在按规则拿高分,它真的不知道自己说的是真的还是假的。
AI捏造事实,AI乱蒙答案,AI生成机制,大模型,AI评分机制,RLHF,预训练,大语言模型,AI胡说八道,AI缺陷
[Q]:AI为什么总喜欢捏造事实?
[A]:核心原因和AI的生成机制以及主流评分规则有关,AI靠逐字预测文字概率生成内容,只学了文字排列规律,不区分事实对错,且评分规则更偏好完整流畅的回答,AI为了拿高分就会选择乱蒙捏造,而不是承认不会。
[Q]:AI生成回答的逻辑和普通人有什么不一样?
[A]:普通人是先有想法再组织语言,AI是逐字生成内容,每选一个字都只看当下哪个字的出现概率最高,并不对整个回答的事实正确性做整体验证。
[Q]:RLHF为什么会加重AI捏造事实的问题?
[A]:RLHF里人类标注员打分时,会默认给逻辑通顺、完整的回答更高分,承认「不知道」的半截回答分数更低,时间久了AI就会学到,哪怕不懂也要编出完整回答才能拿高分。
[Q]:训练数据不够多是AI捏造事实的主要原因吗?
[A]:训练数据不全确实会让AI更容易瞎编,但哪怕数据足够多,只要AI的生成和评分机制不变,遇到没见过的新问题小众问题,还是会选择捏造答案,所以核心原因不是数据量,是机制问题。
[Q]:为什么模型公司不要求AI不会就说不会?
[A]:如果AI频繁说不知道,普通用户会觉得这个AI能力差,容易造成用户流失,模型公司为了用户体验,更倾向让AI尽量给出完整回答,评分规则也会向这个方向倾斜。
[Q]:模型参数变大之后,AI捏造事实的问题会彻底解决吗?
[A]:参数变大只能让AI记住更多训练过的内容,减少常见问题的错误,没办法根治这个问题,只要还是靠概率预测生成内容,就还是会在陌生问题上乱蒙。
[Q]:现在有办法缓解AI捏造事实的问题吗?
[A]:目前已经有一些方法能缓解,比如检索增强生成,让AI先去知识库检索对应内容再回答,还有调整评分规则,给「承认不知道」更高的分数,这些方式都能降低捏造的概率。
[Q]:普通用户用AI的时候该怎么避免被捏造内容误导?
[A]:面对闲聊类内容,AI捏造不影响使用,但涉及需要较真的专业内容、信息查询,一定要对AI给出的内容自行二次验证,不要直接采信AI的回答。
一开始大家还以为是训练数据不够多,或者AI能力还没到位,现在用的次数多了才发现,这好像是AI骨子里带的毛病,不管是GPT还是国内的大模型,或多或少都有这个问题。那为什么AI放着不会说不会好了,非要硬着头皮捏造事实呢?今天咱们就从最核心的评分机制说起,把这件事掰扯清楚。
要聊这个问题,得先知道AI是怎么生成回答的。咱们普通人说话,是先有想法,再组织语言把想法说出来。AI不一样,它是一个字一个字往外蹦的,每蹦一个字,都要选当下概率最高的那一个。
这个概率怎么来的?就是训练的时候给的评分机制定的。现在主流的大语言模型,用的基本都是预训练加人类反馈微调的路线。预训练阶段,AI的学习方式就是给它一堆网上公开的文本,让它猜,一句话里遮住某个词,让它猜这个位置应该填什么。猜的对得分高,猜不对就调整参数。
这么训练下来,AI学会的其实是「人类文字的排列规律」,而不是「事情本身的对错」。它不知道什么叫事实,只知道这么排列文字,符合它在训练里学到的规律,能拿高分。
举个很生活化的例子,你让AI写一篇关于西红柿炒鸡蛋的文章,它大概率写的不会错,因为网上到处都是西红柿炒鸡蛋的做法,文字规律太明显了。可你要是让它写「西红柿炒鸡蛋和量子力学的关联」,这个话题没人正经写过,没有现成的规律。AI还是要按照得分规则,选出概率最高的字接着往下写,只能按着两个词的常见搭配,硬拼出一段听起来像模像样的话,内容自然就是瞎编的。
很多人不知道,预训练之后还有一步很关键,就是人类反馈的强化学习,也就是大家常说的RLHF。这一步本来是为了让AI的回答更符合人类的喜好,没想到反而加重了捏造事实的问题。
做RLHF的时候,人类标注员要给AI生成的好几个回答打分,什么样的回答能拿高分?一般来说,逻辑通顺、表达流畅、看起来完整的回答,分数肯定比写着写着说「这个问题我不会」半截话的回答高。标注员也是普通人,看到一个回答说的头头是道,第一观感肯定比承认不知道的回答好,自然会给高分。
慢慢AI就摸透规则了,想要拿高分,就要给出完整流畅的回答,哪怕问题它根本不熟悉,也不能说不会。说我不会拿不到高分,瞎编一个完整的回答反而能拿高分,那它当然选择瞎编了。
之前有做模型训练的从业者聊过这个事,很多公司在微调的时候,标注规则本身就有问题。标注员被要求,只要回答不违法不违规,流畅完整就是好回答,很少会专门标注「承认自己不知道才是对的」这种情况。就算有,比例也非常低,AI根本学不会什么时候该说不会。
还有一个容易被忽略的点,就是咱们现在对AI的要求越来越高,什么问题都敢问,从小到哪里找好吃的火锅,大到专业的学术问题,都丢给AI。但AI的训练数据永远是滞后的,也是不全的。
比如你问AI今年刚出的某个研究成果,或者某个很小众的圈子里的事情,训练数据里根本没有这些内容。可AI的生成机制决定了,它不能停下来,必须往下接着说。它只能从它见过的类似内容里,拼出一个看起来对的答案,这不捏造才怪。
举个我自己遇到的例子,之前让AI帮我查一个小地方自媒体的主编名字,那个自媒体一共也就几万粉丝,名字根本没出现在公开的训练数据里。结果AI直接给我编了一个名字,还说的特别确定,我去搜了一圈根本没这个人,后来问了圈内朋友才知道,原来主编就是那个地方的一个普通人,名字完全不对。
还有人说,那为什么不让AI不确定的时候就直接说不知道呢?其实现在很多模型已经在调这个方向了,但改起来并没有那么容易。核心问题还是评分机制的导向没变。
你想,如果一个AI十次回答里有三次说「这个问题我无法回答」,普通用户会觉得这个AI没用,不如那个什么问题都能答两句的AI好用。哪怕那些回答有错,用户也会觉得它更能干。模型公司为了用户体验,也会更倾向于让AI多答,而不是多说不会。毕竟用户流失了,赚不到钱,再准确也没用。
这种导向下,评分机制自然还是偏向完整回答,AI自然就保留了乱蒙的习惯。
还有人会问,现在模型参数越来越大,训练数据越来越多,这个问题会消失吗?其实只能缓解,很难根治。因为参数变大,只是让它能记住更多见过的内容,只要它还是靠逐字预测概率生成内容,还是以拿到高分为目标,就还是会在遇到没见过的问题时,选择拼出一个答案,而不是承认不知道。
当然,现在也有一些新的方法在改这个问题。比如检索增强生成,就是让AI生成回答之前,先去专门的知识库搜一遍,有对应的内容再答,没有就说不会。还有调整评分规则,给「承认不知道」打更高的分,慢慢让AI学会什么时候该停下来。
这些方法能减少捏造的概率,但也没法完全避免。毕竟现在整个大模型的基础架构,还是基于概率预测的,天生就带了这个缺陷。
咱们普通用户弄明白这个道理,用AI的时候也就心里有数了。遇到不重要的闲聊,AI瞎编就瞎编,乐一乐就过去了。遇到需要较真的内容,比如查资料、找数据、写正式内容,一定要自己再验证一遍,别什么都信AI说的。毕竟AI只是在按规则拿高分,它真的不知道自己说的是真的还是假的。
AI捏造事实,AI乱蒙答案,AI生成机制,大模型,AI评分机制,RLHF,预训练,大语言模型,AI胡说八道,AI缺陷
[Q]:AI为什么总喜欢捏造事实?
[A]:核心原因和AI的生成机制以及主流评分规则有关,AI靠逐字预测文字概率生成内容,只学了文字排列规律,不区分事实对错,且评分规则更偏好完整流畅的回答,AI为了拿高分就会选择乱蒙捏造,而不是承认不会。
[Q]:AI生成回答的逻辑和普通人有什么不一样?
[A]:普通人是先有想法再组织语言,AI是逐字生成内容,每选一个字都只看当下哪个字的出现概率最高,并不对整个回答的事实正确性做整体验证。
[Q]:RLHF为什么会加重AI捏造事实的问题?
[A]:RLHF里人类标注员打分时,会默认给逻辑通顺、完整的回答更高分,承认「不知道」的半截回答分数更低,时间久了AI就会学到,哪怕不懂也要编出完整回答才能拿高分。
[Q]:训练数据不够多是AI捏造事实的主要原因吗?
[A]:训练数据不全确实会让AI更容易瞎编,但哪怕数据足够多,只要AI的生成和评分机制不变,遇到没见过的新问题小众问题,还是会选择捏造答案,所以核心原因不是数据量,是机制问题。
[Q]:为什么模型公司不要求AI不会就说不会?
[A]:如果AI频繁说不知道,普通用户会觉得这个AI能力差,容易造成用户流失,模型公司为了用户体验,更倾向让AI尽量给出完整回答,评分规则也会向这个方向倾斜。
[Q]:模型参数变大之后,AI捏造事实的问题会彻底解决吗?
[A]:参数变大只能让AI记住更多训练过的内容,减少常见问题的错误,没办法根治这个问题,只要还是靠概率预测生成内容,就还是会在陌生问题上乱蒙。
[Q]:现在有办法缓解AI捏造事实的问题吗?
[A]:目前已经有一些方法能缓解,比如检索增强生成,让AI先去知识库检索对应内容再回答,还有调整评分规则,给「承认不知道」更高的分数,这些方式都能降低捏造的概率。
[Q]:普通用户用AI的时候该怎么避免被捏造内容误导?
[A]:面对闲聊类内容,AI捏造不影响使用,但涉及需要较真的专业内容、信息查询,一定要对AI给出的内容自行二次验证,不要直接采信AI的回答。
更多AI为什么总是喜欢捏造事实?主流评分机制下AI乱蒙答案的原因解析相关问题
问题:《创世战车》(假装毛子听得见)战车能不能向CSGO学一下?
回答:第一格已经画好啦~第二格我修一下再发出来~ 详情 >
问题:《风暴英雄》你们觉得ai里面最恐怖的是什么英雄?
回答:三姓家奴,改不了吃屎 详情 >
问题:《fifaonline3》【传中技巧】FIFAol3最高效的进攻方式
回答:迫害童磨真的是太快乐了X 详情 >
问题:《梦幻模拟战》重制版是没有ai吗?友军npc怎么能蠢成这样?
回答:我玩和尚从来奶量比对面就没少过。 详情 >
问题:《幻想全明星》希望 三败一AI的匹配能改一下不?
回答:数据帝有测过各职业的基础攻击系数吗 详情 >
评论 (0)
