用人话唠明白“人机对齐”:别让AI会错你的意

作品:大白话聊透人工智能|作者:巴蜀魔幻侠|分类:其他|更新:2025-11-22 06:26:03|字数:25014字

更麻烦的是,价值观还会“随时间变化”。比如几十年前,“女性优先考虑家庭”是很多人的共识,但现在“女性优先考虑事业”也被广泛认可;以前“加班是敬业”,现在“拒绝无效加班”成了潮流——AI要是按照“过去的价值观”来做事,肯定会跟现在的人类需求脱节。

AI面对的,不是一个“统一的人类价值观”,而是一个“混乱的、变化的、充满矛盾的价值观集合”。它就像一个在多路口迷路的人,左边有人说“往这走”,右边有人说“往那走”,前面有人说“别走了”——它根本不知道该听谁的。这也是为什么很多AI在涉及“道德判断”的问题上,总是会“犯错”:不是它不想对齐,是人类自己都没达成共识,它没个准星。

三、程序员是怎么“教AI对齐”的?三大方法,其实你每天都在接触

虽然对齐很难,但程序员们也没闲着,早就琢磨出了一套套“教AI对齐”的方法。这些方法听起来可能很高大上,但其实你每天都在“间接参与”——比如你给AI的回答点“有用”或“没用”,就是在帮AI对齐;你纠正AI的错误,也是在帮AI对齐。咱们就来唠唠最常用的三种方法,用你能听懂的话解释清楚“程序员到底在干嘛”。

方法一:RLHF——让AI“知错就改”,跟人类反馈学

第一个方法叫“RLHF”,全称是“Reinforcement Learning from Human Feedback”,翻译过来就是“从人类反馈中学习的强化学习”。别被这个长名字吓到,其实它的逻辑特别简单:就像你教孩子写字,孩子写得好你就夸他(给奖励),写得不好你就指出来(给惩罚),时间长了孩子就知道“怎么写才对”——RLHF就是用这个思路教AI。

咱们拆成三步,你就懂了:

第一步:让AI“随便写”,先交个“初稿”。比如你让AI“写一首关于春天的诗”,AI会先根据自己学过的知识,写几首风格不一样的诗——有的可能写“桃花开了”,有的可能写“燕子回来了”,有的可能写得特别烂,比如“春天来了,天气暖和了”。这一步的目的,是让AI先“试错”,把它能想到的“答案”都摆出来。

第二步:人类“打分”,告诉AI“哪个好哪个坏”。这时候,程序员会找一群人(可能是专业的标注员,也可能是普通用户),让他们给AI写的诗打分:“这首写得有画面感,打5分”“这首太直白了,打2分”“这首跑题了,写的是夏天,打0分”。除了打分,人类还会告诉AI“为啥不好”,比如“这首诗里提到了‘荷花’,荷花是夏天开的,春天没有”。这一步就是给AI“反馈”,让它知道“人类喜欢啥,不喜欢啥”。

第三步:让AI“根据反馈改”,越改越好。程序员会把人类的打分和评价输入到AI里,让AI学习“为什么5分的诗好,为什么0分的诗不好”。比如AI会发现“提到桃花、燕子的诗得分高,提到荷花的诗得分低”,“用比喻、拟人手法的诗得分高,直白描述的诗得分低”。下次你再让AI写春天的诗,它就会避开“荷花”,多用水墨画、拟人,写出来的诗就更符合你的期待了——这就是“对齐”的过程。

你平时用AI的时候,其实一直在参与RLHF。比如你用ChatGPT时,下面有个“ thumbs up ”(点赞)和“ thumbs down ”(点踩),你点了赞,AI就知道“这个回答符合你的需求”,下次会更倾向于这么回答;你点了踩,AI就知道“这个回答有问题”,会去分析“哪里错了”。还有你用抖音的推荐算法,你划走一个视频,就是在告诉AI“我不喜欢这个”;你点赞、评论一个视频,就是在告诉AI“我喜欢这个”——抖音的推荐越来越准,本质上也是RLHF在起作用。

RLHF的好处是“接地气”,因为它直接用人类的反馈来教AI,不用程序员去“猜人类想要啥”。但它也有缺点:太费人了。要让人类给AI的每一个回答打分、评价,需要大量的人力和时间;而且不同的人打分标准不一样,比如有人觉得“直白的诗好”,有人觉得“含蓄的诗好”,AI可能会被这些“矛盾的反馈”搞懵。

方法二: Constitutional AI——给AI立“规矩”,让它按“原则”做事

第二个方法叫“Constitutional AI”,翻译过来是“宪法式AI”。这个方法的思路也很简单:既然人类的价值观太乱,那不如先给AI定一套“统一的规矩”,就像国家的宪法一样,AI做任何事都不能违反这些规矩——比如“不能说谎”“不能伤害人”“不能歧视”。这样一来,不管AI遇到啥情况,都知道“底线在哪”,不会做出太离谱的事。

这章没有结束,请点击下一页继续阅读!

上一页目 录下一页
先看到这(加入书签) | 推荐本书 | 我的书架

如果您喜欢,请把《大白话聊透人工智能》,方便以后阅读大白话聊透人工智能用人话唠明白“人机对齐”:别让AI会错你的意后的更新连载!
如果你对大白话聊透人工智能用人话唠明白“人机对齐”:别让AI会错你的意并对大白话聊透人工智能章节有什么建议或者评论,请后台发信息给管理员。