用人话唠明白“人机对齐”：别让AI会错你的意_大白话聊透人工智能_巴蜀魔幻侠

更麻烦的是，价值观还会“随时间变化”。比如几十年前，“女性优先考虑家庭”是很多人的共识，但现在“女性优先考虑事业”也被广泛认可；以前“加班是敬业”，现在“拒绝无效加班”成了潮流——AI要是按照“过去的价值观”来做事，肯定会跟现在的人类需求脱节。

AI面对的，不是一个“统一的人类价值观”，而是一个“混乱的、变化的、充满矛盾的价值观集合”。它就像一个在多路口迷路的人，左边有人说“往这走”，右边有人说“往那走”，前面有人说“别走了”——它根本不知道该听谁的。这也是为什么很多AI在涉及“道德判断”的问题上，总是会“犯错”：不是它不想对齐，是人类自己都没达成共识，它没个准星。

三、程序员是怎么“教AI对齐”的？三大方法，其实你每天都在接触

虽然对齐很难，但程序员们也没闲着，早就琢磨出了一套套“教AI对齐”的方法。这些方法听起来可能很高大上，但其实你每天都在“间接参与”——比如你给AI的回答点“有用”或“没用”，就是在帮AI对齐；你纠正AI的错误，也是在帮AI对齐。咱们就来唠唠最常用的三种方法，用你能听懂的话解释清楚“程序员到底在干嘛”。

方法一：RLHF——让AI“知错就改”，跟人类反馈学

第一个方法叫“RLHF”，全称是“Reinforcement Learning from Human Feedback”，翻译过来就是“从人类反馈中学习的强化学习”。别被这个长名字吓到，其实它的逻辑特别简单：就像你教孩子写字，孩子写得好你就夸他（给奖励），写得不好你就指出来（给惩罚），时间长了孩子就知道“怎么写才对”——RLHF就是用这个思路教AI。

咱们拆成三步，你就懂了：

第一步：让AI“随便写”，先交个“初稿”。比如你让AI“写一首关于春天的诗”，AI会先根据自己学过的知识，写几首风格不一样的诗——有的可能写“桃花开了”，有的可能写“燕子回来了”，有的可能写得特别烂，比如“春天来了，天气暖和了”。这一步的目的，是让AI先“试错”，把它能想到的“答案”都摆出来。

第二步：人类“打分”，告诉AI“哪个好哪个坏”。这时候，程序员会找一群人（可能是专业的标注员，也可能是普通用户），让他们给AI写的诗打分：“这首写得有画面感，打5分”“这首太直白了，打2分”“这首跑题了，写的是夏天，打0分”。除了打分，人类还会告诉AI“为啥不好”，比如“这首诗里提到了‘荷花’，荷花是夏天开的，春天没有”。这一步就是给AI“反馈”，让它知道“人类喜欢啥，不喜欢啥”。

第三步：让AI“根据反馈改”，越改越好。程序员会把人类的打分和评价输入到AI里，让AI学习“为什么5分的诗好，为什么0分的诗不好”。比如AI会发现“提到桃花、燕子的诗得分高，提到荷花的诗得分低”，“用比喻、拟人手法的诗得分高，直白描述的诗得分低”。下次你再让AI写春天的诗，它就会避开“荷花”，多用水墨画、拟人，写出来的诗就更符合你的期待了——这就是“对齐”的过程。

你平时用AI的时候，其实一直在参与RLHF。比如你用ChatGPT时，下面有个“ thumbs up ”（点赞）和“ thumbs down ”（点踩），你点了赞，AI就知道“这个回答符合你的需求”，下次会更倾向于这么回答；你点了踩，AI就知道“这个回答有问题”，会去分析“哪里错了”。还有你用抖音的推荐算法，你划走一个视频，就是在告诉AI“我不喜欢这个”；你点赞、评论一个视频，就是在告诉AI“我喜欢这个”——抖音的推荐越来越准，本质上也是RLHF在起作用。

RLHF的好处是“接地气”，因为它直接用人类的反馈来教AI，不用程序员去“猜人类想要啥”。但它也有缺点：太费人了。要让人类给AI的每一个回答打分、评价，需要大量的人力和时间；而且不同的人打分标准不一样，比如有人觉得“直白的诗好”，有人觉得“含蓄的诗好”，AI可能会被这些“矛盾的反馈”搞懵。

方法二： Constitutional AI——给AI立“规矩”，让它按“原则”做事

第二个方法叫“Constitutional AI”，翻译过来是“宪法式AI”。这个方法的思路也很简单：既然人类的价值观太乱，那不如先给AI定一套“统一的规矩”，就像国家的宪法一样，AI做任何事都不能违反这些规矩——比如“不能说谎”“不能伤害人”“不能歧视”。这样一来，不管AI遇到啥情况，都知道“底线在哪”，不会做出太离谱的事。

这章没有结束，请点击下一页继续阅读！