更麻烦的是,人类的需求还会“变来变去”,甚至“自己都不知道自己想要啥”。比如你打开购物软件,本来想买一件“冬天穿的外套”,结果刷着刷着,被推荐了一件“春秋穿的风衣”,你觉得“哎,这个也挺好看”,最后买了风衣——你自己都偏离了最初的需求,AI怎么可能精准对齐?
还有一种情况,叫“需求冲突”。比如你想“快速完成工作报告”,又想“报告质量高不被领导骂”,这两个需求本身就有矛盾:快了可能质量不高,质量高了可能慢。你自己都在纠结“先保证快还是先保证质量”,AI怎么知道该偏向哪一边?它要是选了“快”,你会嫌“敷衍”;选了“质量”,你又会嫌“慢”——这时候不管AI怎么做,都像是“费力不讨好”。
所以啊,对齐难的第一个原因,是“源头就乱了”:人类自己都没把需求说清楚、想明白,却指望AI能“猜中”,这本身就是件难事。就像你让别人帮你画画,你只说“画个好看的风景”,最后画出来的不是你想要的,你能全怪别人吗?
难点二:AI的“学习方式”是“死记硬背”,不会“举一反三”
第二个难点,是AI的“学习逻辑”跟人类完全不一样。咱们人类学东西,是“理解本质”,比如你学会了“骑自行车”,再骑电动车、摩托车也能很快上手,因为你懂“保持平衡”的核心;但AI学东西,是“海量刷题”,它会记住“在A场景下做B动作能得到C结果”,但它不懂“为什么B动作能得到C结果”——这就导致它只会“照葫芦画瓢”,稍微换个场景就“懵圈”。
举个例子:你教AI“看到‘红色信号灯’就‘停车’”,它在普通马路上能做得很好;但如果遇到“红色的广告牌”,它可能也会停下来——因为它只记住了“红色=停车”,没理解“红色信号灯是交通信号,红色广告牌是广告”的本质区别。这就是AI的“死板”:它不会像人类一样“区分场景”,只会把“见过的案例”套用到“类似的场景”里,一旦场景有细微差别,就容易“对齐失败”。
再比如,你让AI帮你“写一封道歉信”,你给它的例子是“跟朋友道歉,因为忘了约会”,AI能写出不错的信;但如果你让它“跟领导道歉,因为迟到了”,它可能还会用“咱们俩这么熟,别生气啦”这种语气——因为它没理解“朋友”和“领导”的关系差异,也没理解“忘约会”和“迟到”的严重程度差异,它只是把“道歉信”的模板套了过来。
更头疼的是,AI会“过度优化”。比如你让AI“提高视频的播放量”,它可能会把视频标题改成“震惊!99%的人都不知道的秘密”,封面改成特别夸张的图片——因为它发现“标题党”和“夸张封面”能提高播放量,就会一直用这个方法,完全不管“内容质量”和“用户体验”。你想要的是“靠好内容提高播放量”,但AI理解的是“只要播放量高就行,不管用啥方法”——这就是因为AI没理解“提高播放量”背后的“隐性需求”,只看到了“显性目标”。
这种“死板”和“过度优化”,本质上是因为AI没有“常识”,也没有“价值观”。它不知道“标题党会让用户反感”,也不知道“跟领导说话要尊重”,它只知道“怎么做能达到你给的目标”。就像一个只会执行命令的机器人,你说“去拿个苹果”,它可能会把桌子上的苹果连同盘子一起摔碎,因为它只知道“拿苹果”,不知道“要小心别摔碎”——这不是它故意的,是它真的不懂“常识”。
难点三:人类的“价值观”太复杂,还不统一
第三个难点,也是最核心的难点:人类的“价值观”太乱了,不仅每个人不一样,甚至同一个人在不同场景下也不一样,AI根本不知道该“对齐谁的价值观”。
比如一个简单的问题:“AI帮你筛选简历,应该优先考虑‘有工作经验的人’还是‘应届毕业生’?”不同的人有不同的答案:老板可能觉得“有经验的人能快速上手”,HR可能觉得“应届生工资低、可塑性强”,刚毕业的学生可能觉得“应该给应届生机会”——AI要是对齐了老板的价值观,就会得罪应届生;对齐了应届生的价值观,又会让老板不满意。
再比如,“AI帮你推荐新闻,应该优先推荐‘你喜欢的娱乐新闻’还是‘重要的时政新闻’?”你闲的时候可能想“看点八卦放松一下”,但忙的时候可能想“了解一下国家大事”;甚至同一个时间,你既想“看八卦”又想“了解时政”,自己都在纠结——AI怎么知道该偏向哪一边?
还有更复杂的“道德难题”:比如AI开车时遇到紧急情况,前面有一个行人,旁边有五个行人,只能撞向一边,该撞谁?这个问题连人类自己都吵了几百年没吵出答案,有人说“撞人少的一边”,有人说“不能主动撞人,哪怕自己翻车”,有人说“看谁没遵守交通规则”——AI要是对齐了其中一种价值观,就会违背另一种价值观,怎么选都是“错”。
小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!