- 世界模型的思考逻辑是“物理规律+空间推理”:比如你让它生成“下雨的公园”,它不仅会在3D场景里加上“雨滴下落”的效果,还会考虑“雨滴落在长椅上会往下流”“地面湿了会有反光”这些物理规律;如果你让“虚拟人”在雨里走,它还会让虚拟人“撑起伞”,避免被雨淋——这都是基于对物理世界的理解,而不是文字联想。
3. 输出结果:一个“给静态文字/图片”,一个“给动态3D世界”
- 语言模型的输出是“静态的”:不管是写文案、画2D图,还是答问题,输出的结果都是“不能互动的”。比如它给你画的2D户型图,你不能进去走,也不能调整家具位置;它给你写的旅行攻略,你只能看文字,不能“身临其境”。
- 世界模型的输出是“动态可交互的”:它生成的是3D世界,你可以用鼠标、键盘控制视角,在里面自由导航——比如走进3D公园的大门,绕着喷泉走一圈,坐在长椅上看滑梯,甚至可以调整太阳的角度,看看不同时间的光影效果。这种“可交互性”,是语言模型完全做不到的。
4. 应用场景:一个“办公、娱乐”,一个“生产、实操”
- 语言模型的应用场景主要是“轻量级的文字处理”:比如写工作报告、社交媒体文案、回答咨询、翻译文档等,都是和“信息传递”相关的场景,不用涉及物理世界的互动。
- 世界模型的应用场景主要是“重量级的实操场景”:比如游戏开发(生成3D游戏地图)、机器人导航(让机器人看懂真实环境)、虚拟制造(在3D空间里模拟生产流程)等,都是需要“和物理空间互动”的场景。
简单总结:语言模型解决的是“信息层面”的问题,让人和AI的信息交流更顺畅;世界模型解决的是“物理层面”的问题,让AI能看懂、构建、互动真实世界。李飞飞认为,只有把这两种模型结合起来,AI才能真正走向通用智能——比如未来的AI助手,既能听懂你的文字指令,又能在3D世界里帮你完成实操任务(比如设计房子、模拟生产、控制机器人干活)。
三、实操拆解:世界模型是怎么工作的?用文字就能生成3D世界?
李飞飞提到她创办的Worldlives公司,用18个月就做出了全球首个大型世界模型产品Marble,能“根据文字和图片提示生成可自由导航的3D世界”。很多人会好奇:“这到底是怎么实现的?难道AI真能‘无中生有’造3D世界?”
其实Marble的工作原理一点都不神秘,核心就是“三步走”,和咱们平时画画、做手工的逻辑差不多,只是把“人动手”变成了“AI自动做”:
第一步:读懂“指令”——把文字/图片变成“3D需求清单”
首先,Marble要先理解你给的提示——不管是文字还是图片,它都会先拆解成“3D世界的关键要素”,就像你要做手工前,先列好“需要什么材料、做什么形状、颜色是什么”。
比如你输入文字提示“一个复古风格的咖啡馆,面积50平米,有吧台、木质桌椅、复古吊灯,墙面是浅棕色,地板是深色木地板”,Marble会拆解成这样的“3D需求清单”:
- 空间大小:50平米,长方体结构;
- 核心物体:吧台(材质:木质,颜色:深棕色,位置:进门左侧)、桌椅(10套,材质:木质,颜色:浅棕色,位置:吧台对面)、复古吊灯(8个,材质:金属+玻璃,颜色:金色,位置:天花板均匀分布);
- 环境细节:墙面颜色(浅棕色)、地板材质(深色木地板)、风格(复古)。
如果你给的是一张“海边小屋”的图片,Marble会先识别图片里的关键元素(小屋、大海、沙滩、椰子树),再还原它们的3D关系(小屋在沙滩上,大海在小屋前方,椰子树在小屋旁边),然后形成“3D需求清单”。
这一步的关键是:Marble不仅能识别“有什么东西”,还能理解“这些东西在3D空间里的位置关系”,这是语言模型做不到的——语言模型只能告诉你“海边小屋有沙滩和大海”,但不知道“沙滩在小屋前面,大海在沙滩前面”。
第二步:构建“骨架”——生成3D空间的基础结构
理解需求后,Marble会先搭建3D世界的“骨架”,也就是空间结构和物体的大致形状,就像盖房子先搭钢筋水泥框架,再砌墙。
比如构建复古咖啡馆的“骨架”:
- 先画一个50平米的长方体空间,确定墙面、天花板、地板的位置;
- 再在空间里放置“简化版物体”:用长方体代表吧台,用小长方体+平板代表桌椅,用圆柱体+球体代表吊灯;
- 确定物体的相对位置:吧台在进门左侧,桌椅在中间区域,吊灯在天花板下方,确保物体之间不重叠(比如桌椅不会穿过吧台,吊灯不会碰到桌子)。
这章没有结束,请点击下一页继续阅读!