文|王怡宁
编辑|尚恩
最近AI视频赛道大火,Pika推出1.0版本,并宣布融资千万美金,出尽风头。
而作为AI视频生成的老大哥,现象级产品Gen-1、Gen-2的开发商Runway突然宣布组建团队开发通用世界模型(General World Models,以下简称GWMs),目标是创建一种不同于大语言模型的,并能模拟现实世界的人工智能系统。
Runway喊话要做GWMs后,立即就引起众多网友的质疑。
有人就表示:
这就是加入了视频、音频、文字和图片的多模态大模型呗
还有人直接说:“这是条不错的视频,Ruben(视频中的小狗)也很可爱”。(但直接忽视了新模型)
△图源:Twitter
Runway想做的世界模型是什么样的?为何要在这时候选择做世界模型?
用世界模型来模拟世界
对于大部分用户而言,人工智能在过去一年的发展速度确实已经超乎我们的预期和想象,但当我们惊叹于大语言模型竟然能够流畅地与我们对话时,幻觉问题让大模型们时不时“胡言乱语”或“答非所问”的情况也让实际的使用体验大打折扣。
而这种问题并不仅仅存在于大语言模型领域,在AI扩图和AI视频生成中也屡见不鲜,比如AI生成图片中经典的六指问题:
△图源:Twitter
就连Runway自家的产品Gen-2也避免不了这一问题。对此,Runway在新发布的3分钟视频内尝试解释这一问题的根源——现有的大模型缺乏对真实世界全面的了解。
以大众最为熟知的LLM(大语言模型)为例,尽管可以生成诗歌、文章甚至电影,但LLM实际只了解语言领域的规则,因此遇到不了解的问题时,常常“一本正经地胡编乱造”。
它们的底层范式是:大模型+大数据=掌握关于世界更多的知识,这种范式也导致了普遍的幻觉问题,而同样的情况也出现在AI视频生成工具中。
事实上,Runway这次提出的通用世界模型概念,正是想要回应和解决这一问题。Runway将“世界模型”定义为一种人工智能系统,它能建构对环境的内部再现,并且用来模拟该环境中的未来事件。
简言之,Runway希望新模型能够尽可能接近我们生活的真实世界,模拟各种各样的情况和互动。
LeCun力挺,但Runway想搞点不同的
「世界模型」并不是Runway首创的概念。图灵奖获得者Yann LeCun去年就提出过这一概念,用于描绘他理想中的、更接近人类真实水平的AI。
他曾在公开演讲中批评GPT大模型,认为根据概率生成自回归的大模型,根本无法破除幻觉难题,甚至断言GPT模型活不过5年。
LeCun希望能够创造出一个可以学习世界如何运作的内部模型,基于此,他和他的团队在今年6月发布了「类人」的人工智能模型I-JEPA,让模型像人类一样学习关于世界的常识背景知识。
△图源:Twitter
不过目前看来,尽管他们的论文在发布时收获了不少的掌声与期待,但半年过去了,LeCun的世界模型似乎还未找到顺利落地的途径。这或许也是大众对Runway持保留态度的原因。
那么Runway想搞的世界模型,是啥样的?
对于如何开发新模型,Runway在视频中透露了部分想法,GWM要建立的是一种心智地图(mental map),让模型更多了解关于世界的“为什么”和“怎么样”。
要实现这一想法似乎还面临着不少挑战,Runway团队也已经认识到了这点。他们对GWM的介绍中提到,眼下需要解决的两个问题是:
1、这些模型需要生成一致的环境映射,以及在这些环境中导航和交互的能力。
2、模型不仅需要捕捉世界的动态,还需要捕捉其居民的动态,其中还包括建立现实的人类行为模型。
△图源:Twitter
尽管外界对此反应平平,Runway显然已经下定决心组建团队,开始招兵买马,公司的官方网站上已经开放了一批新的职位招聘,范围涵盖机器学习、应用研究以及数据基础设施等多个领域。
△图源:Runway官网
One More Thing
回看AI视频生成赛道,由Pika 1.0点燃的热情不减反增。从最早一批拿到Pika测评资格的用户反馈来看,目前对Pika 1.0的实际效果和技术水平的评价也呈现两极分化的局面。
一部分用户盛赞Pika 1.0 是他们目前用过最好的AI视频生成工具,也有一些discord用户在实测后发现,效果与其他类似工具并有没明显差距。
国内巨头也纷纷下场布局AI生成动画,阿里和字节的竞争更是到了面对面的地步——阿里近日发布名为“Animate Anyone”的AI项目,称只需要一张图片和一段骨骼动画,就可以为任何人制作视频。字节紧随其后推出“MagicAnimate”,并且直接实现了开源。最终,战局以阿里迅速发布“DreaMoving”回击暂时中止。
有趣的是,风头无两的Pika Labs成立的契机之一,正是两位联合创始人的作品在Runway举办的第一届AI movie Festival中落选。在最近的一次访谈中,创始人Chenlin Meng也提到目前Runway、Genmo、Imagen Video等能够生成的视频质量水平相近,都存在不少“artifact”(技艺),不过这也恰恰说明了这一领域还有很多技术创新和突破的空间。
Chenlin Meng将目前的视频生成技术比作“GPT-2时期”,未来的竞争格局还有很多变数。GWM能否帮助Runway弯道超车,仍需拭目以待。
欢迎交流