JohnCarmack融来2000万美金做什么?做个AI打游戏!一般

映梦说汽车啊 2025-05-25 10:04:17

John Carmack 融来 2000 万美金做什么?做个 AI 打游戏!

一般认为,AI 打游戏,尤其是这里打雅达利是一个已经被解决的问题,DeepMind 发的论文到现在都十几年过去了,一些新发出来的 AI 已经在绝大多数雅达利游戏上打败了顶尖人类玩家刷新了最高分。

但 John 重读了一遍论文觉得不太认可,首先是论文里的模型训练用掉了 2 亿帧图像,如果游戏以 60 FPS 的速度运行,意味着一个 AI 要 24 小时不吃不喝连续玩儿 38 天,才能实现一个普通大学生玩儿一个小时的水平。

John 对刷更高的分数不感兴趣,他想验证一下提高数据效率,比如只用 10 万帧图像,AI 能不能高效地学会打游戏?

另外为了让强化学习从仿真环境里转向与物理世界直接交互,他们启动了「物理雅达利」!

一台雅达利游戏机、一台配备了 RTX 4090 的华硕笔记本、一个 1920*1080 的 USB 摄像头、一个由 3 个伺服电机驱动的摇杆控制。

哈哈哈。

John 说「这个项目可能有点像噱头,但据我所知是很新颖的」,这个项目试图回答的基本问题是:机器人能玩儿游戏吗?

他还 cue 了一下,让那些人形机器人公司尝试去指挥机器人停止跳舞,拿起一个雅达利摇杆,从零开始学会玩儿一个冷门游戏,看看这个有多难。

哈哈哈哈。

将 AI 从仿真环境带到现实世界会有什么不同?首先,从摄像头拍摄的画面中可靠地捕捉实时游戏画面中的得分,就是一个巨大的难题,甚至是整个项目中最难的一部分。

John 开玩笑说,理论上你甚至可以截个图,然后丢给 ChatGPT,它大概率能答对。但实际上情况是游戏一直在动态变化,不同游戏显示分数的方式、位置、字体、颜色都不一样,而且光照会变化,屏幕会反光,摄像头有噪点,想做到稳定、通用的实时读取分数就是非常难。

另一个问题是控制延迟,AI 从看到摄像头采集的画面到拨动游戏摇杆,再到这个动作反应在画面上,整个过程存在延迟。

这里的意外发现是,许多高性能的强化学习算法,尤其是那些依赖于一个世界模型来进行预测和规划的算法,在这种物理环境中性能会急剧崩溃甚至完全无法学习。这是因为它们的预测模型通常假设动作一旦做出,游戏环境会像棋盘游戏一样立即给出反馈,但实际是有延迟的。

还有很多其他的问题,不一一展开了。

我觉得这个项目最有趣的是,选择物理雅达利充分显示出 John 的系统工程思维,那个摄像头读取分数的难题,让我立刻想到了辅助驾驶模型的红绿灯检测难题,非常类似。

尽管 John 感叹从过去的职业生涯转到 Keen Technologies 研究 AI,他的身份从一个以系统工程和产品交付为核心的角色,转变为一个更侧重基础研究的研究员。

但在我看来,过去 30 年的工程背景还是给他留下了很深的烙印,和一众 AI 公司比,Keen Technologies 是一个披着 AGI 研究外衣的工程公司,最多也是研究和工程并举,Rich Sutton 侧重研究,John 侧重工程。

任何的研究,想要在现实世界中产生影响,终究是需要过工程这一关的。

0 阅读:4
映梦说汽车啊

映梦说汽车啊

感谢大家的关注