将ChatGPT引入自动驾驶,毫末是这样做的

42号车库 2023-02-13 17:55:46

去年底,ChatGPT 横空出世。真实自然的人机对话,以及比拟专家的回答,还有一本正经的胡说八道,使其快速走红,风靡全世界。

不像之前那些换脸、捏脸、诗歌绘画生成等红极一时又很快热度退散的 AIGC 应用,ChatGPT不仅保持了热度,而且还有全面爆发的趋势。现如今,谷歌、百度的 AI 聊天机器人已经在路上。

Transformer 是一种结构简单的编解码器,几乎可以无限堆叠,从而形成一种大规模的预训练语言模型。基于 Transformer 模型构成的 GPT 架构可以很好的完成多种语言处理任务,填空、造句、分段、翻译等等,随着数据集和模型参数的大规模增长,等到 GPT3.0 的时候已经有了千亿规模,GPT 就表现出来了非常强的文本生成能力。 自然而然,一问一句的对话模式也就应运而生了。但 GPT3.5 还不是 ChatGPT。

ChatGPT 还需要使用监督学习和强化学习来实现。具体来说,ChatGPT使用了一种叫「人类反馈强化学习 (RLHF)」的训练方法,在训练中可以根据人类反馈,保证对无益、失真或偏见信息的最小化输出。

简单说,GPT 只能保证有问就有答,我可不保证回答的正确的,而 ChatGPT 既要保证有的聊,还要保证聊的对。就跟小孩子一样,必须在大人一遍遍纠正发音、纠正语法和用词的训练中,学会真正的有效对话。

ChatGPT 就是利用人类反馈进行强化学习的产物。

既然 ChatGPT这么好用。我们不妨来问它一个问题:

能不能把 ChatGPT 用在自动驾驶技术训练当中?

答案是:可以。

毫末顾维灏:把ChatGPT引入自动驾驶,毫末走了这三步

我估计ChatGPT还没涉猎过这个问题,因为关于ChatGPT和自动驾驶关联的内容是缺少的。不过,如果ChatGPT最近在中文网络中收录过相关报道的话,那么,它就会知道中国的一家人工智能技术公司已经开始思考这个问题了。

在今年1月毫末智行的 AI DAY 上,毫末 CEO 顾维灏非常隆重地提到了 ChatGPT,并且直言,毫末已经展开对于 ChatGPT 背后的技术的研究。

顾维灏说:「实现GPT3 到Chat GPT的龙门一跃最重要的是 ChatGPT 模型使用了“利用人类反馈强化学习 RLHF”的训练方式,更好的利用了人类知识,让模型自己能够判断其答案的质量,逐步提升自己给出高质量答案的能力。」

那这对自动驾驶有什么启发呢?

毫末认为,ChatGPT的技术思路和自动驾驶认知决策的思路是不谋而合。

毫末在认知驾驶决策算法的进化上分成了 3 个阶段:

第一个阶段,是引入了个别场景的端到端模仿学习,直接拟合人驾行为。

第二个阶段是通过大模型,引入海量正常人驾数据,通过 Prompt 的方式实现认知决策的可控可解释。

第三个阶段,就是引入了真实接管数据,在其中尝试使用「人类反馈强化学习(RLHF)」。一般来说,人类司机的每一次接管,都是对自动驾驶策略的一次人为反馈(Human Feedback);这个接管数据可以被简单当成一个负样本来使用,就是自动驾驶决策被纠正的一次记录。也可以被当作改进认知决策的正样本来学习。

为此,毫末构建了一个<旧策略、接管策略、人工 label 策略>的 pairwise 排序模型。基于这个模型,毫末构建了自动驾驶决策的奖励模型 (reward model),从而在各种情况下做出最优的决策。

毫末将这一模型称之为人驾自监督认知大模型。简单来说,就是为了让自动驾驶系统能够学习到老司机的优秀开车方法,让毫末的认知大模型要从人类反馈中学会选择和辨别,并稳定地输出最优解。通过这种方式,毫末在公认的困难场景,例如掉头、环岛等公认的困难场景中,通过率提升 30% 以上。

当然,如果 ChatGPT 再继续搜索和学习下去的话,它就会知道在 1 月初的HAOMO AI DAY 上,毫末不仅发布了这个人驾自监督大模型,还一口气发布了另外四个大模型。这五个大模型可以帮助毫末实现车端感知架构跨代升级,也就是将过去分散的多个下游任务都集成到一起,形成一个更加端到端架构,包括红绿灯、局部路网、预测等任务,实现了跨代升级。

总得来说,人工智能技术是当前许多旧产业的改造器,也是新产业的助力器。正如当年互联网喊出的「所有行业都要被互联网重塑一番一样」,今天的一切行业都要被「AI+」改造一番。

而实际上,人工智能的这场变革并不是必然发生,它有赖于一个天才算法结构的横空出世,它有赖于海量数据和算力的成本下降与容易获得,也依赖于人工智能技术从业者的勇敢尝试。 ChatGPT 的出现是如此,自动驾驶的实现也是如此。

0 阅读:144
评论列表
  • 2023-02-13 19:14

    可玩性高,同个问题答案深度不同

  • 2023-02-13 18:35

    昆仓万维官微:今年发布中国版Chat GPT。明天一字版涨停。

  • 2023-02-14 10:31

    不吹区块链和元宇宙了吗?

42号车库

简介:Hey, it‘s 42HOW. 用最简单的方式读懂未来汽车。