AI+汽车｜OpenAI 基金 500 万美金投资 Ghost Autonomy，布局自动驾驶

深思 SenseAI 2023-12-01 15:42:33

Ghost Autonomy 是自动驾驶领域使用多模态大规模语言模型（MLLM）的先驱，这种新模型的引入不仅可能解决现有自动驾驶系统中的长尾问题，还能提高对复杂城市环境的导航能力。

MLLMs 通过结合文本、图像、视频等多种输入模式，能够更全面地理解和推理驾驶场景。这种整合性的方法比传统的基于单一感知系统的方法更为先进和有效，可能会大大提高自动驾驶车辆的安全性和可靠性。

思考：

我们尝试基于文章内容，提出更多发散性的推演和深思，欢迎交流。

汽车是工业时代机械电子的集大成者。OpenAI 布局自动驾驶领域，有了具备通用理解能力的多模态大规模语言模型（MLLM）加成，汽车会是我们通往 AGI 道路的重要 Agent。

自动驾驶对安全性和可靠性依赖度高，MLLMs 可以在自动驾驶堆栈的各个环节中发挥作用，除了用于数据标注和模拟的离线任务训练， CEO John Hayes 更希望直接用于驾驶任务，值得关注。

AI Native 产品分析——Ghost Autonomy

1. 产品：Ghost Autonomy

2. 创始人：John Hayes

3. 创业背景：

Ghost Autonomy于2017 年创立。John Hayes 曾与他人共同创立了 Pure Storage 公司，并于 2015 年将该公司上市。

4. 产品简介：

一个灵活的人工智能软件平台，为未来的消费类汽车提供领先的自动驾驶功能。

5. 系统构成：

软件：Ghost OS、感知、驾驶、安全、人工智能

硬件：传感器、驾驶计算机、车辆控制器、通信网络

开发 Studio：驾驶、人工智能、设计

云架构：车辆通信、集中神经网络学习和验证

6. 产品价值：

Ghost 是在自动驾驶领域使用多模态大规模语言模型（MLLM）的先驱。这种全新的软件架构将大模型强大的类人推理能力应用于驾驶，使自动驾驶汽车能够理解复杂的驾驶场景。

作为消费类汽车可扩展自动驾驶软件的先驱， Ghost Autonomy 2023 年 11 月 8 日宣布获得 OpenAI 创业基金 500 万美元的投资，用于将大规模、多模态大语言模型（MLLM）引入自动驾驶。这笔资金将用于加速目前正在进行的基于 LLM 的复杂场景理解研究和开发，这正是下阶段的城市自动驾驶所需要的。这轮融资之后，该公司的融资总额达到 2.2 亿美元。

一、优化多模态大语言模型以实现自动驾驶

OpenAI 首席运营官兼 OpenAI 初创基金经理 Brad Lightcap 表示：”多模态模型有可能将 LLM 的适用性扩展到包括自动驾驶和汽车在内的许多新场景，能够通过结合视频、图像和声音来理解并得出结论，因此可能会创造出一种全新的方式来理解场景并导航于复杂或不寻常的环境。”

LLM 几乎每天都在不断提高自己的能力，并扩展到新的应用领域，颠覆着各行各业现有的计算架构。基于 Ghost Autonomy ，大语言模型也将对自动驾驶软件堆栈产生深远影响，而大语言模型新增的多模态功能（在接受文本输入的同时接受图像和视频输入）会加速其在自动驾驶用例中的应用。

多模态大语言模型（MLLM）具有对驾驶场景进行整体推理的潜在能力，可将感知和规划结合起来，为自动驾驶汽车提供更深入的场景理解，并通过对场景的整体考虑为正确的驾驶操作提供指导。

MLLMs 有可能成为自动驾驶软件的新架构，能够处理长尾的罕见复杂驾驶场景。现有的单一任务网络局限于其狭窄的范围和训练，而 LLM 允许自动驾驶系统全面推理驾驶场景，利用广泛的世界知识来驾驭复杂和不寻常的情况，甚至是从未见过的情况。

对商用和开源多模态大语言模型进行微调和定制的能力不断增强，有可能大大加快 MLLM 在自动驾驶领域的发展。Ghost 目前正在不断改进 MLLM 在自动驾驶领域的应用，同时在道路上不断测试和验证这种能力。Ghost 的开发车队会将数据发送到云端进行 MLLM 分析，同时还在积极开发利用 MLLM 洞察并反馈回汽车的自动驾驶功能。

二、自动驾驶大模型架构

自动驾驶大模型为重新全面思考自动驾驶的技术堆栈提供了机会。

当今的自动驾驶技术存在脆弱性问题。它们往往是 “自下而上 “构建的，即在复杂的传感器、地图和计算堆栈之上，由许多拼凑起来的人工智能网络和驾驶软件逻辑来执行感知、传感器融合、驾驶规划和驾驶执行等各种任务。这种方法导致了一个难以解决的 “长尾 “问题——在道路上发现的每一个角落都会导致越来越多的软件补丁，以试图实现安全迭代。当场景变得过于复杂，车载人工智能无法再安全驾驶时，汽车就必须 “后退”。如果是机器人出租车，则由远程操作中心的远程人员进行操作；如果是驾驶辅助系统，则提醒驾驶员接管。

MLLM 提供了”自上而下 “解决问题的机会。如果我们能用一个根据世界知识广泛训练的模型来推理驾驶，并优化它以执行驾驶任务，这样的模型能够全面推理场景，从感知到建议的驾驶结果一步到位，自动驾驶堆栈的构建就会变得更简单，能力也会大大增强。这种堆栈能够推理复杂多变的城市驾驶场景，超越了传统的策划训练。

实现用于自动驾驶的 MLLMs 需要一种新的架构，因为当今的 MLLMs 过于庞大，无法在嵌入式车载处理器上运行。因此需要一种混合架构，即在云上运行的大规模 MLLM 与在车内运行的经过专门训练的模型进行协作，在汽车和云之间分担自主任务以及长期与短期规划。

建立、交付和验证这种大型自动驾驶架构的安全性需要时间，但这并不意味着 MLLM 不能更快地影响自动驾驶堆栈。MLLMs 可以从改进数据中心流程入手，通过数据中心对自动驾驶训练数据进行整理、标注、模拟，并对车载网络进行训练和验证。MLLMs 还可以与现有的自动驾驶架构相连接，并为现有的自动驾驶架构增添洞察力，通过不断增强它们的能力，以承担越来越多的自动驾驶任务。

Ghost Autonomy 创始人兼首席执行官 John Hayes 表示：”长期以来，以可扩展的方式解决复杂的城市驾驶场景一直是这个行业的圣杯。LLMs 提供了一个突破口，最终将使日常消费车辆能够在最艰难的场景里推理并导航。 尽管 LLMs 已被证明对数据标注和模拟等离线任务很有价值，但我们很高兴能将这些强大的模型直接应用于驾驶任务，以充分发挥其潜力。”