自动驾驶ORION端到端自动驾驶框架,通过视觉语言模型指导动作生成,实现整体的自主驾驶
端到端的自动驾驶方法在交互式的闭环评估中然难以做出正确的决策,主要是因为这种方法的因果推理能力有限,目前大家试图利用视觉语言模型(VLM)强大的理解和推理能力来解决这个难题,但是由于语义推理空间与动作空间中纯粹的数值轨迹输出之间的差距,很少有VLM在闭环评估中有比较良好的表现。为了解决这个问题,我们提出了ORION,ORION是一个通过视觉语言指导的动作生成来实现端到端自动驾驶的框架,结合了QT-Former来聚合长期历史上下文,大型语言模型(LLM)用于驾驶场景推理,生成规划器用于精确轨迹预测。ORI