浪潮信息AI團(tuán)隊獲ICCV 2025 自動駕駛競賽"端到端自動駕駛"賽道冠軍

浪潮信息

2025-10-28 18:19 320

北京2025年10月28日 /美通社/ -- 近日，在ICCV 2025自動駕駛國際挑戰(zhàn)賽（Autonomous Grand Challenge 2025）中，浪潮信息AI團(tuán)隊?wèi){借其提出的創(chuàng)新框架"SimpleVSF"，以53.06的EPDMS綜合得分，在端到端自動駕駛賽道中奪得冠軍。該項目創(chuàng)新構(gòu)建以鳥瞰視圖感知軌跡預(yù)測為核心、視覺-語言多模態(tài)大模型輔助判斷的融合方案，發(fā)揮大模型泛化能力，突破現(xiàn)有端到端自動駕駛模型在復(fù)雜交通場景"難以自主判斷"的局限，實現(xiàn)性能領(lǐng)先，為高動態(tài)、高交互交通環(huán)境下的智能決策提供了全新思路。

浪潮信息AI團(tuán)隊斬獲端到端自動駕駛賽道第一名

ICCV2025自動駕駛挑戰(zhàn)賽是自動駕駛與具身智能領(lǐng)域極具影響力的國際賽事。本屆比賽共設(shè)三大賽道，此次浪潮信息AI團(tuán)隊所登頂?shù)亩说蕉俗詣玉{駛賽道（NAVSIM v2 End-to-End Driving Challenge）是ICCV2025最受關(guān)注的賽道之一。比賽以NAVSIM v2數(shù)據(jù)驅(qū)動仿真框架作為評估平臺，主要考驗純視覺環(huán)視相機輸入的軌跡預(yù)測與行為規(guī)劃能力，要求在保證行車安全性的前提下，優(yōu)化車輛的前進(jìn)效率、避障能力、可行駛區(qū)域、駕駛舒適度等九項關(guān)鍵指標(biāo)，避免模型只在某一單項上表現(xiàn)突出的缺陷。該賽道吸引了來自中國、韓國、瑞典的多家頭部智駕企業(yè)及知名高校與研究機構(gòu)。

端到端自動駕駛：挑戰(zhàn)基于語義理解的類人決策

當(dāng)前，端到端自動駕駛（End-to-End Autonomous Driving）通過端到端優(yōu)化有效減少了傳統(tǒng)模塊化方法中各組件間的誤差累積與信息損失，被廣泛認(rèn)為是實現(xiàn)智能駕駛的重要發(fā)展方向。然而，端到端自動駕駛系統(tǒng)在復(fù)雜現(xiàn)實路況中的決策能力仍不理想，主要問題在于：現(xiàn)有方法雖能準(zhǔn)確識別車輛、車道等實體元素，卻難以理解如禮讓行人、擁堵跟車等高層次語義與場景常識。因此，在復(fù)雜長尾場景下，系統(tǒng)往往僅能依據(jù)數(shù)據(jù)關(guān)聯(lián)做出反應(yīng)，而無法真正解讀交通參與者意圖或交互邏輯，從而出現(xiàn)次優(yōu)決策，限制了其在真實開放道路中的可靠性與泛化能力。

在此基礎(chǔ)上，如何將深層語義認(rèn)知能力融入軌跡規(guī)劃流程，成為了更深層次的技術(shù)挑戰(zhàn)。首先，將視覺語言模型輸出的抽象認(rèn)知指令，轉(zhuǎn)化為驅(qū)動控制系統(tǒng)所需的具象數(shù)值化特征，本身就是一個復(fù)雜的表示學(xué)習(xí)問題。其次，在軌跡選擇階段，如何平衡數(shù)據(jù)驅(qū)動的量化評分與知識驅(qū)動的語義判斷，確保所選軌跡不僅在數(shù)學(xué)上最優(yōu)，也在語義和場景常識上合理安全，成為感知與決策間的關(guān)鍵障礙。

本屆賽題旨在提升端到端自動駕駛模型在復(fù)雜動態(tài)環(huán)境中高效可靠決策的能力。競賽分為兩階段：第一階段采用真實場景數(shù)據(jù)，第二階段則基于真實場景通過Gaussian Splatting技術(shù)生成合成場景，以測試模型對"非真實但物理合理"場景的泛化能力；同時引入"反應(yīng)式背景交通參與者"，即周圍車輛和行人不再是預(yù)先設(shè)定、機械運動的，而是會根據(jù)自車的實時行為做出動態(tài)、仿真的反應(yīng)，這要求模型具備更深層次的交互式預(yù)測與意圖理解能力，而非簡單的軌跡外推。

NAVSIM v2端到端自動駕駛賽題任務(wù)概覽

EPDMS 53.06分，SimpleVSF框架讓自動駕駛模型"懂場景、會思考"

在端到端自動駕駛賽道中，浪潮信息AI團(tuán)隊所提出的SimpleVSF（Simple VLM-Scoring Fusion）框架，有效彌合了傳統(tǒng)軌跡規(guī)劃與視覺語言模型語義理解之間的關(guān)鍵鴻溝，推動自動駕駛決策從"純幾何式"向"認(rèn)知式"轉(zhuǎn)變。該框架通過引入VLM（Vision-Language Model）與雙重融合決策機制，賦予系統(tǒng)深層的場景理解與推理能力，從根本上解決了現(xiàn)有方案在復(fù)雜交通語義認(rèn)知上的不足，成為應(yīng)對NAVSIM v2等高難度挑戰(zhàn)、實現(xiàn)高魯棒性駕駛的關(guān)鍵。其主要技術(shù)創(chuàng)新包括：

VLM增強打分機制，決策質(zhì)量與場景適應(yīng)性顯著提升

通過將前視圖像與車輛狀態(tài)輸入VLM模型，生成"加速、右轉(zhuǎn)"等認(rèn)知指令，再經(jīng)編碼器轉(zhuǎn)換為數(shù)值特征，與感知特征融合后輸入評分網(wǎng)絡(luò)。該機制使軌跡評估不再局限于幾何信息，更融入了對交通意圖與場景語義的理解，從而顯著提升了系統(tǒng)在復(fù)雜與長尾場景下的決策質(zhì)量與魯棒性。實驗表明，此VLM增強打分機制為單一模型帶來2%的性能提升，在融合決策中提升幅度達(dá)到6%。

SimpleVSF算法架構(gòu)圖

雙重融合決策機制，量化權(quán)衡與語義裁決能力雙重突破

權(quán)重融合器作為定量聚合的核心，采用固定權(quán)重與動態(tài)權(quán)重相結(jié)合的策略，對多個評分器給出的分?jǐn)?shù)進(jìn)行精準(zhǔn)的加權(quán)融合，確保最終軌跡在各項量化指標(biāo)上達(dá)到最優(yōu)。

基于VLM的選擇融合器則將各評分器選出的最優(yōu)軌跡進(jìn)行視覺渲染，并交由VLM進(jìn)行最終評判，利用其高層次語義理解能力，選擇出最符合上下文場景、最安全合理的軌跡路徑。

融合機制的引入使決策效果顯著提升，融合后的結(jié)果相比單一模型性能提升達(dá)10%。

基于VLM的軌跡選擇方法

更堅實的基礎(chǔ)模型協(xié)同，系統(tǒng)性能與魯棒性全面提升

該框架采用擴散模型生成高質(zhì)量的多樣化候選軌跡，奠定規(guī)劃基礎(chǔ)；運用ViT-L等先進(jìn)視覺骨干網(wǎng)絡(luò)進(jìn)行高效、魯棒的環(huán)境特征提取，為下游任務(wù)提供可靠表征；并引入Qwen2.5VL系列視覺語言模型，利用其在場景理解與指令生成方面的語義優(yōu)勢，確保系統(tǒng)整體性能基礎(chǔ)的堅實與領(lǐng)先。

基于VLM自動駕駛決策系統(tǒng)的算法創(chuàng)新，"SimpleVSF"算法框架成功登頂端到端自動駕駛賽道（NAVSIM v2 End-to-End Driving Challenge）榜單，以53.06的EPDMS綜合得分創(chuàng)造了本賽道的最高成績，為探索更高級別的端到端自動駕駛技術(shù)提供了有力的支撐與經(jīng)驗。

浪潮信息AI團(tuán)隊此次奪冠，是繼22、23年登頂nuScenes 3D目標(biāo)檢測純視覺及多模態(tài)榜單，24年在CVPR自動駕駛國際挑戰(zhàn)賽"Occupancy & Flow"賽道奪冠后的又一重要成果。未來，浪潮信息AI團(tuán)隊將踐行多角度切入，發(fā)揮算法、算力融合的AI全棧優(yōu)化能力，推動自動駕駛領(lǐng)域的技術(shù)創(chuàng)新發(fā)展。

* 備注：文內(nèi)所涉術(shù)語解釋如下

擴展預(yù)測性駕駛模型評分（The Extended Predictive Driver Model Score，EPDMS）：該指標(biāo)綜合考量軌跡預(yù)測與真實軌跡的貼合度、碰撞風(fēng)險、可行駛區(qū)域規(guī)范性、車道居中性、通行效率及舒適性等多個維度，全面反映自動駕駛系統(tǒng)的綜合表現(xiàn)；

高斯?jié)姙R（Gaussian Splatting）：一種新興的三維場景表示與渲染技術(shù)；

鳥瞰視圖（Bird's Eye View，BEV）：是指將特征信息轉(zhuǎn)化至鳥瞰視角；

自車（ego-car）：在自動駕駛領(lǐng)域指代當(dāng)前車輛自身，通常作為運動主體參與軌跡規(guī)劃、環(huán)境感知等任務(wù)；

魯棒（Robust）：是指系統(tǒng)在一定的參數(shù)攝動下，維持其它某些性能的特性。

消息來源：浪潮信息