近年來,數(shù)據(jù)閉環(huán)成了自動駕駛行業(yè)的一個熱門話題,很多自動駕駛公司都在試圖打造自己的數(shù)據(jù)閉環(huán)系統(tǒng)。數(shù)據(jù)對于目前的自動駕駛來說有多重要早已不是什么新鮮話題,作為人工智能在工程落地上最有前景的領域之一,擁有著更多、質量更高的數(shù)據(jù)無疑可以讓智能駕駛的系統(tǒng)更加先進。與此同時,如何利用好現(xiàn)有的數(shù)據(jù),從海量數(shù)據(jù)中能夠真正學習到人類駕駛的行為策略,將有助于算法的進一步更新迭代。而這所有的一切,都離不開數(shù)據(jù)閉環(huán),這也是當前自動駕駛公司為之努力的一大方向。
何為數(shù)據(jù)閉環(huán)?
事實上,數(shù)據(jù)閉環(huán)已經被大多數(shù)自動駕駛公司認為是提升自動駕駛能力的必經之路。以特斯拉為例,配置了自動駕駛硬件的車隊采集通過規(guī)則及影子模式下的觸發(fā)器篩選的數(shù)據(jù),經過語義篩選后的數(shù)據(jù)被回傳到云端。此后,工程師在云端用工具對數(shù)據(jù)做一些處理,再把處理好的數(shù)據(jù)放入數(shù)據(jù)集群,然后利用這些有效數(shù)據(jù)訓練模型。模型訓練好之后,工程師會把訓練好的模型部署回車端做一系列的指標檢測,經過驗證的新模型會被部署到車端供駕駛員使用。在這種模型下,會有新的數(shù)據(jù)源源不斷被觸發(fā)回傳,從而形成循環(huán)。此時,一個完整的由數(shù)據(jù)驅動的迭代開發(fā)循環(huán)便形成了。
與傳統(tǒng)軟件的迭代優(yōu)化不同,自動駕駛系統(tǒng)的研發(fā)與優(yōu)化除代碼以外,還有更為關鍵的AI模型。代碼端的問題可以通過傳統(tǒng)的數(shù)據(jù)閉環(huán)方式予以解決,但模型端的調整則需要重新訓練或優(yōu)化AI算法模型。因此,自動駕駛數(shù)據(jù)閉環(huán)需要在傳統(tǒng)數(shù)據(jù)閉環(huán)方式上,引入一些新東西:就是數(shù)據(jù)采集、數(shù)據(jù)標注以及數(shù)據(jù)訓練。支持自動駕駛數(shù)據(jù)閉環(huán)實現(xiàn)周而復始、不斷向前的關鍵,也是新場景數(shù)據(jù)的不斷投喂。只有讓模型認識了足夠多的場景,才能獲得泛化性較高的智能軟件。
利用數(shù)據(jù)閉環(huán)打造智能系統(tǒng)
現(xiàn)實駕駛場景難以窮盡,極其復雜且不可預測,需要AI模型快速迭代升級。實現(xiàn)自動駕駛數(shù)據(jù)閉環(huán)的快速循環(huán)迭代,以滿足新場景模型適配問題,同時也需要各“長尾場景”數(shù)據(jù)的高效流轉。
模型訓練方面,目前AI算法模型已階段性基本成熟。在實際應用時,不同場景需要解決的問題不盡相同。這并非算法模型的問題,而是場景適配度的問題。自動駕駛AI模型后續(xù)調優(yōu)主要以數(shù)據(jù)迭代為主,需要投喂海量新場景數(shù)據(jù)。
數(shù)據(jù)采集方面,依靠遍布車身的各類傳感器,車輛每小時采集的數(shù)據(jù)量可達數(shù)TB之多。然而采集得到數(shù)據(jù)為非結構化數(shù)據(jù),這些未經處理的數(shù)據(jù)并不能直接用于模型訓練,標注后才能產生使用價值。
橫亙在數(shù)據(jù)與模型訓練之間的首要問題是如何高效處理海量數(shù)據(jù)集,真實數(shù)據(jù)規(guī)模已然成為智能駕駛行業(yè)的“命脈”。然而與指數(shù)型增長的數(shù)據(jù)服務需求相比,無論數(shù)據(jù)處理效率亦或是數(shù)據(jù)產出質量均難以滿足市場需求。
產能方面,大部分數(shù)據(jù)服務商業(yè)務規(guī)模、執(zhí)行效率與項目經理能力高度綁定,產能瓶頸問題凸顯;數(shù)據(jù)產出質量方面,以點云數(shù)據(jù)為代表的數(shù)據(jù)處理需求占比逐漸擴大,傳統(tǒng)依靠簡單工具和依賴人力的業(yè)務執(zhí)行方式,也早已無法滿足垂直市場的需求。
自動駕駛實現(xiàn)規(guī)?;慨a,數(shù)據(jù)服務領域能否率先實現(xiàn)突破,助力于數(shù)據(jù)閉環(huán)的最終形成將成為關鍵。
難度重重,數(shù)據(jù)驅動面臨多重挑戰(zhàn)
雖然業(yè)界已經公認數(shù)據(jù)驅動將是自動駕駛的未來趨勢與方向,但想要真正落地數(shù)據(jù)驅動模型也面臨著諸多的挑戰(zhàn)。
首先,便是數(shù)據(jù)的合規(guī)性問題。采集的數(shù)據(jù)是否符合國家規(guī)定,是否侵犯了用戶的隱私等等都是自動駕駛公司在采集數(shù)據(jù)時需要考慮的難題。拿高精地圖為例,在道路上采集數(shù)據(jù)的時候,企業(yè)需要具備國家測繪資質,并且要做相應的備案,否則采集過程中會被國安等部門阻止。目前,國內總共有約30家機構具備相關資質,有的企業(yè)具備國家電子導航甲級資質,適用范圍較廣,在國內多個城市都可以采集,而有的企業(yè)具備乙級資質,適用范圍就會更小,只能在特定的城市采集。與此同時,測繪的數(shù)據(jù)不得泄漏,尤其是不得將數(shù)據(jù)挪到國外,非中國國籍的人既不能獲取測繪數(shù)據(jù),也不能在公司內操作測繪數(shù)據(jù)。這樣一來,無疑給需要大規(guī)模采集數(shù)據(jù)的自動駕駛公司戴上了緊箍咒,無法施展拳腳。
其次,數(shù)據(jù)的所有權歸屬問題。按照中國的《個人信息保護法》相關規(guī)定,非法律允許的數(shù)據(jù)采集受到隱私保護。在德國,原德國聯(lián)邦信息保護局有這樣的規(guī)定,如果司機不是受害者,未經對方同意就記錄其他司機的臉和車輛,是違反個人信息保護法的。也就是說,即使是車主記錄別人信息也可能屬于違法。但由于和新能源車伴生的自動駕駛行業(yè)很新,法律規(guī)定目前尚屬空缺,所以我們按照基本法學理念推導,量產車采集的數(shù)據(jù)應該由車主所有。目前,主機廠很少對外開放數(shù)據(jù),導致自動駕駛Tier1在幫助主機廠實現(xiàn)了主機廠定制的功能后,很難收集到用戶在使用這些功能時的反饋數(shù)據(jù),除非Tier1自己有很多測試車。那么,自動駕駛Tier1就難以根據(jù)用戶反饋的數(shù)據(jù)對相關功能做后續(xù)的優(yōu)化,數(shù)據(jù)閉環(huán)就難以實現(xiàn)。
最后,采集海量數(shù)據(jù)的標注與后處理也是自動駕駛公司們遇到的極大挑戰(zhàn)。據(jù)估計,從量產車回傳數(shù)據(jù)后,單車每日回傳的數(shù)據(jù)量大概為百兆級。研發(fā)階段,車輛總數(shù)可能只有幾十輛或者幾百輛。但是到了量產階段,車輛數(shù)目的量級可以達到上萬、幾十萬甚至更多。那么,量產階段,整個車隊日產生的數(shù)據(jù)量就是很大的數(shù)字。急劇增加的數(shù)據(jù)量給存儲空間以及數(shù)據(jù)處理的速度都帶來了挑戰(zhàn)。量產之后,數(shù)據(jù)處理的延遲需要和研發(fā)階段保持在同一個量級。但如果底層的基礎設施跟不上,數(shù)據(jù)處理的延遲就會隨著數(shù)據(jù)量的增長而相應地增加,這樣會極大地拖慢研發(fā)流程的進度。對于系統(tǒng)迭代來講,這種效率的降低是不可接受的。
總結
雖然在打造數(shù)據(jù)閉環(huán)之路上,自動駕駛公司們遭遇了多重的挑戰(zhàn)與困難,但無論誰都不可否認,這就是通向高階自動駕駛的必經之路。并且在現(xiàn)階段,已經有特斯拉這樣的車企的成功,證明了這個方向的可行性。在未來,數(shù)據(jù)閉環(huán)之路的挑戰(zhàn)也將被廠商們悉數(shù)解決,而有了海量高質量數(shù)據(jù)加成的自動駕駛系統(tǒng),將會變得更加安全與智能。