6月2日,國際頂會ICRA 2020舉辦了“第二屆長時人類運動預(yù)測研討會”,該研討會由博世有限公司、厄勒布魯大學、斯圖加特大學、瑞士洛桑聯(lián)邦理工聯(lián)合組織。同時在該研討會上,還舉辦了一項行人軌跡預(yù)測競賽,吸引了來自世界各地的104支隊伍參賽。美團無人配送團隊通過采用“世界模型”的交互預(yù)測方法,奪得了該比賽的第一名。
圖1 ICRA 2020 TrajNet++軌跡預(yù)測競賽
本次競賽提供了街道、出入口、校園等十個復(fù)雜場景下的行人軌跡數(shù)據(jù)集,要求參賽選手根據(jù)這些數(shù)據(jù)集,利用行人在過去3.6秒的軌跡來預(yù)測其在未來4.8秒的運行軌跡。競賽使用FDE(預(yù)測軌跡和真實軌跡的終點距離)來對各種算法進行排名。
本次的賽題數(shù)據(jù)集,主要來源于各類動態(tài)場景下的真實標注數(shù)據(jù)和模擬合成數(shù)據(jù),采集頻率為2.5赫茲,即兩個時刻之間的時間差為0.4秒。數(shù)據(jù)集中的行人軌跡都以固定坐標系下的時序坐標序列表示,并且根據(jù)行人的周圍環(huán)境,這些軌跡被分類成不同的類別,例如靜態(tài)障礙物、線性運動、追隨運動、避障行為、團體運動等。在該比賽中,參賽隊伍需要根據(jù)每個障礙物歷史9個時刻的軌跡數(shù)據(jù)(對應(yīng)3.6秒的時間)來預(yù)測未來12個時刻的軌跡(對應(yīng)4.8秒的時間)。
該競賽采用多種評價指標,這些評價指標分別對單模態(tài)預(yù)測模型和多模態(tài)預(yù)測模型進行評價。單模態(tài)模型是指給定確定的歷史軌跡,預(yù)測算法只輸出一條確定的軌跡;而多模態(tài)模型則會輸出多條可行的軌跡(或者分布)。本次競賽的排名以單模態(tài)指標中的FDE指標為基準。
其實,美團在很多實際業(yè)務(wù)中經(jīng)常要處理行人軌跡預(yù)測問題,而行人軌跡預(yù)測的難點在于如何在動態(tài)復(fù)雜環(huán)境中,對行人之間的社交行為進行建模。因為在復(fù)雜場景中,行人之間的交互非常頻繁并且交互的結(jié)果將會直接影響他們后續(xù)的運動(例如減速讓行、繞行避障、加速避障等)。
基于各類帶交互數(shù)據(jù)集,一系列的算法被相繼提出,然后對障礙物進行交互預(yù)測,這些主流模型的工作重心都是針對復(fù)雜場景下行人之間的交互進行建模。常用的方法包括基于LSTM的交互算法(SR LSTM[1]、Social GAN[2]、SoPhie[3]、Peeking into[4]、StarNet[5]等),基于Graph/Attention的交互算法(GRIP[6]、Social STGCNN[7]、STGAT[8]、VectorNet[9]等),以及基于語義地圖/原始數(shù)據(jù)的預(yù)測算法等。
我們本次的參賽方法就是由自研算法[10](如圖2所示)改進而來,該方法的設(shè)計思路是根據(jù)場景中所有障礙物的歷史軌跡、跟蹤信息以及場景信息,建立并維護一個全局的世界模型來挖掘障礙物之間、障礙物與環(huán)境之間的交互特性。然后,再通過查詢世界模型來獲得每個位置鄰域內(nèi)的交互特征,進而來指導(dǎo)對障礙物的預(yù)測。
圖2 基于世界模型的預(yù)測算法
在實際操作過程中,由于數(shù)據(jù)集中缺乏場景信息,我們對模型做了適當?shù)恼{(diào)整。在世界模型中(對應(yīng)上圖的Interaction Net),我們僅使用了現(xiàn)有數(shù)據(jù)集,以及模型能夠提供的位置信息和跟蹤信息LSTM隱狀態(tài)信息。最終得到的模型結(jié)構(gòu)設(shè)計如下圖3所示:
整個模型基于Seq2Seq結(jié)構(gòu),主要包含歷史軌跡編碼模塊(Encoder)、世界模型(Interaction Module)和解碼預(yù)測模塊(Decoder)三個部分。其中,編碼器的功能在于對行人歷史軌跡進行編碼,主要提取行人在動態(tài)環(huán)境中的運動模式;解碼器則是利用編碼器得到的行人運動模式特征,來預(yù)測他們未來的運動軌跡分布。
需要強調(diào)一下,在整個編碼與解碼的過程中,都需要對世界模型進行實時更新(Update)與查詢(Query)兩種操作。更新操作主要根據(jù)時序的推進,將行人的運動信息實時編入世界模型中;查詢操作則是根據(jù)全局的世界地圖以及行人的自身位置,來獲取行人當前鄰域內(nèi)的環(huán)境特征。
圖4 編碼階段
在圖4中,展示了我們模型在歷史軌跡編碼階段的計算流程。編碼階段共有9個時刻,對應(yīng)9個歷史觀測時間點,每個時刻都執(zhí)行相同的操作。以t時刻為例。
首先,將t時刻的所有行人坐標數(shù)據(jù),包含:
位置集合
速度集合
所有行人跟蹤信息(上時刻編碼得到的LSTM隱狀態(tài))
將以上信息輸入到世界模型中更新地圖信息,即Update操作。整個Update操作經(jīng)過MLP、MaxPooling以及GRU等模塊獲得一個全局的時空地圖特征R;然后,每個LSTM(對應(yīng)一個行人),使用其當前觀測時刻的坐標信息:
然后與R進行Attention操作,得到個人領(lǐng)域內(nèi)的時空特征,最后與他的坐標信息、上時刻隱狀態(tài)信息一并輸入到LSTM并更新LSTM內(nèi)置狀態(tài)。
解碼預(yù)測階段的流程與歷史軌跡編碼階段基本一致,但存在兩個細微的不同點:
區(qū)別1:編碼階段每個行人對應(yīng)的LSTM隱狀態(tài)的初始化為0;而解碼階段,LSTM由編碼階段的LSTM隱狀態(tài)和噪聲共同初始化。
區(qū)別2:編碼階段行人對應(yīng)的LSTM和世界模型使用的是行人歷史觀測坐標;而解碼階段使用的是上時刻預(yù)測的行人坐標。
圖5 解碼預(yù)測階段
為了對數(shù)據(jù)有更好的理解,便于使用更適合的模型,我們對訓(xùn)練數(shù)據(jù)做了一些預(yù)處理操作。首先,數(shù)據(jù)集給出了各個行人的行為標簽,這些標簽是根據(jù)規(guī)則得到的,由于我們采用了交互預(yù)測的方法,希望模型能自動學習行人與周圍主體之間的位置關(guān)系、速度關(guān)系等,所以我們就不直接使用標注中的“類型”信息;然后這次比賽的數(shù)據(jù)采集自馬路、校園等不同場景中行人的運動軌跡,場景之間的差異性非常大,訓(xùn)練集和測試集數(shù)據(jù)分布不太一致。
于是,我們做了數(shù)據(jù)的可視化工作,將所有軌跡數(shù)據(jù)的起點放置于坐標軸的原點處,根據(jù)歷史觀測軌跡(前9個時刻)終點的位置朝向,將所有軌跡分為4類:沿左上方運動(top-left moving)、沿右上方運動(top-right moving)、沿左下方運動(bottom-left moving)和沿右下方運動(bottom-right moving)。分布的結(jié)果如圖6所示,可以發(fā)現(xiàn),訓(xùn)練集和測試集的數(shù)據(jù)分布存在一定的差距。
圖6 訓(xùn)練集與測試集歷史觀測軌跡中行人運動方向分布
針對上述問題,我們對訓(xùn)練集做了2項預(yù)處理來提高訓(xùn)練集與測試集分布的一致性:
平衡性采樣;
場景數(shù)據(jù)正則化(缺失軌跡點插值,軌跡中心化以及隨機旋轉(zhuǎn))。
此外,對于預(yù)測結(jié)果,我們也做了相應(yīng)的后處理操作進行軌跡修正,主要是軌跡點的裁剪以及基于非極大值抑制的軌跡選擇。圖7展示了兩個場景中行人的運動區(qū)域,可以看到有明顯的邊界,對于超出邊界的軌跡,我們做了相應(yīng)的修正,從而保證軌跡的合理性。
圖7 訓(xùn)練軌跡的可視化
最后在訓(xùn)練技巧上,我們也使用K-Fold Cross Validation和Grid Search方法來做自適應(yīng)的參數(shù)調(diào)優(yōu)。最終在測試集上取得FDE 1.24米的性能,而獲得比賽第二名的方法的FDE為1.30米。
行人軌跡預(yù)測是當前一個非常熱門的研究領(lǐng)域,隨著越來越多的學者以及研究機構(gòu)的參與,預(yù)測方法也在日益地進步與完善。美團無人配送團隊也期待能與業(yè)界一起在該領(lǐng)域做出更多、更好的解決方案。幸運的是,這次競賽的場景與我們美團無人配送的場景具備一定的相似性,所以我們相信未來它能夠直接為業(yè)務(wù)賦能。目前,我們已經(jīng)將該研究工作在競賽中進行了測試,也驗證了算法的性能,同時為該算法在業(yè)務(wù)中落地提供了一個很好的支撐。
[1] Zhang P, Ouyang W, Zhang P, et al. Sr-lstm: State refinement for lstm towards pedestrian trajectory prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12085-12094.
[2] Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2255-2264.
[3] Sadeghian A, Kosaraju V, Sadeghian A, et al. Sophie: An attentive gan for predicting paths compliant to social and physical constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1349-1358.
[4] Liang J, Jiang L, Niebles J C, et al. Peeking into the future: Predicting future person activities and locations in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5725-5734.
[5] Zhu Y, Qian D, Ren D, et al. StarNet: Pedestrian trajectory prediction using deep neural network in star topology[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. 2019: 8075-8080.
[6] Li X, Ying X, Chuah M C. GRIP: Graph-based interaction-aware trajectory prediction[C]//Proceedings of the IEEE Intelligent Transportation Systems Conference. IEEE, 2019: 3960-3966.
[7] Mohamed A, Qian K, Elhoseiny M, et al. Social-STGCNN: A Social spatio-temporal graph convolutional neural network for human trajectory prediction[J]. arXiv preprint arXiv:2002.11927, 2020.
[8] Huang Y, Bi H K, Li Z, et al. STGAT: Modeling spatial-temporal interactions for human trajectory prediction[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 6272-6281.
[9] Gao J, Sun C, Zhao H, et al. VectorNet: Encoding HD maps and agent dynamics from vectorized representation[J]. arXiv preprint arXiv:2005.04259, 2020.
[10] Zhu Y, Ren D, Fan M, et al. Robust trajectory forecasting for multiple intelligent agents in dynamic scene[J]. arXiv preprint arXiv:2005.13133, 2020.
炎亮,美團無人車配送中心算法工程師。佳禾,浙江大學在讀研究生,美團無人車配送中心實習生。德恒,美團無人車配送中心算法工程師。冬淳,美團無人車配送中心算法工程師。
京東物流遼寧省京東幫服資源招商
1456 閱讀年營收2萬億、凈利潤下滑至90億,大宗供應(yīng)鏈五巨頭業(yè)績出爐!
1142 閱讀兩大物流國企成立合資公司,意欲何為?
984 閱讀行業(yè)首創(chuàng)!52名卡友數(shù)字人集體亮相
940 閱讀AI賦能車輪上的聲音 路歌第十一屆“5·2卡友節(jié)”圓滿舉辦
756 閱讀運滿滿江浙滬上線“即時單”業(yè)務(wù),打造極速貨運新體驗
790 閱讀深圳首發(fā)!順豐同城與肯德基推出無人車智能配送服務(wù)
797 閱讀破局與重生:傳統(tǒng)國際貨代如何通過數(shù)字化轉(zhuǎn)型實現(xiàn)戰(zhàn)略突圍
803 閱讀關(guān)稅大戰(zhàn)遇上全球供應(yīng)鏈:蘋果公司深度研究與戰(zhàn)略推演
688 閱讀物流企業(yè)銷售激勵背后的秘密
686 閱讀