前言
隨著AI技術(shù)的不斷成熟和廣泛應用,已經(jīng)逐漸成為各行各業(yè)用來提升生產(chǎn)力的重要工具。貨拉拉作為互聯(lián)網(wǎng)物流科技企業(yè),過去幾年不斷深耕AI技術(shù),推動物流行業(yè)的智能化發(fā)展,并在AI定價、AI營銷、AI客服、AI安防等多個領(lǐng)域取得顯著成就。
盡管AI技術(shù)已廣泛應用于貨拉拉的各大業(yè)務線,并顯著提升了運營效率,但在實際的AI模型開發(fā)過程中,我們?nèi)悦媾R多重挑戰(zhàn):例如,如何加快模型的開發(fā)和交付、提升算力資源利用率等。針對這些問題,我們構(gòu)建了一套覆蓋數(shù)據(jù)處理、模型開發(fā)、訓練、部署、在線推理的全鏈路AI開發(fā)服務體系,并通過算力資源的統(tǒng)籌管理,打造了一個低門檻、高性能的一站式云原生AI開發(fā)平臺。
接下來將詳細介紹這些挑戰(zhàn)及其解決方案。
2
AI能力落地的挑戰(zhàn)
2.1
模型交付效率低
在技術(shù)發(fā)展初期,AI模型服務從需求提出,到模型開發(fā)訓練,再到交付上線的完整環(huán)節(jié)和流程如下圖所示:
模型生產(chǎn)交付流程復雜:整個流程涉及數(shù)據(jù)收集、處理、模型開發(fā)、訓練、部署等多個環(huán)節(jié),往往需要跨平臺操作實現(xiàn),增加了流程上的管理和協(xié)調(diào)的難度。
跨平臺導致的數(shù)據(jù)割裂:各環(huán)節(jié)和平臺之間的數(shù)據(jù)不共享,導致數(shù)據(jù)、代碼、模型文件需多次手動拷貝傳輸,尤其是當前大模型動輒幾十G的大文件,增加了操作復雜性和出錯風險。
環(huán)境配置無法跨平臺復用:多個平臺環(huán)節(jié)需要手動搭建相同的算法模型運行環(huán)境,重復工作多,拖慢整體進度。
2.2
算力資源利用率低
AI應用需要大量的算力資源,尤其是GPU資源,目前是由不同團隊各自維護管理,缺乏統(tǒng)一的資源管理和協(xié)調(diào)能力;算力資源按照機器維度進行分配,多機器之間算力資源使用率不均衡,整體資源利用率低;多模型服務共享同一節(jié)點的部署方式在一定程度上可以提升算力資源利用率,但是人工調(diào)度的方式,無法準確的把控資源冗余、實時調(diào)整資源大小,所以資源利用率有很大的提升空間。
3
海豚平臺介紹
豚平臺是一款面向算法和工程團隊而設計的低門檻、高可用的云原生AI開發(fā)平臺。平臺集成了數(shù)據(jù)處理、模型開發(fā)、訓練、部署與在線推理等模型交付的核心能力,實現(xiàn)了數(shù)據(jù)、模型和服務的一站式閉環(huán),助力AI應用在貨拉拉的快速落地。
平臺架構(gòu):
3.1
一站式AI開發(fā)平臺
上圖展示了如何使用海豚平臺進行一個模型交付的流程。算法工程師只需在一個平臺內(nèi)即可實現(xiàn)從數(shù)據(jù)準備、模型開發(fā)、訓練到部署的模型交付全過程,并且模型的元信息貫穿AI開發(fā)全生命周期,真正做到了一站式的云原生AI模型開發(fā)。
3.1.1 分布式存儲
了解決各個環(huán)節(jié)之間數(shù)據(jù)(數(shù)據(jù)集、模型、代碼)互通共享的問題,海豚平臺通過分布式存儲,實現(xiàn)了平臺內(nèi)各環(huán)節(jié)直接勾選和使用相關(guān)數(shù)據(jù)的能力,無需反復的手動上傳和拷貝,打通了各個環(huán)節(jié)之間的數(shù)據(jù)孤島。
個人工作目錄:
個人工作目錄下的文件,通過PVC文件掛載技術(shù),直達容器內(nèi)部;個人工作目錄下的文件僅自己可見,并永久存儲。
模型訓練代碼和數(shù)據(jù)集掛載:
同樣在模型訓練時只需勾選需要的數(shù)據(jù)集和模型文件產(chǎn)出的掛載路徑,對應的數(shù)據(jù)集將直接掛載至模型訓練的容器內(nèi)部,同時模型訓練后的模型文件將自動存放至個人工作目錄下。
3.1.2 鏡像管理
在容器技術(shù)中,鏡像是生成和運行容器的基礎,其具有環(huán)境一致性、可移植性和版本控制等特點。海豚平臺通過使用容器+鏡像的能力,有效解決了模型交付流程中模型運行環(huán)境重復搭建的問題。
平臺內(nèi)置鏡像:
海豚平臺內(nèi)置了多種常見的機器學習、深度學習、大模型相關(guān)的的開發(fā)和推理鏡像(如 Triton、TensorRT-llm、Vllm)
自定義鏡像:
同時平臺也支持算法工程師通過提交Dockerfile或者基于現(xiàn)有的鏡像添加依賴的方式構(gòu)建自定義鏡像。
3.1.3 模型一鍵部署
海豚平臺通過 Deployment 實現(xiàn)模型服務的容器化部署,算法工程師只需配置模型的啟動命令、申請適當?shù)乃懔Y源,并選擇對應的模型運行鏡像環(huán)境,即可快速地完成模型服務的部署。同時面對突發(fā)流量,海豚平臺可一鍵完成快速的模型服務擴縮容。
1. 發(fā)布配置
2. 調(diào)整算力資源
3. 選擇鏡像和版本
4. 擴縮容
3.2
算力資源管理
3.2.1 算力資源池化
海豚平臺通過Kubernetes實現(xiàn)了算力資源統(tǒng)籌管理,根據(jù)不同的使用場景劃分了多個資源節(jié)點池,每個節(jié)點池支持多種類型的GPU機器,在實現(xiàn)算力資源統(tǒng)籌管理的同時,還確保了開發(fā)、訓練和推理環(huán)節(jié)的資源物理隔離。
3.2.2 算力分配多樣化
多服務共用一張卡:針對業(yè)務小模型應用場景,海豚平臺基于GPU共享技術(shù),實現(xiàn)了細粒度算力資源管理分配,支持最小128Mi顯存單位的申請和釋放。
單服務占用多張卡:針對大模型應用場景,當單張卡的顯存不足時,海豚平臺支持通過分配多張顯卡支撐大顯存模型的部署。
3.2.3 算力資源自動回收
模型開發(fā)自動釋放機制:在模型開發(fā)過程中,用戶申請的算力資源存在閑置且未及時釋放的情況。為避免算力資源的浪費,平臺分配資源時限定了使用時長,到期未使用的情況下,平臺將自動釋放這些閑置資源。
3.3
穩(wěn)定性建設
3.3.1 可觀測性
系統(tǒng)的可觀測性是指通過監(jiān)控、日志和鏈路追蹤等手段,幫助快速發(fā)現(xiàn)并定位問題,為系統(tǒng)穩(wěn)定性保駕護航。海豚平臺通過統(tǒng)一收集和分析集群、模型服務、網(wǎng)關(guān)系統(tǒng)的監(jiān)控和日志數(shù)據(jù),快速感知異常問題并及時通知負責人,確保問題及時感知和處理。
集群監(jiān)控:
服務監(jiān)控:
3.3.2 高可用建設
4
海豚平臺應用
4.1
通用場景解決能力
基于海豚平臺,結(jié)合貨拉拉的內(nèi)部業(yè)務需求,我們整理并持續(xù)優(yōu)化了通用場景的 AI 解決方案。平臺對圖像檢測、自然語言處理、語音合成識別等常見的 AI 能力進行了產(chǎn)品化封裝,業(yè)務方對這些能力無需再次開發(fā)可直接快速接入應用。
4.2
大模型應用市場
隨著大模型技術(shù)在自然語言處理、智能問答、文本和圖像生成等領(lǐng)域的廣泛應用,技術(shù)門檻高、計算資源消耗大的問題限制了其在各業(yè)務場景中的推廣和使用。針對這一痛點,海豚平臺打造了大模型應用市場,集成了豐富的預訓練模型,支持通用大模型的一站式快速部署與接入使用。
平臺還支持通過配置化方式進行模型微調(diào)、訓練和評估,簡化了大模型在各業(yè)務場景的應用流程,為其快速落地提供了強有力的支持。
5
海豚平臺未來規(guī)劃
海豚平臺已初步完成 AI 開發(fā)平臺能力的搭建,并成功支持了貨拉拉內(nèi)部多個業(yè)務線的AI應用,實現(xiàn)了 AI 能力在多業(yè)務場景下的快速落地。接下來,我們將從以下幾個方面進一步提升平臺能力:
業(yè)務賦能:擴大 AI 能力在更多業(yè)務部門中的應用場景,為貨拉拉各業(yè)務線提供智能化支持,全面提升業(yè)務效能。
算力資源提升:進一步優(yōu)化按需分配機制,提升GPU算力利用率,實現(xiàn)多場景下算力資源的高效分配與使用。
大?;A設施完善:豐富開源大模型應用市場,支持多樣化的模型訓練與微調(diào)方式,提供更高性能的模型在線推理,為大模型的創(chuàng)新應用提供更強大的支持與保障。
瑪氏中國|2025年度瑪氏箭牌北京區(qū)域包材及原材料倉儲(VMI)項目
2180 閱讀華為的物流“布局”,為何備受關(guān)注?
1383 閱讀北美倉配一體機會和風險
1208 閱讀?年營收15億的跨境物流企業(yè)要上市
951 閱讀縱騰集團借殼上市,6.4億收購A股上市公司綠康生化
896 閱讀解秘粵港澳大灣區(qū)規(guī)模最大的生產(chǎn)服務型國家物流樞紐——廣州東部公鐵聯(lián)運樞紐
875 閱讀TEMU美區(qū)半托管即將開放國內(nèi)發(fā)貨模式
778 閱讀京東物流一線員工日10周年:為5年、10年老員工授勛,為15000名標桿頒獎
724 閱讀2024年快遞滿意度出爐:順豐、京東快遞排名最高
683 閱讀TikTok撤換美國電商負責人,抖音前副總裁木青上位
635 閱讀