亚洲精品少妇久久久久久海角社区,色婷婷亚洲一区二区综合,伊人蕉久中文字幕无码专区,日韩免费高清大片在线

羅戈網(wǎng)
搜  索
登陸成功

登陸成功

積分  

貨拉拉機器學習平臺-海豚

[羅戈導讀]貨拉拉作為互聯(lián)網(wǎng)物流科技企業(yè),過去幾年不斷深耕AI技術(shù),推動物流行業(yè)的智能化發(fā)展,并在AI定價、AI營銷、AI客服、AI安防等多個領(lǐng)域取得顯著成就。

前言

隨著AI技術(shù)的不斷成熟和廣泛應用,已經(jīng)逐漸成為各行各業(yè)用來提升生產(chǎn)力的重要工具。貨拉拉作為互聯(lián)網(wǎng)物流科技企業(yè),過去幾年不斷深耕AI技術(shù),推動物流行業(yè)的智能化發(fā)展,并在AI定價、AI營銷、AI客服、AI安防等多個領(lǐng)域取得顯著成就。

盡管AI技術(shù)已廣泛應用于貨拉拉的各大業(yè)務線,并顯著提升了運營效率,但在實際的AI模型開發(fā)過程中,我們?nèi)悦媾R多重挑戰(zhàn):例如,如何加快模型的開發(fā)和交付、提升算力資源利用率等。針對這些問題,我們構(gòu)建了一套覆蓋數(shù)據(jù)處理、模型開發(fā)、訓練、部署、在線推理的全鏈路AI開發(fā)服務體系,并通過算力資源的統(tǒng)籌管理,打造了一個低門檻、高性能的一站式云原生AI開發(fā)平臺。

接下來將詳細介紹這些挑戰(zhàn)及其解決方案。

2

AI能力落地的挑戰(zhàn)

2.1

模型交付效率低

在技術(shù)發(fā)展初期,AI模型服務從需求提出,到模型開發(fā)訓練,再到交付上線的完整環(huán)節(jié)和流程如下圖所示:




模型生產(chǎn)交付流程復雜:整個流程涉及數(shù)據(jù)收集、處理、模型開發(fā)、訓練、部署等多個環(huán)節(jié),往往需要跨平臺操作實現(xiàn),增加了流程上的管理和協(xié)調(diào)的難度。

跨平臺導致的數(shù)據(jù)割裂:各環(huán)節(jié)和平臺之間的數(shù)據(jù)不共享,導致數(shù)據(jù)、代碼、模型文件需多次手動拷貝傳輸,尤其是當前大模型動輒幾十G的大文件,增加了操作復雜性和出錯風險。

環(huán)境配置無法跨平臺復用:多個平臺環(huán)節(jié)需要手動搭建相同的算法模型運行環(huán)境,重復工作多,拖慢整體進度。

2.2

算力資源利用率低

AI應用需要大量的算力資源,尤其是GPU資源,目前是由不同團隊各自維護管理,缺乏統(tǒng)一的資源管理和協(xié)調(diào)能力;算力資源按照機器維度進行分配,多機器之間算力資源使用率不均衡,整體資源利用率低;多模型服務共享同一節(jié)點的部署方式在一定程度上可以提升算力資源利用率,但是人工調(diào)度的方式,無法準確的把控資源冗余、實時調(diào)整資源大小,所以資源利用率有很大的提升空間。

3

海豚平臺介紹

豚平臺是一款面向算法和工程團隊而設計的低門檻、高可用的云原生AI開發(fā)平臺。平臺集成了數(shù)據(jù)處理、模型開發(fā)、訓練、部署與在線推理等模型交付的核心能力,實現(xiàn)了數(shù)據(jù)、模型和服務的一站式閉環(huán),助力AI應用在貨拉拉的快速落地。

平臺架構(gòu):


3.1

一站式AI開發(fā)平臺


上圖展示了如何使用海豚平臺進行一個模型交付的流程。算法工程師只需在一個平臺內(nèi)即可實現(xiàn)從數(shù)據(jù)準備、模型開發(fā)、訓練到部署的模型交付全過程,并且模型的元信息貫穿AI開發(fā)全生命周期,真正做到了一站式的云原生AI模型開發(fā)。

3.1.1 分布式存儲

了解決各個環(huán)節(jié)之間數(shù)據(jù)(數(shù)據(jù)集、模型、代碼)互通共享的問題,海豚平臺通過分布式存儲,實現(xiàn)了平臺內(nèi)各環(huán)節(jié)直接勾選和使用相關(guān)數(shù)據(jù)的能力,無需反復的手動上傳和拷貝,打通了各個環(huán)節(jié)之間的數(shù)據(jù)孤島。

個人工作目錄:


個人工作目錄下的文件,通過PVC文件掛載技術(shù),直達容器內(nèi)部;個人工作目錄下的文件僅自己可見,并永久存儲。

模型訓練代碼和數(shù)據(jù)集掛載:


同樣在模型訓練時只需勾選需要的數(shù)據(jù)集和模型文件產(chǎn)出的掛載路徑,對應的數(shù)據(jù)集將直接掛載至模型訓練的容器內(nèi)部,同時模型訓練后的模型文件將自動存放至個人工作目錄下。

3.1.2 鏡像管理

在容器技術(shù)中,鏡像是生成和運行容器的基礎,其具有環(huán)境一致性、可移植性和版本控制等特點。海豚平臺通過使用容器+鏡像的能力,有效解決了模型交付流程中模型運行環(huán)境重復搭建的問題。

平臺內(nèi)置鏡像:

海豚平臺內(nèi)置了多種常見的機器學習、深度學習、大模型相關(guān)的的開發(fā)和推理鏡像(如 Triton、TensorRT-llm、Vllm)


自定義鏡像:

同時平臺也支持算法工程師通過提交Dockerfile或者基于現(xiàn)有的鏡像添加依賴的方式構(gòu)建自定義鏡像。

3.1.3 模型一鍵部署

海豚平臺通過 Deployment 實現(xiàn)模型服務的容器化部署,算法工程師只需配置模型的啟動命令、申請適當?shù)乃懔Y源,并選擇對應的模型運行鏡像環(huán)境,即可快速地完成模型服務的部署。同時面對突發(fā)流量,海豚平臺可一鍵完成快速的模型服務擴縮容。

1. 發(fā)布配置





2. 調(diào)整算力資源



3. 選擇鏡像和版本

4. 擴縮容



3.2

算力資源管理

3.2.1 算力資源池化

海豚平臺通過Kubernetes實現(xiàn)了算力資源統(tǒng)籌管理,根據(jù)不同的使用場景劃分了多個資源節(jié)點池,每個節(jié)點池支持多種類型的GPU機器,在實現(xiàn)算力資源統(tǒng)籌管理的同時,還確保了開發(fā)、訓練和推理環(huán)節(jié)的資源物理隔離。



3.2.2 算力分配多樣化

多服務共用一張卡:針對業(yè)務小模型應用場景,海豚平臺基于GPU共享技術(shù),實現(xiàn)了細粒度算力資源管理分配,支持最小128Mi顯存單位的申請和釋放。

單服務占用多張卡:針對大模型應用場景,當單張卡的顯存不足時,海豚平臺支持通過分配多張顯卡支撐大顯存模型的部署。




3.2.3 算力資源自動回收

模型開發(fā)自動釋放機制:在模型開發(fā)過程中,用戶申請的算力資源存在閑置且未及時釋放的情況。為避免算力資源的浪費,平臺分配資源時限定了使用時長,到期未使用的情況下,平臺將自動釋放這些閑置資源。



3.3

穩(wěn)定性建設

3.3.1 可觀測性

系統(tǒng)的可觀測性是指通過監(jiān)控、日志和鏈路追蹤等手段,幫助快速發(fā)現(xiàn)并定位問題,為系統(tǒng)穩(wěn)定性保駕護航。海豚平臺通過統(tǒng)一收集和分析集群、模型服務、網(wǎng)關(guān)系統(tǒng)的監(jiān)控和日志數(shù)據(jù),快速感知異常問題并及時通知負責人,確保問題及時感知和處理。

集群監(jiān)控:




服務監(jiān)控:



3.3.2 高可用建設



4

海豚平臺應用

4.1

通用場景解決能力


基于海豚平臺,結(jié)合貨拉拉的內(nèi)部業(yè)務需求,我們整理并持續(xù)優(yōu)化了通用場景的 AI 解決方案。平臺對圖像檢測、自然語言處理、語音合成識別等常見的 AI 能力進行了產(chǎn)品化封裝,業(yè)務方對這些能力無需再次開發(fā)可直接快速接入應用。

4.2

大模型應用市場

隨著大模型技術(shù)在自然語言處理、智能問答、文本和圖像生成等領(lǐng)域的廣泛應用,技術(shù)門檻高、計算資源消耗大的問題限制了其在各業(yè)務場景中的推廣和使用。針對這一痛點,海豚平臺打造了大模型應用市場,集成了豐富的預訓練模型,支持通用大模型的一站式快速部署與接入使用。

平臺還支持通過配置化方式進行模型微調(diào)、訓練和評估,簡化了大模型在各業(yè)務場景的應用流程,為其快速落地提供了強有力的支持。


5

海豚平臺未來規(guī)劃

海豚平臺已初步完成 AI 開發(fā)平臺能力的搭建,并成功支持了貨拉拉內(nèi)部多個業(yè)務線的AI應用,實現(xiàn)了 AI 能力在多業(yè)務場景下的快速落地。接下來,我們將從以下幾個方面進一步提升平臺能力:

業(yè)務賦能:擴大 AI 能力在更多業(yè)務部門中的應用場景,為貨拉拉各業(yè)務線提供智能化支持,全面提升業(yè)務效能。

算力資源提升:進一步優(yōu)化按需分配機制,提升GPU算力利用率,實現(xiàn)多場景下算力資源的高效分配與使用。

大?;A設施完善:豐富開源大模型應用市場,支持多樣化的模型訓練與微調(diào)方式,提供更高性能的模型在線推理,為大模型的創(chuàng)新應用提供更強大的支持與保障。


免責聲明:羅戈網(wǎng)對轉(zhuǎn)載、分享、陳述、觀點、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權(quán)歸原作者。如無意中侵犯了您的版權(quán),請第一時間聯(lián)系,核實后,我們將立即更正或刪除有關(guān)內(nèi)容,謝謝!
上一篇:貨拉拉多場景大模型AI助理實踐
下一篇:想象即現(xiàn)實:貨拉拉 AI 應用開發(fā)體系揭秘
羅戈訂閱
周報
1元 2元 5元 10元

感謝您的打賞

登錄后才能發(fā)表評論

登錄

相關(guān)文章

2025-04-01
2025-03-26
2025-03-24
2025-03-24
2025-03-21
2025-03-20
活動/直播 更多

倉儲管理之全局視角:從入門到精通

  • 時間:2025-04-24 ~ 2025-05-16
  • 主辦方:馮銀川
  • 協(xié)辦方:羅戈網(wǎng)

¥:2080.0元起

報告 更多

2025年3月物流行業(yè)月報-個人版

  • 作者:羅戈研究

¥:9.9元