亚洲精品少妇久久久久久海角社区,色婷婷亚洲一区二区综合,伊人蕉久中文字幕无码专区,日韩免费高清大片在线

羅戈網(wǎng)
搜  索
登陸成功

登陸成功

積分  

模型力 + 計(jì)算力 + 產(chǎn)品力 = 云路可落地的數(shù)智化雄心

[羅戈導(dǎo)讀]在企業(yè)經(jīng)營中,主觀決策可能導(dǎo)致偏差,而算法模型提供了一種科學(xué)的決策工具。云路科技通過2年努力構(gòu)建了“模型力+計(jì)算力+產(chǎn)品力”的數(shù)智化生態(tài),提升決策質(zhì)量和效率,助力快遞物流行業(yè)的高效運(yùn)營。他們自研的生態(tài)體系解決了數(shù)智化轉(zhuǎn)型的挑戰(zhàn),以科技驅(qū)動業(yè)務(wù)發(fā)展,賦能行業(yè)變革。

作者:機(jī)器學(xué)習(xí) 姜東曉

感謝林嘉華,孫海林,劉玉龍,李梓維,李彥池,夏伯承,孫興,肖思遠(yuǎn),蔣捷,邢而上,彭派等同學(xué)對文章內(nèi)容的貢獻(xiàn)。

01序言

人類對世界的理解是主觀而感性的,我們很自然地用習(xí)慣的思維方式去與這個(gè)真實(shí)的世界發(fā)生著關(guān)聯(lián)。然而,在企業(yè)生產(chǎn)經(jīng)營活動中,這種主觀性就不那么受歡迎了,可能會導(dǎo)致復(fù)雜商業(yè)環(huán)境中的決策偏差。于是,一種科學(xué)的、數(shù)理的、客觀的技術(shù)工具—算法模型就應(yīng)運(yùn)而生。我們使用它來發(fā)掘和提煉隱藏在事物表象下的真實(shí)規(guī)律,以求將隱性知識轉(zhuǎn)化為理性智慧,去提升復(fù)雜環(huán)境下的各類決策質(zhì)量,輔助決策者打開 “善弈者謀勢” 的全局視野。

這里的決策一詞,大家可以理解成宏觀的概念,它可以指人的規(guī)劃、判斷和決定,也可以指信息系統(tǒng)內(nèi)的各類功能。讓決策質(zhì)量從 “有限理性” 和 “滿意即可” 過渡到 “極限理性” 和 “最優(yōu)選擇”,便是數(shù)智化的初心 ????。

02正文

但我們在這篇中想說的,并不是數(shù)智化決策的具體案例,而是回顧 2 年多來云路科技成功構(gòu)建起數(shù)智化生態(tài)的過程,對此做一個(gè)總結(jié)。

很幸運(yùn)的是,我們置身于高速發(fā)展壯大中的快遞物流行業(yè),它擁有著豐富的業(yè)務(wù)數(shù)據(jù)和龐大的場景規(guī)模,這天然地提供了孕育數(shù)智化的土壤。然而,縱觀市場上各行各業(yè)的公司前赴后繼,試圖探索出一條技術(shù)數(shù)智化轉(zhuǎn)型之路,并完成商業(yè)模式的持續(xù)迭代,卻成功者寥寥。那么數(shù)智化雄心與實(shí)際執(zhí)行之間的落差,要如何克服和解決呢?

科技的價(jià)值,在這一過程中得到體現(xiàn)。云路科技?xì)v經(jīng) 2 年半時(shí)間,從無到有,潛心探索并沉淀了圍繞數(shù)智化的 “模型力 + 計(jì)算力 + 產(chǎn)品力” 的完整生態(tài)。該生態(tài)可以想象成一條生產(chǎn)流水線 Pipeline,它讓基于模型的數(shù)智化產(chǎn)品有了設(shè)計(jì)、訓(xùn)練、生產(chǎn)和部署的完整鏈路,并讓每個(gè)環(huán)節(jié)都更加標(biāo)準(zhǔn)、順暢、高效。該生態(tài)的逐步成熟,意味著云路可以更快地將數(shù)智化產(chǎn)品推向市場,讓更多的業(yè)務(wù)功能享受到數(shù)智技術(shù)帶來的好處。

?? 云路算法模型的技術(shù)能力是整個(gè)生態(tài)的底座,當(dāng)它達(dá)到穩(wěn)定進(jìn)入實(shí)際生產(chǎn)環(huán)節(jié)的水平,應(yīng)用層就能不斷開發(fā)出有突破性、有質(zhì)量的應(yīng)用。?? 伴隨著模型應(yīng)用數(shù)量的不斷增加,產(chǎn)品團(tuán)隊(duì)將數(shù)字思維和創(chuàng)新理念融入產(chǎn)品設(shè)計(jì)過程,強(qiáng)調(diào)將行業(yè)洞察和模型能力結(jié)合,從解決業(yè)務(wù)問題的角度孵化出許多合適的項(xiàng)目,這將在快遞業(yè)務(wù)的方方面面(分揀、派送、時(shí)效、客訴、決策)產(chǎn)生巨大的企業(yè)回報(bào)。?? 而能夠支撐起超大規(guī)模的模型產(chǎn)品落地,基礎(chǔ)設(shè)施層的建設(shè)和優(yōu)化從未間斷,云路自建高性能科學(xué)計(jì)算私有云和機(jī)器學(xué)習(xí)平臺,讓模型能以工業(yè)級別的規(guī)模和速度完成產(chǎn)品化。

如果用一架高速飛馳的動車??來比喻,“模型力” 是調(diào)度中樞,“計(jì)算力” 是鐵軌和動力系統(tǒng),“產(chǎn)品力” 將調(diào)度能力和動力源整合并轉(zhuǎn)化為運(yùn)輸價(jià)值,換回經(jīng)濟(jì)收益。

值得自豪的是,“模型力 + 計(jì)算力 + 產(chǎn)品力” 整個(gè)數(shù)智化生態(tài),是云路科技團(tuán)隊(duì)從無到有完全自研、自主摸索和積淀的,所以能做到 100% 掌握、100% 可控、100% 安全。

而擁有數(shù)智生產(chǎn)體系更深一層的意義和價(jià)值,是科技讓業(yè)務(wù)具備了參與行業(yè)數(shù)智化轉(zhuǎn)型的技術(shù)實(shí)力和底氣。先上牌桌,才有發(fā)言權(quán)???♂?。

03實(shí)踐

“模型力 + 計(jì)算力 + 產(chǎn)品力” 這三大能力猶如齒輪,環(huán)環(huán)緊扣,相鼎而立。要想極致優(yōu)化整個(gè)數(shù)智生態(tài)的生產(chǎn)速度和部署速度,既要提高三個(gè)齒輪的各自轉(zhuǎn)速,也要兼顧三者之間的“配合能力”。

我們以一個(gè)用戶地址數(shù)據(jù)的例子,來看云路科技打造數(shù)智化全棧能力(模型力 + 計(jì)算力 + 產(chǎn)品力)的過程。

模型力 : 強(qiáng)調(diào)在 AI 技術(shù)、尤其是算法模型技術(shù)上的長期投入和積累

用戶地址數(shù)據(jù)在快遞物流行業(yè)中扮演著至關(guān)重要的角色。在收寄貨環(huán)節(jié),用戶地址信息被用于將收寄貨人的位置標(biāo)識到收寄責(zé)任網(wǎng)點(diǎn),確保包裹能夠正確分揀和準(zhǔn)時(shí)送達(dá);根據(jù)用戶地址數(shù)據(jù)進(jìn)行配送網(wǎng)絡(luò)的優(yōu)化,根據(jù)地址分布制定最佳路線和派送策略,提高送貨效率和運(yùn)營成本的控制;通過分析基于用戶地址的包裹數(shù)據(jù),物流企業(yè)還可以了解各地區(qū)的市場需求和物流趨勢,以便進(jìn)行精準(zhǔn)的業(yè)務(wù)規(guī)劃和資源配置。

用戶地址數(shù)據(jù)如此重要,需要對它有全方位綜合的解析能力,來支撐上述多種多樣的功能需求。

以國內(nèi)三段碼項(xiàng)目為起點(diǎn),云路就在布局使用 AI 進(jìn)行用戶地址解析的技術(shù),儲備相關(guān)能力。一開始機(jī)器學(xué)習(xí)只研發(fā)了中文地址文本分類這個(gè)單一的模型,支撐國內(nèi)三段碼這一個(gè)應(yīng)用??蛇@段培育摸索期的經(jīng)歷,讓云路意識到了快遞行業(yè)擁有大量與地址相關(guān)的場景,最終都會指向地址文本解析的模型能力,所以就進(jìn)入了模型開發(fā)的加速期。

又經(jīng)過 1 年的技術(shù)研發(fā),目前幾乎所有圍繞地址解析的模型能力,都已被機(jī)器學(xué)習(xí)團(tuán)隊(duì)全面、深刻地掌握,這包括多級文本分類、序列標(biāo)注、實(shí)體識別信息提取、語義糾錯(cuò)、信息補(bǔ)全、知識圖譜構(gòu)建、海外多語種解析等(下圖)。

其中一些模型能力,比如地址信息補(bǔ)全和語義糾錯(cuò),效果上甚至超越了某些第三方地圖廠商的商用 API;

再比如知識圖譜模型,可以理解為一種新型的數(shù)據(jù)存儲方式,基于它可以建立起業(yè)務(wù)上標(biāo)準(zhǔn)五級/六級地址庫,甚至是基于地址庫的信息庫。這會讓未來的快遞信息以一種更加生動、立體、高效的方式關(guān)聯(lián)。比如一條地址,因?yàn)樵谥R圖譜里存儲了它對應(yīng)的轉(zhuǎn)運(yùn)中心、派件網(wǎng)點(diǎn)、派件區(qū)域、派件員、所屬驛站、所屬小區(qū)、地址綁定的用戶,以及這些屬性的畫像信息(比如所屬驛站的類型和日均單量、派件網(wǎng)點(diǎn)的服務(wù)指數(shù)、所屬小區(qū)的畫像標(biāo)簽)等,在搜索時(shí)就可一并帶出,非常具備整合性和前瞻性。

在完成上述算法模型積累的過程中,機(jī)器學(xué)習(xí)團(tuán)隊(duì)的技術(shù)視野越來越開闊,所涉獵的領(lǐng)域也自然地向全棧擴(kuò)展。從算法模型層出發(fā),我們的能力向上游延展到數(shù)據(jù)資源層和能力基座層,向下游延伸到應(yīng)用服務(wù)層和解決方案層,一步步填補(bǔ)了算法技術(shù)架構(gòu)的空白。

以地址解析為例(下圖),完整的算法架構(gòu)包括數(shù)據(jù)資源層、能力基座層、模型任務(wù)層、應(yīng)用服務(wù)層和解決方案層共 5 層。

首先,在數(shù)據(jù)資源層,機(jī)器學(xué)習(xí)和大數(shù)據(jù)合作,打通底層業(yè)務(wù)數(shù)據(jù),構(gòu)建雙層數(shù)據(jù)資源庫。連通來自一線的數(shù)據(jù)(包括 JMS 行政區(qū)劃、網(wǎng)點(diǎn)地址庫、派件網(wǎng)點(diǎn)采集、外部地理信息等),再進(jìn)行質(zhì)量評估和過濾,生成模型可以理解并用來訓(xùn)練的細(xì)顆粒度標(biāo)準(zhǔn)地址庫和地理經(jīng)緯度庫。機(jī)器學(xué)習(xí)團(tuán)隊(duì)的算法后臺 工程師經(jīng)過對比,篩選了 Airflow 工作流平臺體系來完成海量數(shù)據(jù)高效流轉(zhuǎn)的定時(shí)任務(wù)。在這些定時(shí)任務(wù)中,基于底層 Spark 特性和 Hive 同步 ClickHouse 的特有需求,后臺工程師實(shí)踐了分布式、高性能、易擴(kuò)展、用于海量數(shù)據(jù)離線&實(shí)時(shí)同步的 WaterDrop 插件和 SeaTunnel 數(shù)據(jù)集成平臺,生產(chǎn)上啟用了WaterDrop和Seatunnel之后,Airflow工作流每天可以穩(wěn)定高效地同步各類模型訓(xùn)練的數(shù)據(jù)接近數(shù)十億,大大簡化了分布式數(shù)據(jù)流轉(zhuǎn)和處理的難度。

其次,在數(shù)據(jù)資源層和算法模型層之間,機(jī)器學(xué)習(xí)算法工程師補(bǔ)全一個(gè)預(yù)訓(xùn)練模型層,把專業(yè)領(lǐng)域的垂 類知識(比如空間關(guān)系、地理經(jīng)緯度、地址文本向量表征等)重新讓通用預(yù)訓(xùn)練模型學(xué)習(xí)、理解,引導(dǎo)百科全書般的通用預(yù)訓(xùn)練模型在具體領(lǐng)域(比如快遞地址知識)更加精通和專業(yè),提升基礎(chǔ)能力基座,這樣基于預(yù)訓(xùn)練的多個(gè)算法模型,有可能獲得更好的學(xué)習(xí)能力。

接下來,在基礎(chǔ)能力層之上是算法模型層,在前面已提及的多個(gè)模型(多級文本分類、實(shí)體識別、語義糾錯(cuò)、信息補(bǔ)全、知識圖譜構(gòu)建、海外多語種解析等)屬于這部分內(nèi)容。

然后,在算法模型層之上是應(yīng)用服務(wù)層,它完成的是將模型能力部署在推理服務(wù)器上,以接口形式在生產(chǎn)環(huán)境提供 MaaS(Model as a service 模型/知識即服務(wù))服務(wù),這層也是工程能力非常集中和顯著的模塊。機(jī)器學(xué)習(xí)后臺工程師考慮到地址解析服務(wù)的高性能要求,選擇采用 NVIDIA 的 TensorRT 對深度學(xué)習(xí)模型進(jìn)行推理加速,并利用 NVIDIA Triton Inference Server在A30 GPU 上進(jìn)行在線部署,在提升性能體驗(yàn)的同時(shí),大幅降低了推理成本。TensorRT 是專門針對深度學(xué)習(xí)模型實(shí)現(xiàn)高性能推理的框架,在地址解析項(xiàng)目里,機(jī)器學(xué)習(xí)主要使用了 TensorRT 中的 1)層與張量融合來優(yōu)化 GPU 顯存和帶寬的使用;和 2)動態(tài)批處理減少實(shí)時(shí)請求的顯存占用,提高張量重復(fù)利用內(nèi)存的能力。此外,機(jī)器學(xué)習(xí)使用 Triton 的方式是將模型推理和其他業(yè)務(wù)隔離,模型統(tǒng)一部署在 triton server,其他業(yè)務(wù)基于 http 協(xié)議通過Triton Client 來進(jìn)行模型推理的請求。

除了模型推理模塊的性能,調(diào)用 Triton Client 的接口也是全鏈路性能不可忽視的一環(huán)。機(jī)器學(xué)習(xí)通過響應(yīng)式編程完成接口應(yīng)用開發(fā),實(shí)現(xiàn)了更高的性能和降低的 Pods 資源消耗。響應(yīng)式編程的異步處理和事件驅(qū)動機(jī)制有效地提高了應(yīng)用的響應(yīng)速度和吞吐量,減少了延遲和卡頓現(xiàn)象。這使得應(yīng)用能夠更好地處 理突發(fā)請求,提供更流暢的用戶體驗(yàn)。同時(shí),響應(yīng)式編程的優(yōu)化和代碼簡化也降低了應(yīng)用的資源消耗,包括 CPU、內(nèi)存等方面。不僅能夠降低云資源的成本,還能夠提高應(yīng)用的擴(kuò)展性和可伸縮性,更好地適應(yīng)高負(fù)載和峰值訪問情況。

經(jīng)過上述一系列性能優(yōu)化措施,業(yè)務(wù)峰值請求地址解析的均值從 120 毫秒降低到 20 毫秒,提升了 6 倍,得到了顯著改善。

另外,在保障應(yīng)用服務(wù)層的高可用方面,機(jī)器學(xué)習(xí)設(shè)計(jì)了模型和 Elasticsearch 雙鏈路模式,并對 Elasticsearch 輔助地址解析的準(zhǔn)確率和性能進(jìn)行了優(yōu)化。具體來說,我們使用了 1)基于空間和時(shí)間的路由提高了檢索效率:使用基于空間和時(shí)間的路由可以顯著提高 Elasticsearch 的檢索效率。這種路由策略基于數(shù)據(jù)的地理位置和時(shí)間信息,將搜索請求路由到最有可能包含所需數(shù)據(jù)的分片上。通過合理規(guī)劃和分布數(shù)據(jù),可以最大程度地減少網(wǎng)絡(luò)開銷和分片的數(shù)量,提高整體的檢索性能。2)使用自定義分詞器過濾無效信息提高地址信息熵:為了提高地址信息的熵(entropy)和準(zhǔn)確性,可以使用自定義分詞器來過濾掉無效的信息。在地址信息中,可能存在一些常見詞匯、停用詞或噪聲數(shù)據(jù),這些信息對于搜索和分析來說并不具有實(shí)質(zhì)性的作用。通過使用自定義分詞器,可以根據(jù)特定的需求和語言規(guī)則,過濾掉這些無效信息,提高地址信息的質(zhì)量和準(zhǔn)確性。3)使用基于 POI(Point of Interest)的自定義詞庫提高分詞準(zhǔn)確性:為了提高分詞的準(zhǔn)確性,可以利用基于 POI 的自定義詞庫。POI 是指具有特定地理位置的興趣點(diǎn),例如商店、餐館、景點(diǎn)等。通過構(gòu)建一個(gè)自定義的詞庫,包含各種常見的 POI 名稱和相關(guān)詞匯,可以在分詞過程中更好地識別和理解這些特定的地理位置信息,尤其在與地理位置相關(guān)的搜索和分析場景中更加有效。目前 Elasticsearch 輔助鏈路的準(zhǔn)確率與性能和模型主鏈路不相上下,可以在關(guān)鍵時(shí)刻快速分流模型壓力。

最后,在算法架構(gòu)的頂端是涉及產(chǎn)品功能的解決方案層,這部分也是 “產(chǎn)品力” 的核心,將模型技術(shù)用于實(shí)際問題解決,才最終轉(zhuǎn)化為企業(yè)價(jià)值,下一章節(jié)會著重介紹。

機(jī)器學(xué)習(xí)團(tuán)隊(duì)將數(shù)據(jù)資源層、能力基座層、算法能力層和應(yīng)用服務(wù)層這 4 層整合為一個(gè)綜合的地址文本解析中臺,以MaaS(Model as a service 模型/知識即服務(wù))的方式,向公司內(nèi)部所有需要該能力的產(chǎn)品和業(yè)務(wù)團(tuán)隊(duì)賦能,涵蓋了業(yè)務(wù)上幾乎所有與地址相關(guān)的功能應(yīng)用。 并且,該中臺的完整性和成熟度很高,已具備了向公司外、行業(yè)里進(jìn)行商業(yè)輸出的能力。

在一步步搭建該中臺的過程中,云路也收獲了 12 項(xiàng)發(fā)明專利授權(quán),打下了堅(jiān)實(shí)的技術(shù)護(hù)城河。

產(chǎn)品力 : 專注于打磨和提升將技術(shù)轉(zhuǎn)化為企業(yè)回報(bào)的能力

科技團(tuán)隊(duì)利用自身優(yōu)勢,將數(shù)字思維和創(chuàng)新理念融入產(chǎn)品設(shè)計(jì)和開發(fā)過程,強(qiáng)調(diào)將行業(yè)洞察和模型能力結(jié)合,從解決業(yè)務(wù)問題的角度思考、孵化出許多合適的項(xiàng)目,這也是科技呈現(xiàn)價(jià)值的關(guān)鍵一環(huán)。

還是以機(jī)器學(xué)習(xí)的地址解析中臺為例:如下圖所示,2021 年 7 月 12 號,產(chǎn)品團(tuán)隊(duì)將1)國內(nèi)三段碼上線,成為了地址中臺的首個(gè)應(yīng)用。后又陸續(xù)在地址中臺里增加了 2)基于 ES 的標(biāo)準(zhǔn)地址庫、3)國內(nèi)四段碼、4)地址業(yè)務(wù)上圖、5)泰國三段碼、6)國內(nèi)驛站碼、7)國內(nèi)鄉(xiāng)鎮(zhèn)識別、8)印尼三段碼、9)菲律賓三段碼、10)越南三段碼、11)馬來三段碼、12)基于知識圖譜的標(biāo)準(zhǔn)地址庫、13)商用地址結(jié)構(gòu)化數(shù)據(jù)獲取、14)商用地址經(jīng)緯度信息獲取等。這些應(yīng)用目前已服務(wù)于訂單業(yè)務(wù)、運(yùn)單業(yè)務(wù)、網(wǎng)點(diǎn)業(yè)務(wù)、操作業(yè)務(wù)、服務(wù)質(zhì)量等20+個(gè)對外接口,比如拼多多、抖音、快手、京東等大型電商平臺的訂單三段碼請求、或者是回退件地址解析、寄件用戶地址解析、轉(zhuǎn)運(yùn)中心二次解析、客訴工單地址解析等,全部調(diào)用該地址中臺。地址解析中臺的模型日均總調(diào)用量達(dá)到 1 億次以上,是云路科技內(nèi)部又一個(gè)成熟、穩(wěn)定的億級系統(tǒng)。它就如一個(gè)金字塔的底端,支撐起業(yè)務(wù)上層應(yīng)用的方方面面。

比如鄉(xiāng)鎮(zhèn)件加時(shí),是對地址里四級行政區(qū)劃即鄉(xiāng)鎮(zhèn)進(jìn)行識別的功能。地址解析中臺提供了信息補(bǔ)全模型/語義糾錯(cuò)模型 + 序列標(biāo)注模型 + 信息提取模型的組合,對缺失的、錯(cuò)誤的地址可以還原并識別正確的鄉(xiāng)鎮(zhèn)。當(dāng)然,不僅僅是鄉(xiāng)鎮(zhèn)件加時(shí),所有基于地址的功能,都可以從三級區(qū)細(xì)化到四級鄉(xiāng)鎮(zhèn)了,整體提升了業(yè)務(wù)運(yùn)營和管理的精細(xì)化水平。

比如驛站碼,是將收件地址直接與快遞末端驛站關(guān)聯(lián),并和一二三段碼一起打印在電子面單上。地址解析中臺提供了多級地址分類模型來實(shí)現(xiàn)。上線后,驛站碼的準(zhǔn)確率比第三段碼還高 3%,達(dá)到了 96%~97%,這讓第三段碼不穩(wěn)定的網(wǎng)點(diǎn)可以通過驛站碼進(jìn)一步提升分揀效率,也可以將大型驛站的包裹提前在轉(zhuǎn)運(yùn)中心就利用數(shù)智設(shè)備進(jìn)行分揀集包,減少操作環(huán)節(jié),提升整體派件時(shí)效。

“一帶一路” 是中國提出的重大戰(zhàn)略,旨在加強(qiáng)與沿線國家的經(jīng)濟(jì)合作,促進(jìn)區(qū)域互通互聯(lián)。除中國外,業(yè)務(wù)覆蓋的其他 12 個(gè)國家大部分是一帶一路輻射范圍內(nèi)的伙伴國。所以地址解析中臺自研多語言地址分類模型,積極向 J&T 海外各國輸出。目前 J&T 泰國、J&T 印尼和 J&T 菲律賓已經(jīng)上線,三個(gè)國家的二段碼準(zhǔn)確率較之前提升了 8% ~ 13%,達(dá)到了 98% 以上。而且三段碼上線后,不再需要實(shí)時(shí)調(diào)用谷歌地圖,也不再需要高昂的人工維護(hù)地址庫成本,在成本、性能、準(zhǔn)確率和安全性方面均實(shí)現(xiàn)了優(yōu)化提升。接下來,科技還會與 J&T 越南、J&T 馬來合作落地,用數(shù)智化力量為全球業(yè)務(wù)提速。

計(jì)算力 : 數(shù)智化生態(tài)的動力源,科技持續(xù)投入算力互聯(lián)、計(jì)算加速和功耗優(yōu)化

數(shù)智化是需要使用大算力、大模型、大數(shù)據(jù)來 “大力出奇跡” 的過程,所以基礎(chǔ)設(shè)施能力必須跟上。而基于 CPU 芯片的服務(wù)器不像專門的 GPU 服務(wù)器那樣在浮點(diǎn)運(yùn)算性能方面進(jìn)行過優(yōu)化。一般 CPU 處理器的浮點(diǎn)運(yùn)算性能通常以 MFLOPS(每秒百萬次浮點(diǎn)運(yùn)算次數(shù) 10^6)或 GFLOPS(每秒十億次浮點(diǎn)運(yùn)算次數(shù) 10^9)為單位衡量,這無法撬動模型訓(xùn)練和推理。GPU 服務(wù)器專注于并行計(jì)算和矩陣/張量處理任務(wù),算力可達(dá) TFLOPS,即每秒一萬億 =10^12 次的浮點(diǎn)運(yùn)算。而像國家超算中心的天河一號、二號和神威太湖之光這類服務(wù)器的浮點(diǎn)運(yùn)算性能可以達(dá)到 PFLOPS(每秒一千萬億次浮點(diǎn)運(yùn)算次數(shù) 10^15)。

云路于 3 年前開始投入,硬件集群上歷經(jīng)三期建設(shè):第一期僅 2 臺高性能計(jì)算服務(wù)器用于機(jī)器學(xué)習(xí)團(tuán)隊(duì)研發(fā);第二期 10 多臺服務(wù)器開始有了功能服務(wù)級別的算力集群雛形,做到了研發(fā)、測試和生產(chǎn)集群的區(qū)分隔離;到第三期 40~50 臺高性能計(jì)算服務(wù)器、PB 級存儲設(shè)備以及高帶寬、高傳輸速率網(wǎng)的齊全,讓大規(guī)模分布式計(jì)算集群最終落成。

這讓云路有能力訓(xùn)練億級參數(shù)的大模型(注:ChatGPT 是千億級規(guī)模的超大模型)。而億級參數(shù)規(guī)模,是一個(gè)什么概念呢,把全中國所有的大學(xué)、科研機(jī)構(gòu)和企業(yè)中的模型都加起來,也只有兩位數(shù)的億級參數(shù)模型發(fā)布??梢娫坡窞榱藬?shù)智化所持續(xù)投入的基礎(chǔ)設(shè)施,在全國都是領(lǐng)先的。

這么一個(gè)算力的龐然大物要轉(zhuǎn)動它、用好它,平臺運(yùn)維團(tuán)隊(duì)基于 Kubernetes 的編排和調(diào)度能力,將集群打造成一個(gè)工業(yè)級別的 GPU 高性能算力私有云。私有云的概念是機(jī)器設(shè)備間弱化了硬件的邊界,機(jī)器擁有的算力資源虛擬化到一個(gè)資源池中,讓算力成為一種公共資源,哪里需要調(diào)去哪里。這樣極大提升了機(jī)器學(xué)習(xí)團(tuán)隊(duì)進(jìn)行模型訓(xùn)練的效率。在搭建私有云之前,用一臺機(jī)器需要訓(xùn)練 3 天的模型,現(xiàn)在用私有云的算力訓(xùn)練不到 1 天就可以完成。

在這套高性能算力私有云之上,機(jī)器學(xué)習(xí)團(tuán)隊(duì)繼續(xù)自研了機(jī)器學(xué)習(xí)平臺(上圖),包括模型訓(xùn)練平臺,容器云平臺和 AI 服務(wù)接口。通過多種措施,期待以高性價(jià)比的訓(xùn)練方式進(jìn)一步擠壓算力。團(tuán)隊(duì)在模型訓(xùn)練平臺上引入了 5 種訓(xùn)練加速機(jī)制,在訓(xùn)練成本壓縮、訓(xùn)練頻率加快上取得了顯著的效果。首先,我們采用了 FP32+FP16 混合精度計(jì)算加速。傳統(tǒng)深度學(xué)習(xí)模型使用單精度浮點(diǎn)數(shù)(FP32)進(jìn)行計(jì)算,以確保計(jì)算結(jié)果的精度,但這會消耗大量計(jì)算資源,降低訓(xùn)練速度。我們采用混合精度計(jì)算,即在大部分計(jì)算過程中使用較低的精度(FP16),只在關(guān)鍵環(huán)節(jié)(如權(quán)重更新)使用 FP32,實(shí)驗(yàn)證明與更消耗資源的單精度方案相比,混合精度方案既保證了訓(xùn)練的穩(wěn)定性和準(zhǔn)確性,又顯著提高了訓(xùn)練速度。其次,我們引入了XLA模型圖優(yōu)化加速。XLA 是谷歌開發(fā)的專門針對機(jī)器學(xué)習(xí)的編譯器技術(shù),通過優(yōu)化模型的計(jì)算圖,將其轉(zhuǎn)化為更高效的代碼,實(shí)現(xiàn)加速。XLA 在編譯時(shí)靜態(tài)地分析模型的計(jì)算圖,找出可并行或合并的操作,并將復(fù)雜的計(jì)算圖轉(zhuǎn)化為優(yōu)化后的高效代碼。這使得模型的訓(xùn)練和執(zhí)行速度大大提升,繼續(xù)提速到原有的 60% 。第三,我們參考了相關(guān)論文對模型的優(yōu)化器進(jìn)行了修改。相比于原版 Adam Optimizer,我們的修改在模型收斂效果上沒有差異,但收斂速度提升了30% 以上,這樣的優(yōu)化可以在保證模型收斂性的同時(shí)提高訓(xùn)練速度。第四,我們采用了 Horovod 單機(jī)多卡數(shù)據(jù)并行加速。Horovod 是一種開源的分布式深度學(xué)習(xí)訓(xùn)練框架,能夠在多個(gè) GPU 或服務(wù)器之間并行訓(xùn)練模型,大大提高了訓(xùn)練速度。Horovod 利用 Ring-Allreduce 算法有效減少了網(wǎng)絡(luò)通信開銷,使得即使在大規(guī)模并行訓(xùn)練中也能保持高效性能。最后,我們采用了梯度累積更新加速。在標(biāo)準(zhǔn)的梯度下降訓(xùn)練過程中,每個(gè)批次的數(shù)據(jù)都會進(jìn)行一次參數(shù)更新,但頻繁的更新操作會消耗大量計(jì)算資源。因此,我們選擇將若干批次的梯度累積起來,一次性進(jìn)行參數(shù)更新。這種方法既保證了模型的收斂性,又顯著提高了訓(xùn)練速度,節(jié)省了計(jì)算資源。

通過三期硬件、私有云中心、機(jī)器學(xué)習(xí)平臺三方面的建設(shè),在線下訓(xùn)練模塊,我們成功將同樣一個(gè)模型的訓(xùn)練時(shí)間從 24 小時(shí)縮短到 8 小時(shí),提升了訓(xùn)練速度超過 3 倍;在線上推理模塊,同樣算力條件和性能要求下,優(yōu)化前只能支撐 4000~5000 萬次/每日的模型調(diào)用,而優(yōu)化后可達(dá)到 1.2 億次/每日的模型調(diào)用,也是接近 3 倍的性能提升。 這不僅提高了模型的訓(xùn)練效率,加快了生產(chǎn)上地址解析服務(wù)的迭代,滿足了業(yè)務(wù)的高速迭代需求,同時(shí)也為公司節(jié)省了大量的算力資源成本。

這些關(guān)乎算力效能的優(yōu)化,在模型產(chǎn)品的落地成本上有直觀的體現(xiàn):在推進(jìn)數(shù)智化的過程中,我們深深感受到降低 AI 服務(wù)成本的重要性,只有把成本降低到企業(yè)可負(fù)擔(dān),經(jīng)濟(jì)收益顯著大于資源投入,市場才會愿意更多去了解和使用 AI 數(shù)智化技術(shù),所以算力互聯(lián)、訓(xùn)練加速和功耗優(yōu)化會繼續(xù)是我們思考和投入精力的方向。

04后記

數(shù)智化的工作,理性卻不冰冷,前沿但仍接地氣。在 2 年半的時(shí)間里,云路科技從無到有,一步步扎扎實(shí)實(shí)地摸索、嘗試、沉淀了模型力 + 計(jì)算力 + 產(chǎn)品力全套技術(shù)體系,在這個(gè)天然具備海量數(shù)據(jù)優(yōu)勢和大規(guī)模降本增效場景的行業(yè)里,它成為數(shù)字化智能化生根、發(fā)芽、開花的一片沃土。在物流行業(yè)激烈的市場競爭中,云路科技已穩(wěn)穩(wěn)占據(jù)了智能化的一席之地,幫助業(yè)務(wù)縮小了與行業(yè)頭部在數(shù)智化上的距離。而且,也在支持業(yè)務(wù)出海的過程里,積極參與到中國“一帶一路”經(jīng)濟(jì)建設(shè)的宏偉浪潮中來。接下來,AI 數(shù)智化會更多參與公司業(yè)務(wù),探索在時(shí)效、服務(wù)、畫像、決策等方向的落地場景,用科技為業(yè)務(wù)賦能,共創(chuàng)美好未來。

免責(zé)聲明:羅戈網(wǎng)對轉(zhuǎn)載、分享、陳述、觀點(diǎn)、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權(quán)歸原作者。如無意中侵犯了您的版權(quán),請第一時(shí)間聯(lián)系,核實(shí)后,我們將立即更正或刪除有關(guān)內(nèi)容,謝謝!
上一篇:“超級探訪”之走進(jìn)貓人集團(tuán):探秘百億科技內(nèi)衣品牌背后的數(shù)智供應(yīng)鏈
下一篇:供應(yīng)鏈數(shù)字化再提速!菜鳥自研一物一碼平臺正式亮相
羅戈訂閱
周報(bào)
1元 2元 5元 10元

感謝您的打賞

登錄后才能發(fā)表評論

登錄

相關(guān)文章

2025-04-01
2025-03-31
2025-03-26
2025-03-26
2025-03-24
2025-03-24
活動/直播 更多

倉儲管理之全局視角:從入門到精通

  • 時(shí)間:2025-04-24 ~ 2025-05-16
  • 主辦方:馮銀川
  • 協(xié)辦方:羅戈網(wǎng)

¥:2080.0元起

報(bào)告 更多

2025年3月物流行業(yè)月報(bào)-個(gè)人版

  • 作者:羅戈研究

¥:9.9元