如果你正在考慮一個機器學(xué)習(xí)工程師的職業(yè)生涯,那么你應(yīng)該明白兩件非常重要的事情。
首先,這不是一個“純粹的”學(xué)術(shù)角色。你不一定要有研究或?qū)W術(shù)背景。
其次,只有軟件工程或數(shù)據(jù)科學(xué)的經(jīng)驗還不夠。理想的情況下,你需要同時擁有這兩種技能。
了解數(shù)據(jù)分析師和機器學(xué)習(xí)工程師之間的差異也至關(guān)重要。簡單來說,他們關(guān)鍵的區(qū)別與最終目標(biāo)有關(guān)。作為數(shù)據(jù)分析師,您需要分析數(shù)據(jù),以便講述故事,并產(chǎn)生可操作的見解。重點是傳播圖表,模型,可視化。分析由人類執(zhí)行并呈現(xiàn)給其他人,然后他們可以根據(jù)所呈現(xiàn)的內(nèi)容進行業(yè)務(wù)決策。這一點尤為重要 - 您的輸出的“觀眾”是人。
另一方面,作為機器學(xué)習(xí)工程師,您的最終“輸出”是工作軟件,您的“受眾”對于此輸出通常由其他軟件組件以最少的人力監(jiān)督自主運行。產(chǎn)生出的智能仍然是可操作的,但在機器學(xué)習(xí)模型中,機器正在做出決策,影響產(chǎn)品或服務(wù)的行為。這就是為什么軟件工程技能對于機器學(xué)習(xí)的事業(yè)來說非常重要。
在進入具體的技能之前,還有一個要解決的概念。作為機器學(xué)習(xí)工程師需要了解您正在設(shè)計的整個生態(tài)系統(tǒng)。假設(shè)您正在為一家雜貨連鎖店工作,該公司希望根據(jù)以往購買客戶的歷史記錄開始發(fā)行目標(biāo)優(yōu)惠券,目的是產(chǎn)生購物者實際使用的優(yōu)惠券。在數(shù)據(jù)分析模型中,您可以收集采購數(shù)據(jù),進行分析以確定趨勢,然后提出策略。機器學(xué)習(xí)方法將是編寫自動優(yōu)惠券生成系統(tǒng)。但是寫這個系統(tǒng)需要什么,并且有效嗎?您必須了解整個生態(tài)系統(tǒng)的庫存,目錄,定價,采購訂單,單據(jù)生成,銷售點軟件,CRM軟件等。
現(xiàn)在,我們來了解一下機器學(xué)習(xí)工程師所需要的真實細(xì)節(jié)。分為三個主要部分:技能摘要,語言和庫,工程實現(xiàn)。
計算機基礎(chǔ)和編程。計算機科學(xué)基礎(chǔ)對于機器學(xué)習(xí)工程師來說重要,包括數(shù)據(jù)結(jié)構(gòu)(堆棧,隊列,多維數(shù)組,樹,圖等),算法(搜索,排序,優(yōu)化,動態(tài)規(guī)劃等),可計算性和復(fù)雜性(P vs NP,NP完整問題,大O符號,近似算法等)和計算機體系結(jié)構(gòu)(內(nèi)存,緩存,帶寬,死鎖,分布式處理等)。
編程時,您必須能夠應(yīng)用,實施,調(diào)整或解決它們(如適用)。練習(xí)問題和編碼比賽是磨練你的技能的好方法。
概率統(tǒng)計。概率(條件概率,貝葉斯規(guī)則,似然性,獨立性等)和從其衍生的技術(shù)(貝葉斯網(wǎng)絡(luò),馬爾可夫決定過程,隱馬爾可夫模型等)的形式表征是許多機器學(xué)習(xí)算法的核心; 這些是處理現(xiàn)實世界不確定性的手段。
統(tǒng)計學(xué)領(lǐng)域提供各種措施(平均值,中位數(shù),方差等),分布(統(tǒng)一,正態(tài),二項式,泊松等)和分析方法(方差分析,假設(shè)檢驗等) 這是從觀測數(shù)據(jù)建立和驗證模型所必需的。許多機器學(xué)習(xí)算法本質(zhì)上是統(tǒng)計建模過程的擴展。
數(shù)據(jù)建模和評估。數(shù)據(jù)建模是估計給定數(shù)據(jù)集的基礎(chǔ)結(jié)構(gòu)的過程,其目的是找到有用的模式(相關(guān)性,聚類,特征向量等)和/或預(yù)測以前看不見的實例(分類,回歸,異常檢測等)的屬性。這個估計過程的關(guān)鍵部分是不斷評估給定模型的好壞。
根據(jù)手頭的任務(wù),您將需要選擇適當(dāng)?shù)臏?zhǔn)確度/誤差測量(例如分類的對數(shù)損失,回歸的平方誤差等)和評估策略(訓(xùn)練分析,順序 vs.隨機交叉驗證等)。
迭代學(xué)習(xí)算法通常直接利用產(chǎn)生的錯誤來調(diào)整模型(例如神經(jīng)網(wǎng)絡(luò)的反向傳播),所以理解這些措施相比于僅僅應(yīng)用標(biāo)準(zhǔn)算法是非常重要的。
機器學(xué)習(xí)算法的標(biāo)準(zhǔn)實現(xiàn)通過庫/包/ API廣泛提供(例如,scikit-learn,Theano,Spark MLlib,H2O,TensorFlow等),但是有效地應(yīng)用它們涉及選擇合適的模型(決策樹,最近鄰,神經(jīng)網(wǎng)絡(luò),支持向量機,混合模型等),擬合數(shù)據(jù)的學(xué)習(xí)過程(線性回歸,梯度下降,遺傳算法,bagging,boosting和其他模型特定方法),以及了解超參數(shù)如何影響學(xué)習(xí)。
還需要了解不同方法的相對優(yōu)點和缺點,以及一些其他的概念(偏差和方差,過擬合和欠擬合,缺失數(shù)據(jù),數(shù)據(jù)泄漏等)。數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的挑戰(zhàn),如Kaggle的挑戰(zhàn),是一個接觸不同種類的問題及其細(xì)微差別的很好的方式。
在任務(wù)結(jié)束時,機器學(xué)習(xí)工程師的典型輸出或可交付成果是軟件。通常它是一個適合更大的產(chǎn)品和服務(wù)生態(tài)系統(tǒng)的小部件。當(dāng)然,大的公司,這部分可能交付給軟件研發(fā)工程師來做。
您需要了解這些不同的部分如何協(xié)同工作,與他們進行溝通(使用庫調(diào)用,REST API,數(shù)據(jù)庫查詢等),并為您的組件構(gòu)建適合的接口以供其他人依賴。這可能需要謹(jǐn)慎的系統(tǒng)設(shè)計以避免瓶頸,并且隨著數(shù)據(jù)量的增加,您的算法可以很好地擴展。軟件工程最佳實踐(包括需求分析,系統(tǒng)設(shè)計,模塊化,版本控制,測試,文檔等)對于生產(chǎn)力,協(xié)作,質(zhì)量和可維護性是無價的。
瑪氏中國|2025年度瑪氏箭牌北京區(qū)域包材及原材料倉儲(VMI)項目
2236 閱讀華為的物流“布局”,為何備受關(guān)注?
1495 閱讀北美倉配一體機會和風(fēng)險
1299 閱讀?年營收15億的跨境物流企業(yè)要上市
1189 閱讀解秘粵港澳大灣區(qū)規(guī)模最大的生產(chǎn)服務(wù)型國家物流樞紐——廣州東部公鐵聯(lián)運樞紐
1106 閱讀縱騰集團借殼上市,6.4億收購A股上市公司綠康生化
1008 閱讀TEMU美區(qū)半托管即將開放國內(nèi)發(fā)貨模式
890 閱讀京東物流一線員工日10周年:為5年、10年老員工授勛,為15000名標(biāo)桿頒獎
829 閱讀15倍爆發(fā)式增長,網(wǎng)絡(luò)貨運行業(yè)跑出了一匹黑馬
839 閱讀2024年快遞滿意度出爐:順豐、京東快遞排名最高
795 閱讀