積分
我們經(jīng)常會(huì)聽(tīng)到“建?!边@個(gè)詞,供應(yīng)鏈中會(huì)涉及到許多的模型應(yīng)用,比如預(yù)測(cè),庫(kù)存之類(lèi),這些都可以通過(guò)建立數(shù)學(xué)模型,經(jīng)過(guò)分析后告訴我們:
發(fā)生了什么?(庫(kù)存為什么這么多?)
將來(lái)會(huì)怎么樣?(庫(kù)存什么時(shí)候會(huì)降下去?)
我們?cè)撛趺崔k?(以后該如何合理下訂單?)
這些都是基本的供應(yīng)鏈模型。今天我來(lái)介紹線性回歸模型,它可以用來(lái)預(yù)測(cè)未來(lái),是預(yù)測(cè)性模型。我會(huì)用預(yù)測(cè)運(yùn)輸費(fèi)用的場(chǎng)景,為大家介紹這個(gè)模型。
線性回歸是高中時(shí)候?qū)W的,知識(shí)早就還給老師了,好在原理并不復(fù)雜。我能整明白,相信大家也可以,所以請(qǐng)堅(jiān)持看完本文。
線性回歸在供應(yīng)鏈中有許多的應(yīng)用場(chǎng)景,比如說(shuō)是預(yù)測(cè)運(yùn)輸費(fèi)用。假設(shè)一家跨境電商K公司打算開(kāi)拓一個(gè)新的海外市場(chǎng),把貨物從中國(guó)運(yùn)到法國(guó)銷(xiāo)售,每次都是用拼柜LCL出口,想要了解海運(yùn)成本大概是多少。
由于是新的市場(chǎng),K公司沒(méi)有運(yùn)費(fèi)的歷史數(shù)據(jù)供參考,好在K公司已在德國(guó)設(shè)立倉(cāng)庫(kù)運(yùn)營(yíng)了,所以有一些運(yùn)費(fèi)的數(shù)據(jù)。由于K公司的貨物都是體積大但是重量輕的貨物,需要根據(jù)貨物立方數(shù)算運(yùn)費(fèi)。
運(yùn)費(fèi)是從中國(guó)工廠提貨,到送至海外倉(cāng)庫(kù)的全部費(fèi)用,其中包括了內(nèi)陸卡車(chē)、海上集裝箱運(yùn)輸、碼頭操作和進(jìn)出口手續(xù)費(fèi)等。
法國(guó)距離德國(guó)很近,因此K公司可以使用現(xiàn)有的數(shù)據(jù)來(lái)預(yù)測(cè)新市場(chǎng)的運(yùn)輸成本。此時(shí),我們就可以使用線性回歸模型來(lái)預(yù)測(cè)運(yùn)費(fèi)了。
先來(lái)講講什么是回歸,它的全名是Regression towards the mean,也就是向平均數(shù)回歸。
這又是什么概念呢?如果我們把K公司現(xiàn)有的出口德國(guó)的50條海運(yùn)數(shù)據(jù)拿出來(lái),橫軸是貨物的立方數(shù),縱軸是對(duì)應(yīng)的運(yùn)輸費(fèi)用,用散點(diǎn)圖來(lái)表示出來(lái),看到的就是下圖的效果。
看著這張圖,直覺(jué)告訴我們,似乎有一條直線,可以穿過(guò)所有的點(diǎn)?;貧w就是通過(guò)這堆點(diǎn),來(lái)找一條盡可能地在所有點(diǎn)中間的線的過(guò)程。
這條紅色的直線就是我們要尋找的目標(biāo),然后根據(jù)它來(lái)預(yù)測(cè)未來(lái)運(yùn)輸?shù)椒▏?guó)的運(yùn)費(fèi)。線性回歸就是根據(jù)已知,預(yù)測(cè)未知的模型。
我們看到實(shí)際發(fā)生的運(yùn)費(fèi)分布在紅線的上下,造成差異的原因可能是運(yùn)費(fèi)波動(dòng),或是因?yàn)樨浳镙^重,也有其他的可能性,我們不必糾結(jié)細(xì)節(jié),只需要關(guān)注這條紅線的整體趨勢(shì),這樣就能更快捷地預(yù)測(cè)出未來(lái)的運(yùn)費(fèi)情況了。
散亂的點(diǎn)不能體現(xiàn)出趨勢(shì),而回歸的線可以預(yù)測(cè)未來(lái)?;貧w就是通過(guò)一堆看不出具體關(guān)系的點(diǎn),來(lái)找一條盡量出現(xiàn)在所有點(diǎn)中間的線,進(jìn)而讓整體關(guān)系更加清晰可見(jiàn),為我們提供洞察。
解釋過(guò)了回歸,再來(lái)說(shuō)一下線性,這個(gè)概念是初中時(shí)就學(xué)過(guò)的,就更加簡(jiǎn)單了,相信大家應(yīng)該還有印象。
舉個(gè)例子,出租車(chē)計(jì)費(fèi)由兩部分組成,首先是固定的起步價(jià),比如16元,哪怕你打車(chē)只是去前面200米的地方買(mǎi)份早餐,司機(jī)也收你16元,這是最低收費(fèi)Minimum charge。其次是每公里車(chē)費(fèi),比如每公里收費(fèi)2元,距離越遠(yuǎn),收費(fèi)越高。出租車(chē)計(jì)費(fèi)的公式就是:車(chē)費(fèi)=2元×公里數(shù)+16元
這就是一個(gè)經(jīng)典的線性函數(shù)公式:Y=A×X+B
當(dāng)X為零時(shí),Y的值是16,這就是最低收費(fèi)的起步價(jià)16元了?!熬€性”是那條直線,找到那條直線的過(guò)程就是“線性回歸”。
現(xiàn)在我們理解了,所謂線性回歸,就是在一堆散點(diǎn)中找出一條含有趨勢(shì)性的直線,然后根據(jù)這種趨勢(shì)預(yù)測(cè)未來(lái)情況。
1.統(tǒng)計(jì)分析
搞清楚概念后,我們就要開(kāi)始找出運(yùn)輸費(fèi)用中的這條直線了。在K公司的案例中,現(xiàn)有的數(shù)據(jù)只有2組,分別是每票海運(yùn)的貨物立方數(shù)和每票貨物的運(yùn)費(fèi),其中包括門(mén)到門(mén)的運(yùn)費(fèi)、港口操作費(fèi)和進(jìn)出口費(fèi)用等。
這兩組數(shù)值就是函數(shù)中的參數(shù),我們要使用它們來(lái)找到直線,求解線性函數(shù)中的A和B的值。
A是一個(gè)系數(shù),在它的影響下,運(yùn)費(fèi)會(huì)隨著貨量增加而上漲,這很容易理解,運(yùn)輸?shù)呢浟吭酱?,收費(fèi)就越高,成正比關(guān)系。
A在線性函數(shù)中的名字是斜率,意思是每增加一個(gè)單位的貨量,會(huì)增加多少的運(yùn)費(fèi)。
B也是一個(gè)系數(shù),就像是前文中的出租車(chē)起步價(jià)一樣,運(yùn)費(fèi)里也有最低收費(fèi),包括了海上和內(nèi)陸運(yùn)輸?shù)钠鸩絻r(jià),另外還有進(jìn)出口和港口操作的固定收費(fèi)。
B在線性函數(shù)中的名字是截距,也就是當(dāng)X為零時(shí)Y的數(shù)值。在現(xiàn)實(shí)情況中,出貨量不可能為零,X一定是大于零的數(shù)。
貨物立方數(shù)叫做自變量,就是X。運(yùn)輸費(fèi)用是隨著貨量而變動(dòng)的,所以叫做因變量,也就是Y。
整個(gè)的公式就等于:海運(yùn)拼箱運(yùn)輸費(fèi)用=A×貨物立方數(shù)+B
只要求出了A和B這兩個(gè)系數(shù)的值,就可以把任何的X值——貨物立方數(shù)代入公式,算出運(yùn)輸費(fèi)用了。
K公司運(yùn)輸?shù)膮R總統(tǒng)計(jì)數(shù)據(jù)如下表。
2.相關(guān)性分析
除了常規(guī)的統(tǒng)計(jì)外,我增加了一項(xiàng),就是最后一行的相關(guān)性Correlation分析。運(yùn)輸費(fèi)用和貨量是兩個(gè)變量,它們之間可能存在著一定的相關(guān)性。
根據(jù)我們的常識(shí),運(yùn)輸?shù)呢浟吭酱?,運(yùn)費(fèi)也就越高,它們之間應(yīng)該是正相關(guān)性,也就是運(yùn)費(fèi)隨著貨量的增加而增加。為了證明這點(diǎn),我們需要使用相關(guān)性分析來(lái)驗(yàn)證一下。
在Excel中,使用公式=CORREL(數(shù)組,數(shù)組)就可以求得解。相關(guān)性的結(jié)果是在-1和+1之間。
當(dāng)相關(guān)性為-1時(shí),數(shù)組之間是負(fù)相關(guān),X的值越高,Y的值越低。比方說(shuō)天氣越熱,羽絨服越是賣(mài)不出去。
當(dāng)相關(guān)性為0時(shí),數(shù)組之間沒(méi)半毛錢(qián)關(guān)系。就像是誰(shuí)是中國(guó)首富和我沒(méi)一丁點(diǎn)兒關(guān)系,因?yàn)槲页刹涣酥袊?guó)首富,你們愛(ài)誰(shuí)誰(shuí)。
當(dāng)相關(guān)性為+1,數(shù)組就是正相關(guān)性,也就是我們運(yùn)費(fèi)案例中的情況了。
CORREL(海運(yùn)拼箱運(yùn)輸費(fèi)用,海運(yùn)拼箱運(yùn)輸費(fèi)用)為1,因?yàn)槭峭粋€(gè)數(shù)組之間分析,結(jié)果自然是1。
CORREL(海運(yùn)拼箱運(yùn)輸費(fèi)用,貨物立方數(shù))是0.81,比較趨向于1了,這個(gè)結(jié)果告訴我們,兩組數(shù)據(jù)之間的相關(guān)性很強(qiáng),值得進(jìn)一步分析,來(lái)計(jì)算出A和B的值。
3.求解過(guò)程
求解過(guò)程略有點(diǎn)復(fù)雜,如果要解釋清楚,估計(jì)還要花上不少篇幅,所以我就先一筆帶過(guò)。強(qiáng)大的Excel可以幫我們很快地計(jì)算出結(jié)果,具體的方法是在“Data—Data analysis”中選擇“Regression”回歸即可。
如果還沒(méi)有安裝Data analysis模塊的朋友,可以在網(wǎng)上搜索一下安裝的方法,在此就不做介紹了。如果無(wú)法安裝,可能是Excel版本的問(wèn)題,需要進(jìn)行升級(jí)。
求解過(guò)程很簡(jiǎn)單,如上圖所示,只需要在“Input Y Range”中,把Y值的數(shù)組,也就是運(yùn)輸費(fèi)用選中,然后在“Input X Range”中,把X值的貨物立方數(shù)選中,點(diǎn)擊“OK”就可以迅速地算出結(jié)果。
4.評(píng)估模型
在Excel的幫助下,我們可以很輕松地獲得模型,但最重要的工作隨之而來(lái),就是要評(píng)估和驗(yàn)證模型。我們想要確保這個(gè)模型是合理的,而且在統(tǒng)計(jì)學(xué)上是有效的。
根據(jù)K公司的50組數(shù)據(jù),可以得出這樣的結(jié)果,里面的信息量較多,由于篇幅有限,本文只解釋其中最重要的幾個(gè)輸出Output。
(1) 模型的擬合程度
首先,我們要評(píng)估模型的擬合程度,它是回歸直線與實(shí)際情況的匹配度,也被稱(chēng)為決定系數(shù)。在輸出結(jié)果中,我們重點(diǎn)要關(guān)注“調(diào)整的R平方(Adjusted R Square)”的值。
R平方可以理解為模型能夠解釋實(shí)際情況的百分比。由于要去除自變量個(gè)數(shù)對(duì)R平方的影響,所以叫做調(diào)整的R平方,這個(gè)數(shù)值在0到1之間,數(shù)值越大,說(shuō)明模型的擬合程度越好,越是能夠說(shuō)明問(wèn)題;如果數(shù)值為零,這個(gè)模型啥也不是。
在上圖中,調(diào)整的R平方是65%,說(shuō)明擬合程度還不錯(cuò),可以解釋65%發(fā)生的情況,值得我們進(jìn)一步分析下去。
(2)A、B系數(shù)
看過(guò)了整體的擬合程度后,我們要看看單個(gè)的系數(shù)情況怎么樣。在本案例中只有兩個(gè)系數(shù),是很簡(jiǎn)單的場(chǎng)景,但在現(xiàn)實(shí)情況中肯定會(huì)大于這個(gè)數(shù)量。
還是以出租車(chē)為例,計(jì)費(fèi)中有一項(xiàng)是時(shí)長(zhǎng)費(fèi),這是根據(jù)行駛時(shí)間收費(fèi)的項(xiàng)目,另外還可能有額外的司機(jī)獎(jiǎng)勵(lì)費(fèi),比如在春節(jié)期間每單要加6元。
為了便于說(shuō)明,在這里我使用最少的變量進(jìn)行分析。根據(jù)求解結(jié)果,我們可以把A和B的值代入公式:
海運(yùn)拼箱運(yùn)輸費(fèi)用=
156.41×貨物立方數(shù)+664.52
假設(shè)貨物立方數(shù)為零時(shí)(實(shí)際上不可能),運(yùn)費(fèi)是664.52,這就是截距。當(dāng)貨物是4個(gè)立方,運(yùn)費(fèi)就是1290.18。就這樣,我們找到了那條直線,只要輸入3至15之間的任何一個(gè)數(shù),就能夠得出運(yùn)費(fèi)。
(3) 驗(yàn)證系數(shù)
我們還需要對(duì)系數(shù)進(jìn)行驗(yàn)證,看看它們是否有效且合理,這里主要是看P值,它是用來(lái)判定假設(shè)檢驗(yàn)結(jié)果的一個(gè)參數(shù),P值越小,比如小于0.01,說(shuō)明系數(shù)越是不可能為零。
系數(shù)如果是零,說(shuō)明該系數(shù)是無(wú)意義的。截距的P值是0.000093,已經(jīng)足夠小了,說(shuō)明這個(gè)系數(shù)是可用的,而斜率的P值更小,那就更好了。
(4) 上下限的值
最后是A、B系數(shù)上下限的值,這里使用的是模型默認(rèn)的95%的置信區(qū)間情況下的值。
貨物立方數(shù)系數(shù)的下限是123.32,上限是189.51,截距的下限是351.39,上限是977.66。在95%的置信區(qū)間里,系數(shù)的上下限就在這個(gè)范圍內(nèi)。
這里需要注意的是上下限值不能小于零,否則系數(shù)就沒(méi)意義了。如果系數(shù)A是負(fù)的,那意味著運(yùn)輸?shù)呢浟吭礁?,運(yùn)費(fèi)反而更低,這是不合理,也是不可能的。因?yàn)閮蓚€(gè)系數(shù)的P值都是小于0.01,所以也不會(huì)出現(xiàn)上述的情況。
至此,我把這個(gè)簡(jiǎn)單的線性回歸模型介紹完畢,本來(lái)想著盡量簡(jiǎn)化內(nèi)容,但實(shí)際看來(lái),里面包含的知識(shí)點(diǎn)是很多的,一篇短文恐怕難以講清楚所有的內(nèi)容。若有解釋不清楚的地方,還請(qǐng)多見(jiàn)諒。
從模型構(gòu)建和使用的角度,我們需要重點(diǎn)關(guān)注這幾個(gè)方面。
1.選擇模型的自變量
在建模之前,我們可能會(huì)有多個(gè)自變量X,此時(shí)就要想一想,該使用哪些?
我在本文中用了一個(gè)最簡(jiǎn)單的場(chǎng)景,所以只有1個(gè)自變量。在實(shí)際情況中我們會(huì)遇到多個(gè)自變量的情況,如果距離、重量等等,需要根據(jù)經(jīng)驗(yàn)來(lái)判斷、選擇合適的自變量。
決定以后,我們要收集自變量的數(shù)據(jù),但有些數(shù)據(jù)可能是缺失的,因此現(xiàn)實(shí)情況會(huì)更復(fù)雜一些,要做好心理準(zhǔn)備。選擇自變量是建模過(guò)程中最難的環(huán)節(jié),需要我們對(duì)問(wèn)題有充分的認(rèn)知。
2.簡(jiǎn)單就是最好的
根據(jù)經(jīng)驗(yàn),在模型中盡量少用一些自變量,只要能解釋問(wèn)題就可以了,自變量越多,模型就越復(fù)雜。雖然調(diào)整的R平方會(huì)很高,卻是人為“調(diào)”出來(lái)的,距離現(xiàn)實(shí)情況反而更遠(yuǎn)了。模型最終要在現(xiàn)實(shí)中驗(yàn)證,過(guò)度擬合可能會(huì)偏離實(shí)際情況。
3.模型驗(yàn)證
由于Excel可以快速運(yùn)行分析,計(jì)算過(guò)程已成為最容易的一步。這導(dǎo)致我們可能想要盡快看到模型結(jié)果,忽視了前期思考和選擇的過(guò)程。
因此,驗(yàn)證模型就更加重要了。調(diào)整的R平方、P值和置信區(qū)間的上下限,這三個(gè)是最重要的點(diǎn),我們需要用常識(shí)和經(jīng)驗(yàn)去判斷它們是否合理。
總結(jié)一下,線性回歸模型是供應(yīng)鏈經(jīng)常會(huì)使用的工具,聽(tīng)起來(lái)很高大上,但是原理并不復(fù)雜,使用Excel就能搭建模型。掌握基本的建模技能,可以幫助我們提高邏輯思考和數(shù)據(jù)分析能力,增加職場(chǎng)競(jìng)爭(zhēng)力。
15倍爆發(fā)式增長(zhǎng),網(wǎng)絡(luò)貨運(yùn)行業(yè)跑出了一匹黑馬
1238 閱讀閃電倉(cāng)到底靠不靠譜?從倉(cāng)儲(chǔ)操作看它的真實(shí)挑戰(zhàn)
1025 閱讀?16億美元大手筆!這家物流巨頭被UPS收購(gòu)
852 閱讀國(guó)務(wù)院同意15個(gè)城市(地區(qū))設(shè)立跨境電子商務(wù)綜合試驗(yàn)區(qū)
819 閱讀德邦快遞“管家式服務(wù)”筑造工業(yè)園物流新模式
832 閱讀行業(yè)首創(chuàng)!52名卡友數(shù)字人集體亮相
772 閱讀國(guó)內(nèi)首套大容量工業(yè)園區(qū)級(jí)分散式風(fēng)電項(xiàng)目正式開(kāi)工
806 閱讀美的集團(tuán):擬分拆安得智聯(lián)至香港聯(lián)交所主板上市
786 閱讀歐航局發(fā)射觀測(cè)森林碳儲(chǔ)量的“生物量”衛(wèi)星
772 閱讀4月1-27日全國(guó)乘用車(chē)新能源市場(chǎng)零售72.8萬(wàn)輛,同比增長(zhǎng)24%
735 閱讀