數(shù)據(jù)是數(shù)字化的根基,數(shù)據(jù)清理是數(shù)字化最基礎的技術(shù)之一,各個行業(yè)都會用到它。供應鏈管理活動會處理大量數(shù)據(jù),有許多數(shù)據(jù)清理的場景,今天就來聊一聊這個話題。
相信許多小伙伴都聽過這樣一句話“Garbage in, Garbage out”,中文的意思是“輸入數(shù)據(jù)是垃圾,輸出的結(jié)果也是垃圾”。這個垃圾不是我們?nèi)粘I钪械膹U棄物,特指無用的、錯誤的數(shù)據(jù)。為什么會是這樣?這需要從數(shù)據(jù)處理的過程說起。
當我們從外部數(shù)據(jù)源獲得數(shù)據(jù)后,根據(jù)一定的公式和模型對數(shù)據(jù)進行分析處理。源頭是輸入input,輸出結(jié)果就是output。
我們可以把整個計算過程想象成一個函數(shù)公式,有些是無比復雜的計算,比如物料需求計算,已經(jīng)不能依靠手工計算,必須依賴于MRP系統(tǒng)。
還有一些簡單的線性函數(shù),比如計算運輸費用,一般會有一個基礎起步價,然后根據(jù)距離乘以每公里的收費標準,得出這趟的運費是多少。
在這過程中,A點和B點之間的距離是一個變量X,根據(jù)計算公式得出費用Y的值。如果我們獲得的X值是錯誤的,那么計算出的Y值肯定也是錯誤的。輸入的源頭數(shù)據(jù)是錯的,輸出的結(jié)果必然也是沒用的,這就是Garbage in, Garbage out的意思。
數(shù)據(jù)錯誤的情況在供應鏈日常工作中比比皆是,比如盤點的時候清點錯了,輸入了錯誤的庫存數(shù)量,那么庫存總數(shù)和金額就是錯的。我列舉了幾種典型的錯誤類型,歡迎大家對號入座。
1.錯誤的數(shù)值
表格中的無效值,比如加了空格和句號。有時候數(shù)據(jù)還會出現(xiàn)負值,例如庫存,它怎么會是負數(shù)呢?可能是扣賬的時候有一筆收貨沒有入庫,就出現(xiàn)了負值。
有些數(shù)值出現(xiàn)在了文本單元格里,自然就不能被統(tǒng)計到。還有合并單元格,會導致數(shù)據(jù)統(tǒng)計錯誤或缺失。
2.重復項
有些編號應該是唯一的,比如貨物追蹤號,一票貨對應的是一個追蹤號碼,是一對一的關(guān)系。我們得檢查有沒有出現(xiàn)重復的情況。
3.人為操作錯誤
只要是手工輸入的,就存在一定出錯的概率。輸入數(shù)據(jù)的人手指一滑,碰到了其他的鍵,就輸錯了?;蚴窃谂判虻臅r候沒有全部選中單元格,還有可能是在用公式的時候輸錯了。
4.其他
有些數(shù)據(jù)和大部分數(shù)據(jù)差距過大,比如在一個產(chǎn)品系列中,大多數(shù)產(chǎn)品單價在0.5元至10元之間,突然出現(xiàn)了一些超過100元的數(shù)據(jù)就很可疑??赡苁窍到y(tǒng)里的報價前者是美元,后者是日元。
我們需要仔細地查看數(shù)據(jù),每次可能都有新發(fā)現(xiàn),那種感覺就像是哥倫布發(fā)現(xiàn)新大陸一樣,總會給人驚喜。
找出錯誤數(shù)據(jù)就像是在大海里撈針,如果沒有合適的方法,可能看了半天數(shù)據(jù)只會看到滿天的小星星。這里介紹幾種方法供大家參考。
1.使用公式
首先要確保數(shù)據(jù)是有效的,因此要做一次的大排查,把數(shù)據(jù)中的無效值找出來。比如我們可以用求和或是查找的公式快速查看,根據(jù)公式結(jié)果判斷是否有無效值。當一列數(shù)據(jù)求和結(jié)果為零時,說明這些數(shù)據(jù)格式不是數(shù)字。
如果想要把無效值抓出來,在Excel中可以用vlookup公式,如果返回值是“#N/A”,說明這個記錄有問題,可能是輸入錯誤,或是有空格。
2.使用目視化圖表
用圖表可以快速查看是否存在異常數(shù)據(jù),比如用散點圖和柱狀圖目測是否有特別離譜的數(shù)值。
在上圖中,在Y軸上方有幾個游離在大部隊之外的數(shù)值需要重點看一看。
3.使用數(shù)據(jù)透視表
數(shù)據(jù)透視表匯總看異常,Excel中的pivot table也就是數(shù)據(jù)透視表是個很好用的工具。拖拽起來方便,而且容易理解。
上圖中,從左邊的原始表格匯總出來的數(shù)據(jù)存在兩個錯誤點。首先是兩個產(chǎn)品號ABC50535沒有被匯總,說明其中一個的產(chǎn)品件號存在無效值。
其次,產(chǎn)品ABC35816匯總數(shù)量為零,但是左側(cè)沒有為零的數(shù)值,說明這個產(chǎn)品的庫存數(shù)量單元格存在錯誤,可能是格式問題。
4.分析變異系數(shù)
使用變異系數(shù)反映數(shù)據(jù)離散程度,也叫離散系數(shù)。簡單地說,在進行數(shù)據(jù)統(tǒng)計分析時,如果變異系數(shù)大于一定程度,比如大于1,意味著數(shù)據(jù)變化較大。這是進階的內(nèi)容,屬于概率和統(tǒng)計分析的概念,具體就不在這里展開了。
找到數(shù)據(jù)問題點后,最后就是要做數(shù)據(jù)清理了。具體的方法有許多種,每個人都有自己擅長的方式。在這里我們就討論一下通用性的原則。
1.先備份
以前我在打電腦游戲的時候,一般在和大BOSS決戰(zhàn)之前都要先存檔,萬一打輸了就調(diào)檔,這樣我就不會Game Over。
我們做數(shù)據(jù)清理之前也要先備份存檔,萬一沒處理好,至少還有原始數(shù)據(jù),否則后果不堪設想。
在做改動之前,我們一定要先把舊的文件存好,在Excel里另存或是復制。我們修改過什么,也要留下記錄。
如果發(fā)現(xiàn)可疑數(shù)據(jù),在清洗之前,需要和相關(guān)人員確認一下。比如價格匯率到底是美元還是日元,找到相關(guān)采購員問一下,確認后再進行修改。
盤點庫存的時候發(fā)現(xiàn)可疑數(shù)據(jù),先不要急著改,再去現(xiàn)場盤點一次,然后再根據(jù)實際情況修改。萬一自己是錯的,把數(shù)據(jù)改了豈不是太過草率?
2.做記錄
一定要把我們發(fā)現(xiàn)的問題和采取的措施完完全全地記錄下來。對于所有的改動,我們都要確保能解釋清楚。
人的記憶力沒那么好,好記性不如爛筆頭,記錄一下也沒什么損失。以后萬一有需要,我們還可以隨時找到改動過的地方,撤銷改動。所以說原始數(shù)據(jù)永遠不要刪,把它們復制一份保存好,把清理過后的數(shù)據(jù)用于以后的分析。
原始的數(shù)據(jù)絕沒有我們想象中那樣干凈,需要花點時間進行清洗,然后才能用于下一步的整理、匯總和分析,并進一步提煉出洞察。我們要時刻對外部數(shù)據(jù)持有懷疑態(tài)度,警惕地觀察一切不合理的數(shù)據(jù)。
瑪氏中國|2025年度瑪氏箭牌北京區(qū)域包材及原材料倉儲(VMI)項目
2180 閱讀華為的物流“布局”,為何備受關(guān)注?
1397 閱讀北美倉配一體機會和風險
1208 閱讀?年營收15億的跨境物流企業(yè)要上市
951 閱讀縱騰集團借殼上市,6.4億收購A股上市公司綠康生化
903 閱讀解秘粵港澳大灣區(qū)規(guī)模最大的生產(chǎn)服務型國家物流樞紐——廣州東部公鐵聯(lián)運樞紐
889 閱讀TEMU美區(qū)半托管即將開放國內(nèi)發(fā)貨模式
785 閱讀京東物流一線員工日10周年:為5年、10年老員工授勛,為15000名標桿頒獎
731 閱讀2024年快遞滿意度出爐:順豐、京東快遞排名最高
704 閱讀TikTok撤換美國電商負責人,抖音前副總裁木青上位
642 閱讀