2019年5月6日,美團(tuán)正式推出新品牌“美團(tuán)配送”,發(fā)布了美團(tuán)配送新愿景:“每天完成一億次值得信賴的配送服務(wù),成為不可或缺的生活基礎(chǔ)設(shè)施?!爆F(xiàn)在,美團(tuán)配送已經(jīng)服務(wù)于全國(guó)400多萬(wàn)商家和4億多用戶,覆蓋2800余座市縣,日活躍騎手超過(guò)70萬(wàn)人,成為全球領(lǐng)先的分鐘級(jí)配送網(wǎng)絡(luò)。
本文從評(píng)估體系建設(shè)的原因開始入手,重點(diǎn)闡述了美團(tuán)配送技術(shù)團(tuán)隊(duì)在A/B評(píng)估體系構(gòu)建過(guò)程中的一些思考和具體的實(shí)踐,包括如何建立完備的指標(biāo)體系、如何建立科學(xué)權(quán)威的評(píng)估方式等等。希望能夠給大家一些啟發(fā)和幫助。
即時(shí)配送的三要素是“效率”、“成本”、“體驗(yàn)”,通過(guò)精細(xì)化的策略迭代來(lái)提升效率,降低成本,提高體驗(yàn),不斷地?cái)U(kuò)大規(guī)模優(yōu)勢(shì),從而實(shí)現(xiàn)正向循環(huán)。但是,策略的改變,不是由我們隨便“拍腦袋”得出,而是一種建立在數(shù)據(jù)基礎(chǔ)上的思維方式,數(shù)據(jù)反饋會(huì)告訴我們做的好不好,哪里有問(wèn)題,以及衡量可以帶來(lái)多少確定性的增長(zhǎng)。
而A/B實(shí)驗(yàn)就是精細(xì)化迭代的一個(gè)“利器”,通過(guò)為同一個(gè)迭代目標(biāo)制定兩個(gè)或多個(gè)版本的方案,在同一時(shí)間維度,讓組成成分相同(或相似)的A/B群組分別采用這些版本,然后收集各群組的體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析、評(píng)估出最好的版本,幫助我們作出正確的決策,使迭代朝著更好的方向去演進(jìn)。基于此,構(gòu)建一個(gè)適用于配送業(yè)務(wù)的A/B平臺(tái)就應(yīng)運(yùn)而生了。
如上圖所示,A/B實(shí)驗(yàn)可以看作一個(gè)“無(wú)盡”的學(xué)習(xí)環(huán),我們通過(guò)提出假設(shè)、定義成功指標(biāo)、檢驗(yàn)假設(shè)(A/B實(shí)驗(yàn))、分析學(xué)習(xí)、發(fā)布、建立另一個(gè)假設(shè),這就形成一個(gè)完整的閉環(huán),通過(guò)多輪實(shí)驗(yàn)迭代,使策略趨于更優(yōu)?;谏鲜鰧?duì)A/B實(shí)驗(yàn)劃分的5個(gè)步驟,我們將A/B實(shí)驗(yàn)的完整生命周期分為三個(gè)階段:
實(shí)驗(yàn)前,提出該實(shí)驗(yàn)假設(shè),定義實(shí)驗(yàn)成功的指標(biāo),確定分流策略;
實(shí)驗(yàn)中,即驗(yàn)證假設(shè)的階段,根據(jù)配置階段的分流策略進(jìn)行分流和埋點(diǎn)上報(bào);
實(shí)驗(yàn)后,進(jìn)行實(shí)驗(yàn)分析與學(xué)習(xí),并基于實(shí)驗(yàn)報(bào)告決定是否發(fā)布。
按照功能劃分,我們將A/B平臺(tái)分為三個(gè)模塊,實(shí)驗(yàn)配置管理模塊、分流以及埋點(diǎn)上報(bào)模塊和在線分析模塊,分別對(duì)應(yīng)于A/B實(shí)驗(yàn)生命周期的實(shí)驗(yàn)前、實(shí)驗(yàn)中和實(shí)驗(yàn)后三個(gè)階段。
在實(shí)驗(yàn)配置模塊,用戶可以基于實(shí)驗(yàn)前提出的假設(shè)、定義的成功指標(biāo)快速創(chuàng)建實(shí)驗(yàn),并基于特定的分流策略完成分流配置;分流以及埋點(diǎn)上報(bào)模塊,提供JAR包接入的形式,異步獲取實(shí)驗(yàn)配置進(jìn)行本地分流計(jì)算和埋點(diǎn)上報(bào);在線分析模塊,依據(jù)用戶在實(shí)驗(yàn)配置管理模塊選取的用于說(shuō)明實(shí)驗(yàn)效果的指標(biāo)、分流埋點(diǎn)上報(bào)模塊記錄的日志,自動(dòng)地產(chǎn)生各實(shí)驗(yàn)的實(shí)驗(yàn)報(bào)告,供實(shí)驗(yàn)觀察者使用,然后根據(jù)實(shí)驗(yàn)效果幫助他們作出正確的決策。具體流程如下圖所示:
2.1 分流業(yè)務(wù)場(chǎng)景需要
業(yè)界的A/B平臺(tái)建設(shè)基本以《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》這篇論文為藍(lán)本進(jìn)行展開, 引入分層模型以及在分流算法中加入層編號(hào)因子來(lái)解決“流量饑餓”和“正交”問(wèn)題,并且通過(guò)引入域的概念,支持域和層之間的相互嵌套,使分層實(shí)驗(yàn)?zāi)P透屿`活,進(jìn)而滿足多種場(chǎng)景下的A/B訴求。如下圖所示,將流量通過(guò)Hash取模的方式即可實(shí)現(xiàn)流量的均勻劃分。
這種是面向C端用戶進(jìn)行流量選擇的傳統(tǒng)A/B實(shí)驗(yàn),采用上述的分流方式基于這樣的假設(shè):參與實(shí)驗(yàn)的流量因子是相互獨(dú)立的、隨機(jī)的,服從獨(dú)立同分布。但是,配送業(yè)務(wù)場(chǎng)景下的A/B實(shí)驗(yàn),涉及到用戶、騎手、商家三端,請(qǐng)求不獨(dú)立,策略之間相互影響并且受線下因素影響較大。
傳統(tǒng)A/B實(shí)驗(yàn)的分流方式,無(wú)法保證分出的兩個(gè)群組實(shí)驗(yàn)組和對(duì)照組的流量都是無(wú)差別的,無(wú)法避免因流量分配不平衡而導(dǎo)致的A/B群組差異過(guò)大問(wèn)題,很容易造成對(duì)實(shí)驗(yàn)結(jié)果的誤判。為滿足不同業(yè)務(wù)場(chǎng)景的訴求,我們的A/B平臺(tái)建設(shè)采取了多種分流策略,如下圖所示:
針對(duì)策略之間的相互影響、請(qǐng)求不獨(dú)立場(chǎng)景下的A/B實(shí)驗(yàn),我們采取限流準(zhǔn)入的分流方式,針對(duì)不同的實(shí)驗(yàn),選取不同的分流因子。在實(shí)驗(yàn)前,我們通過(guò)AA分組,找出無(wú)差別的實(shí)驗(yàn)組和對(duì)照組,作為我們實(shí)驗(yàn)分流配置的依據(jù),這種分流方式要求我們要有一套完整刻畫流量因子的指標(biāo)體系,只要刻畫流量因子的指標(biāo)間無(wú)統(tǒng)計(jì)顯著性,我們就認(rèn)為分出的實(shí)驗(yàn)組和對(duì)照組無(wú)差別。
2.2 業(yè)務(wù)決策的重要依據(jù)
在實(shí)驗(yàn)后的效果評(píng)估環(huán)節(jié),通常允許實(shí)驗(yàn)者用自定義的指標(biāo)來(lái)衡量不同策略帶來(lái)的影響。但這樣做會(huì)帶來(lái)如下兩個(gè)問(wèn)題:
首先,由實(shí)驗(yàn)者來(lái)負(fù)責(zé)實(shí)驗(yàn)效果的評(píng)估,很難做到客觀。同時(shí)也無(wú)法避免實(shí)驗(yàn)者僅僅選擇支持自己假設(shè)的指標(biāo),來(lái)證明自己的實(shí)驗(yàn)結(jié)論;
其次,所有的策略迭代都是為業(yè)務(wù)服務(wù),如果實(shí)驗(yàn)者用自定義的、與業(yè)務(wù)認(rèn)知不一致的指標(biāo),來(lái)說(shuō)明實(shí)驗(yàn)效果、推動(dòng)業(yè)務(wù)灰度,這種方式往往難以被采納。
因此,權(quán)威的評(píng)估體系對(duì)于對(duì)齊大家認(rèn)知,并幫助我們?cè)诓呗缘矫孀鞒稣_的決策,尤為重要。
A/B評(píng)估體系的構(gòu)建,要解決A/B平臺(tái)兩個(gè)核心問(wèn)題:第一,要有一套用于刻畫流量因子(區(qū)域、騎手、商家)的權(quán)威的、完備的指標(biāo)體系,幫助實(shí)驗(yàn)者完成實(shí)驗(yàn)前的AA分組和實(shí)驗(yàn)后的效果評(píng)估;第二,要建立一套科學(xué)的評(píng)估方法,幫助實(shí)驗(yàn)者作出正確的決策。
3.1 權(quán)威完備的指標(biāo)體系
指標(biāo)的權(quán)威性體現(xiàn)在:刻畫分流因子,用于實(shí)驗(yàn)前AA分組和證明實(shí)驗(yàn)假設(shè)的指標(biāo),必須經(jīng)過(guò)治理且業(yè)務(wù)認(rèn)知一致,這樣才能對(duì)齊認(rèn)知,使得實(shí)驗(yàn)結(jié)果更具說(shuō)服力;指標(biāo)的完備性體現(xiàn)在:評(píng)估體系中的指標(biāo),不僅要有經(jīng)過(guò)第三方獨(dú)立生產(chǎn)治理且各業(yè)務(wù)方認(rèn)知一致的治理指標(biāo),而且還要有實(shí)驗(yàn)者為了更全面的分析,描述實(shí)驗(yàn)過(guò)程,自定義的探索指標(biāo)。
整體架構(gòu)
治理指標(biāo)強(qiáng)調(diào)的是指標(biāo)的權(quán)威性和生產(chǎn)的規(guī)范性,而探索性指標(biāo)強(qiáng)調(diào)的是指標(biāo)的多樣性和生產(chǎn)的靈活性。在評(píng)估體系中要實(shí)現(xiàn)這兩類指標(biāo)的統(tǒng)一,既要包含用于說(shuō)明實(shí)驗(yàn)效果的治理指標(biāo),又要包含幫助實(shí)驗(yàn)者更好迭代實(shí)驗(yàn)所需的探索指標(biāo)。
為實(shí)現(xiàn)上述的統(tǒng)一,指標(biāo)層面要有分級(jí)運(yùn)營(yíng)的策略:治理指標(biāo)按照業(yè)務(wù)認(rèn)知一致性和算法內(nèi)部認(rèn)知一致性分別定級(jí)為P0、P1,這一類指標(biāo)在生產(chǎn)前必須要有嚴(yán)格的注冊(cè)、評(píng)審,生產(chǎn)環(huán)節(jié)需要交給獨(dú)立的第三方團(tuán)隊(duì)(數(shù)據(jù)團(tuán)隊(duì))生產(chǎn),保證指標(biāo)的權(quán)威性,產(chǎn)出后打通指標(biāo)與字段的映射關(guān)系,對(duì)用戶屏蔽底層實(shí)現(xiàn)邏輯;對(duì)于探索性指標(biāo),定級(jí)為P2,強(qiáng)調(diào)的是生產(chǎn)的靈活性和快速實(shí)現(xiàn),因此,它的生產(chǎn)就不宜帶有指標(biāo)注冊(cè)和評(píng)審等環(huán)節(jié)。
為保證其快速實(shí)現(xiàn),希望基于物理表和簡(jiǎn)單的算子配置就可以實(shí)現(xiàn)效果分析時(shí)即席查詢使用?;谌缟系膯?wèn)題拆解,我們進(jìn)行了如下的架構(gòu)設(shè)計(jì):
數(shù)據(jù)集成
為了支持監(jiān)控和分析,在數(shù)據(jù)集成環(huán)節(jié),我們集成了實(shí)驗(yàn)配置數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和染色數(shù)據(jù),以便實(shí)驗(yàn)者在效果評(píng)估環(huán)節(jié)不僅可以查看流量指標(biāo)(PV、UV和轉(zhuǎn)化率),也可以深入探索策略變動(dòng)對(duì)業(yè)務(wù)帶來(lái)的影響。
對(duì)于那些在實(shí)驗(yàn)配置環(huán)節(jié)不能確定流量是否真正參加實(shí)驗(yàn)的場(chǎng)景(例如:選擇了特定區(qū)域進(jìn)行實(shí)驗(yàn),該區(qū)域產(chǎn)生的單只有滿足特定條件時(shí)才能觸發(fā)實(shí)驗(yàn)),我們不能直接通過(guò)限制確定的區(qū)域來(lái)查看業(yè)務(wù)指標(biāo)。因?yàn)榇藭r(shí)查看的指標(biāo)并不是真正參與實(shí)驗(yàn)的流量所對(duì)應(yīng)的指標(biāo)。因此在數(shù)據(jù)集成環(huán)節(jié),我們同時(shí)將實(shí)驗(yàn)前的實(shí)驗(yàn)配置數(shù)據(jù)和實(shí)驗(yàn)中的染色數(shù)據(jù)(針對(duì)每個(gè)參與實(shí)驗(yàn)的流量,每次操作所產(chǎn)生的數(shù)據(jù),都會(huì)打上實(shí)驗(yàn)場(chǎng)景、實(shí)驗(yàn)組以及具體的分組標(biāo)記,我們?cè)摂?shù)據(jù)為染色數(shù)據(jù))同步到數(shù)倉(cāng)。
在數(shù)據(jù)基建環(huán)節(jié),將業(yè)務(wù)數(shù)據(jù)模型和染色數(shù)據(jù)模型通過(guò)流量實(shí)體作為關(guān)聯(lián)條件進(jìn)行關(guān)聯(lián),構(gòu)建實(shí)驗(yàn)粒度模型。
數(shù)據(jù)基建
在數(shù)據(jù)基建層,我們基于指標(biāo)分級(jí)運(yùn)營(yíng)的思路,由數(shù)據(jù)團(tuán)隊(duì)和算法團(tuán)隊(duì)分別構(gòu)建實(shí)體粒度(區(qū)域、騎手、GeoHash)和實(shí)驗(yàn)粒度的實(shí)體寬表模型,以滿足P0/P1指標(biāo)和P2指標(biāo)的訴求;為實(shí)現(xiàn)指標(biāo)的規(guī)范化建設(shè)和靈活建設(shè)的統(tǒng)一,在物理模型和對(duì)外提供應(yīng)用的指標(biāo)池之間,我們提供了元數(shù)據(jù)管理工具和模型配置工具,從而實(shí)現(xiàn)離線數(shù)據(jù)快速接入評(píng)估體系的指標(biāo)池。
由數(shù)據(jù)團(tuán)隊(duì)建設(shè)的實(shí)體寬表模型,對(duì)應(yīng)著治理指標(biāo)(P0/P1指標(biāo)),必須在生產(chǎn)后通過(guò)元數(shù)據(jù)管理工具完成指標(biāo)與物理字段的映射,將指標(biāo)的加工口徑封裝在數(shù)據(jù)層,對(duì)用戶屏蔽物理實(shí)現(xiàn),確保治理指標(biāo)的一致性。由算法團(tuán)隊(duì)獨(dú)立建設(shè)的實(shí)體寬表模型,對(duì)應(yīng)著挖掘指標(biāo)(P2指標(biāo)),為確保其接入評(píng)估體系指標(biāo)池的靈活性和方便性,我們?cè)跀?shù)據(jù)基建環(huán)節(jié),通過(guò)標(biāo)簽的形式對(duì)指標(biāo)口徑做部分封裝,在模型配置環(huán)節(jié)完成指標(biāo)邏輯的最終加工。
元數(shù)據(jù)管理
元數(shù)據(jù)管理層,是實(shí)現(xiàn)指標(biāo)權(quán)威性的關(guān)鍵。治理指標(biāo)在本層實(shí)現(xiàn)注冊(cè)、評(píng)審,達(dá)到業(yè)務(wù)認(rèn)知一致性和算法內(nèi)部認(rèn)知一致性的目的。同時(shí),本層還完成了治理指標(biāo)與數(shù)據(jù)基建層物理模型之間的綁定,為后續(xù)的模型配置建立基礎(chǔ)。
模型配置
模型配置工具,是打通物理模型與評(píng)估指標(biāo)池的橋梁,它通過(guò)輸入組件、操作組件和應(yīng)用組件,將離線數(shù)據(jù)接入到評(píng)估體系中,滿足實(shí)驗(yàn)前AA分組和實(shí)驗(yàn)后AB評(píng)估的需求。首先,輸入組件可以對(duì)應(yīng)不同的數(shù)據(jù)源,既可以接入治理的離線指標(biāo),也可以接入特定庫(kù)下的物理表。其次,操作組件提供了分組操作、算子操作、過(guò)濾操作和測(cè)試操作,通過(guò)分組操作,確定模型包含的維度;通過(guò)算子操作,將算子作用在指標(biāo)或標(biāo)簽字段上,在取數(shù)環(huán)節(jié)實(shí)現(xiàn)指標(biāo)的二次計(jì)算;通過(guò)過(guò)濾操作,實(shí)現(xiàn)數(shù)據(jù)的過(guò)濾;通過(guò)測(cè)試操作,保證模型配置質(zhì)量。最后,應(yīng)用組件可以將配置的模型注冊(cè)到不同的應(yīng)用上,針對(duì)A/B場(chǎng)景主要是AA分組和AB評(píng)估。具體接入流程如下圖所示:
3.2 科學(xué)權(quán)威的評(píng)估方式
評(píng)估報(bào)告的可靠和權(quán)威性主要體現(xiàn)在兩個(gè)方面:一是評(píng)估指標(biāo)的可靠性和權(quán)威性;二是評(píng)估方式的科學(xué)性。在上一節(jié)中,我們重點(diǎn)討論了如何構(gòu)建可靠權(quán)威的指標(biāo)體系。在這一節(jié),我們重點(diǎn)討論如何進(jìn)行科學(xué)的評(píng)估。
在討論科學(xué)評(píng)估之前,我們?cè)僦販匾幌翧/B實(shí)驗(yàn)的定義:A/B實(shí)驗(yàn),簡(jiǎn)單來(lái)說(shuō),就是為同一個(gè)目標(biāo)制定兩個(gè)版本或多個(gè)版本的方案,在同一時(shí)間維度,分別讓組成成分相同(相似)的A/B群組分別采用這些版本,收集各群組的體驗(yàn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析、評(píng)估出最好版本,正式采用。其中A方案為現(xiàn)行的設(shè)計(jì)(稱為控制組), B方案是新的設(shè)計(jì)(稱為實(shí)驗(yàn)組)。分析A/B實(shí)驗(yàn)的定義,要實(shí)現(xiàn)科學(xué)權(quán)威的評(píng)估,最重要的兩點(diǎn)在于:
第一,確保在實(shí)驗(yàn)前分出無(wú)差別的實(shí)驗(yàn)組和對(duì)照組,避免因流量分配不平衡導(dǎo)致的AB群組差異過(guò)大,最終造成對(duì)于實(shí)驗(yàn)結(jié)果的誤判;
第二,確保對(duì)實(shí)驗(yàn)結(jié)果作出準(zhǔn)確的判斷,能夠準(zhǔn)確的判斷新策略相對(duì)于舊策略的優(yōu)勢(shì)是不是由自然波動(dòng)引起的,它的這一優(yōu)勢(shì)能否在大規(guī)模的推廣中反映出來(lái)。
無(wú)論是實(shí)驗(yàn)前確保實(shí)驗(yàn)組和對(duì)照組流量無(wú)顯著性差異,還是實(shí)驗(yàn)后新策略較舊策略的指標(biāo)變動(dòng)是否具有統(tǒng)計(jì)上的顯著性,無(wú)一例外,它們都蘊(yùn)含著統(tǒng)計(jì)學(xué)的知識(shí)。接下來(lái),我們重點(diǎn)論述一下A/B實(shí)驗(yàn)所依賴的統(tǒng)計(jì)學(xué)基礎(chǔ)以及如何依據(jù)統(tǒng)計(jì)學(xué)理論做出科學(xué)評(píng)估。
假設(shè)檢驗(yàn)
兩個(gè)假設(shè)
A/B實(shí)驗(yàn)是一種對(duì)比試驗(yàn),我們?nèi)Χㄒ欢ǖ牧髁窟M(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)束后,我們基于實(shí)驗(yàn)樣本進(jìn)行數(shù)據(jù)統(tǒng)計(jì),進(jìn)而驗(yàn)證實(shí)驗(yàn)前假設(shè)的正確性,我們得出這一有效結(jié)論的科學(xué)依據(jù)便是假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn)是利用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)的方法,在假設(shè)檢驗(yàn)中,先對(duì)總體均值提出一個(gè)假設(shè),然后用樣本信息去檢驗(yàn)這個(gè)假設(shè)是否成立。我們把提出的這個(gè)假設(shè)叫做原假設(shè),與原假設(shè)對(duì)立的結(jié)論叫做備擇假設(shè),如果原假設(shè)不成立,就要拒絕原假設(shè),進(jìn)而接受備擇假設(shè)。
兩類錯(cuò)誤
對(duì)于原假設(shè)提出的命題,我們需要作出判斷,要么原假設(shè)成立,要么原假設(shè)不成立。因?yàn)榛跇颖緦?duì)總體的推斷,會(huì)面臨著犯兩種錯(cuò)誤的可能:第一類錯(cuò)誤,原假設(shè)為真,我們卻拒絕了;第二類錯(cuò)誤,原假設(shè)為偽,我們卻接受了。顯然,我們希望犯這兩類錯(cuò)誤的概率越小越好,但對(duì)于一定的樣本量n,不能同時(shí)做到犯這兩類錯(cuò)誤的概率很小。
在假設(shè)檢驗(yàn)中,就有一個(gè)對(duì)兩類錯(cuò)誤進(jìn)行控制的問(wèn)題。一般來(lái)說(shuō),哪一類錯(cuò)誤所帶來(lái)的后果嚴(yán)重、危害越大,在假設(shè)檢驗(yàn)中就應(yīng)該把哪一類錯(cuò)誤作為首要的控制目標(biāo)。在假設(shè)檢驗(yàn)中,我們都執(zhí)行這樣一個(gè)原則,首先控制犯第一類錯(cuò)誤的概率。這也是為什么我們?cè)趯?shí)際應(yīng)用中會(huì)把要推翻的假設(shè)作為原假設(shè),這樣得出的結(jié)論更具說(shuō)服力(我們有足夠充分的證據(jù)證明原來(lái)確定的結(jié)論是錯(cuò)誤的),所以通常會(huì)看到,我們把要證明的結(jié)論作為備擇假設(shè)。
T檢驗(yàn)
常見的假設(shè)檢驗(yàn)方法有Z檢驗(yàn)、T檢驗(yàn)和卡方檢驗(yàn)等,不同的方法有不同的適用條件和檢驗(yàn)?zāi)繕?biāo)。Z檢驗(yàn)和T檢驗(yàn)都是用來(lái)推斷兩個(gè)總體均值差異的顯著性水平,具體選擇哪種檢驗(yàn)由樣本量的大小、總體的方差是否已知決定。在樣本量較小且總體的方差未知的情況下,這時(shí)只能使用樣本方差代替總體方差,樣本統(tǒng)計(jì)量服從T分布,應(yīng)該采用T統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。T統(tǒng)計(jì)量具體構(gòu)造公式如下圖所示,其中f是T統(tǒng)計(jì)量的自由度,S1、S2是樣本標(biāo)準(zhǔn)差。
T檢驗(yàn)的流程是,在給定的棄真錯(cuò)誤概率下(一般取0.05),依據(jù)樣本統(tǒng)計(jì)量T是否落在拒絕域來(lái)判斷接受還是拒絕原假設(shè)。實(shí)際上在確定棄真錯(cuò)誤概率以后,拒絕域的位置也就相應(yīng)地確定了。
使用T統(tǒng)計(jì)量進(jìn)行判斷的好處是,進(jìn)行決策的界限清晰,但缺陷是決策面臨的風(fēng)險(xiǎn)是籠統(tǒng)的。例如T=3落入拒絕域,我們拒絕原假設(shè),犯棄真錯(cuò)誤的概率為0.05;T=2也落入拒絕域,我們拒絕原假設(shè),犯棄真錯(cuò)誤的概率也是0.05。事實(shí)上,依據(jù)不同的統(tǒng)計(jì)量進(jìn)行決策,面臨的風(fēng)險(xiǎn)也是有差別的。為了精確地反映決策的風(fēng)險(xiǎn)度,我們?nèi)匀恍枰狿值來(lái)幫助業(yè)務(wù)來(lái)做決策。
利用P值決策
P值即統(tǒng)計(jì)功效函數(shù),當(dāng)原假設(shè)為真時(shí),所得到的樣本觀察結(jié)果或更極端的結(jié)果出現(xiàn)的概率。如果P值很小,說(shuō)明這種情況發(fā)生的概率很小,但是在這次試驗(yàn)中卻出現(xiàn)了,根據(jù)小概率原理,我們有理由拒絕原假設(shè),P值越小,我們拒絕原假設(shè)的理由越充分。P值可以理解為犯棄真錯(cuò)誤的概率,在確定的顯著性水平下(一般取0.05),P值小于顯著性水平,則拒絕原假設(shè)。
基于假設(shè)檢驗(yàn)的科學(xué)評(píng)估
圍繞著科學(xué)評(píng)估要解決的兩個(gè)問(wèn)題,實(shí)驗(yàn)前,針對(duì)圈定的流量使用假設(shè)檢驗(yàn)加上動(dòng)態(tài)規(guī)劃算法,確保分出無(wú)差別的實(shí)驗(yàn)組和對(duì)照組;實(shí)驗(yàn)后,基于實(shí)驗(yàn)前選定的用于驗(yàn)證假設(shè)結(jié)論的指標(biāo),構(gòu)造T統(tǒng)計(jì)量并計(jì)算其對(duì)應(yīng)的P值,依據(jù)P值幫我們做決策。
AA分組
首先看如何解決第一個(gè)問(wèn)題:避免因流量分配不平衡,A/B組本身差異過(guò)大造成對(duì)實(shí)驗(yàn)結(jié)果的誤判。為解決該問(wèn)題,我們引入了AA分組:基于實(shí)驗(yàn)者圈定的流量,通過(guò)AA分組將該流量分為無(wú)顯著性差異的實(shí)驗(yàn)組和對(duì)照組。我們這樣定義無(wú)顯著性差異這一約束:首先,實(shí)驗(yàn)者選取的用于刻畫實(shí)驗(yàn)流量的指標(biāo),在實(shí)驗(yàn)組和對(duì)照組之間無(wú)統(tǒng)計(jì)上的顯著性(即上節(jié)所描述的基于均值的假設(shè)檢驗(yàn));其次,在所分出的實(shí)驗(yàn)組和對(duì)照組之間,這些指標(biāo)的差值最小,即一個(gè)尋找最優(yōu)解的過(guò)程。從實(shí)驗(yàn)者的實(shí)驗(yàn)流程看,在實(shí)驗(yàn)前,圈定進(jìn)入該實(shí)驗(yàn)的流量,然后確定用于刻畫實(shí)驗(yàn)流量的指標(biāo),最后調(diào)用AA分組,為其將流量分成合理的實(shí)驗(yàn)組和對(duì)照組。
A/B效果評(píng)估
A/B效果評(píng)估是實(shí)驗(yàn)者在實(shí)驗(yàn)后,依據(jù)評(píng)估報(bào)告進(jìn)行決策的重要依據(jù)。因此,我們?cè)趯?shí)驗(yàn)后的效果評(píng)估環(huán)節(jié),效果評(píng)估要達(dá)成三個(gè)目標(biāo)即權(quán)威、靈活性和方便。
首先,權(quán)威性體現(xiàn)在用于作出實(shí)驗(yàn)結(jié)論所依賴的指標(biāo)都是經(jīng)過(guò)治理、各方達(dá)成一致的指標(biāo),并且確保數(shù)據(jù)一致性,最終通過(guò)假設(shè)檢驗(yàn)給出科學(xué)的實(shí)驗(yàn)結(jié)論,幫助實(shí)驗(yàn)者作出正確的判斷。其次,靈活性主要體現(xiàn)在采用列轉(zhuǎn)行的形式,按需自動(dòng)生成報(bào)表告別“煙囪式”的報(bào)表開發(fā)方式。第三,方便主要體現(xiàn)在不僅可以查看用于說(shuō)明實(shí)驗(yàn)效果的指標(biāo),還可以選擇查看接入到評(píng)估體系里的任意指標(biāo);不僅可以查看其實(shí)驗(yàn)前后對(duì)比以及趨勢(shì)變化,還可以做到從實(shí)驗(yàn)粒度到流量實(shí)體粒度的下鉆。效果如下圖所示:
技術(shù)實(shí)現(xiàn)
不管是實(shí)驗(yàn)前的AA分組,還是實(shí)驗(yàn)后的效果評(píng)估,我們要解決的一個(gè)核心問(wèn)題就是如何靈活地“取數(shù)”,為我們的AA分組和AB效果分析提供一個(gè)靈活穩(wěn)定的取數(shù)服務(wù)。因此,我們整個(gè)架構(gòu)的核心就是構(gòu)建穩(wěn)定、靈活的取數(shù)服務(wù),具體架構(gòu)如下圖所示。離線建模和指標(biāo)模型管理完成數(shù)據(jù)和元數(shù)據(jù)建設(shè),建立權(quán)威完備的指標(biāo)體系;中間的取數(shù)服務(wù)作為上層各應(yīng)用服務(wù)和指標(biāo)體系的“橋梁”,為上層各應(yīng)用服務(wù)提供其所依賴的指標(biāo)。
目前,A/B實(shí)驗(yàn)已成為許多互聯(lián)網(wǎng)公司評(píng)估其新產(chǎn)品策略和方法的“金標(biāo)準(zhǔn)”,在美團(tuán)配送業(yè)務(wù)場(chǎng)景下,它被廣泛應(yīng)用于調(diào)度策略、定價(jià)策略、運(yùn)力優(yōu)化、ETA時(shí)間預(yù)估等業(yè)務(wù)場(chǎng)景,為我們的策略迭代制定數(shù)據(jù)驅(qū)動(dòng)型決策。特別是針對(duì)配送場(chǎng)景下這種策略之間相互影響,請(qǐng)求不獨(dú)立場(chǎng)景下的A/B實(shí)驗(yàn),結(jié)合配送技術(shù)團(tuán)隊(duì)的具體實(shí)踐,跟大家分享了我們目前的解決思路。
最后再補(bǔ)充一點(diǎn),在A/B實(shí)驗(yàn)領(lǐng)域,實(shí)驗(yàn)的流量規(guī)模應(yīng)該有足夠的統(tǒng)計(jì)能力,才能確保指標(biāo)的變化有統(tǒng)計(jì)意義的。為了更好地達(dá)到這個(gè)目標(biāo),未來(lái)我們將通過(guò)輔助工具建設(shè),在實(shí)驗(yàn)前,依據(jù)實(shí)驗(yàn)者所關(guān)注的指標(biāo)以及敏感度給出流量規(guī)模的建議,方便實(shí)驗(yàn)者在實(shí)驗(yàn)前快速地圈定其實(shí)驗(yàn)所需的流量。
王鵬,美團(tuán)技術(shù)專家,2016年加入美團(tuán)。
啟政,美團(tuán)高級(jí)工程師,2018年加入美團(tuán)。
連恒,美團(tuán)高級(jí)工程師,2016年加入美團(tuán)。
---------- END ----------
招聘信息
配送數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)美團(tuán)日千萬(wàn)級(jí)訂單、百萬(wàn)級(jí)騎手的配送業(yè)務(wù)的數(shù)據(jù)支撐和創(chuàng)新工作,是業(yè)務(wù)運(yùn)營(yíng)和發(fā)展的核心團(tuán)隊(duì)之一。團(tuán)隊(duì)中主要有數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)、實(shí)時(shí)計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)治理、A/B實(shí)驗(yàn)平臺(tái)建設(shè)等各個(gè)數(shù)據(jù)方向的崗位,歡迎各位小伙伴的加入,共同賦能商業(yè),創(chuàng)造更加激動(dòng)人心的價(jià)值。感興趣的同學(xué)可投遞簡(jiǎn)歷至:tech@meituan.com(郵件標(biāo)題注明:美團(tuán)配送數(shù)據(jù)團(tuán)隊(duì))
京東物流遼寧省京東幫服資源招商
1344 閱讀閃電倉(cāng)到底靠不靠譜?從倉(cāng)儲(chǔ)操作看它的真實(shí)挑戰(zhàn)
1137 閱讀兩大物流國(guó)企成立合資公司,意欲何為?
942 閱讀行業(yè)首創(chuàng)!52名卡友數(shù)字人集體亮相
905 閱讀年?duì)I收2萬(wàn)億、凈利潤(rùn)下滑至90億,大宗供應(yīng)鏈五巨頭業(yè)績(jī)出爐!
967 閱讀美的集團(tuán):擬分拆安得智聯(lián)至香港聯(lián)交所主板上市
849 閱讀AI賦能車輪上的聲音 路歌第十一屆“5·2卡友節(jié)”圓滿舉辦
707 閱讀深圳首發(fā)!順豐同城與肯德基推出無(wú)人車智能配送服務(wù)
734 閱讀破局與重生:傳統(tǒng)國(guó)際貨代如何通過(guò)數(shù)字化轉(zhuǎn)型實(shí)現(xiàn)戰(zhàn)略突圍
740 閱讀運(yùn)滿滿江浙滬上線“即時(shí)單”業(yè)務(wù),打造極速貨運(yùn)新體驗(yàn)
713 閱讀