您的位置：首頁 >社會 > 正文

民主化A/B實驗

來源：DataFunTalk 時間：2023-06-17 06:54:27

導讀 A/B實驗是一種通過實驗來做效果評估的方法，主要流程是將評估對象隨機抽樣成對照組和實驗組，對實驗組施加策略干預，然后通過兩組之間的效果對比，得出上線策略會產(chǎn)生的影響。本文分享的內容不涉及具體的算法。

全文目錄：

1. 個人和Statsig公司介紹

(資料圖片)

2. Statsig公司的創(chuàng)始故事

3. 什么是民主化的A/B實驗

4. Statsig如何推進A/B實驗民主化

分享嘉賓｜王家侃 Statsig Founding Engineer

編輯整理｜李冠百維金科信息科技有限公司

出品社區(qū)｜DataFun

Statsig公司介紹

公司名稱Statsig，取自于統(tǒng)計學顯著性的英文簡稱。我們提供A/B實驗以及相應的功能管理平臺，現(xiàn)在也開始做一些用戶分析方面的內容。公司使命就是民主化A/B實驗，用數(shù)據(jù)來驅動決策，脫離傳統(tǒng)的“老板說了算”這種模式。服務的客戶中不乏著名的創(chuàng)業(yè)公司，如Figma、Notion、OpenAI等。

我們企業(yè)工程團隊主要服務企業(yè)級用戶，宗旨是讓所有在Statsig簽約的用戶，跑更多更好的實驗。我們的工作內容橫跨售前和售后，比如幫助銷售介紹公司產(chǎn)品和實驗文化，也會參加用戶的實驗設計和結果評審等。

Statsig公司創(chuàng)始故事

Statsig在2021年2月創(chuàng)立于美國西雅圖，整個團隊都是前Facebook西雅圖的員工，包含6名工程師和1名數(shù)據(jù)科學家。創(chuàng)立時正處于新冠高峰期，但還是要求全員去公司上班，因為早期每天都要做很多新的決定，只有這樣才能有更強的執(zhí)行力。

我們的CEO，是前Facebook的副總裁，也是西雅圖分部的負責人。他在 Facebook 任職的10年內，西雅圖分部從剛開始十幾個員工，一直做到 8000 個員工。他在公司內部也是一個比較有名的連續(xù)創(chuàng)業(yè)者，曾經(jīng)帶領過很多成功的項目，這些項目現(xiàn)在給公司貢獻了上百億美金的收入。

從第一天上班，到第一版產(chǎn)品上線，我們花了大概3-4周時間。之后我們又等了3周的時間，才有了第一個新加坡的注冊用戶。同年10月份，我們收到了第一筆用戶付款，雖然只有幾美金，但確是一個非常重要的里程碑。

什么是民主化的A/B實驗

1.一個親身經(jīng)歷的小故事

我們曾經(jīng)在Facebook做一款小游戲，一個項目經(jīng)理提出要花時間去優(yōu)化游戲的加載速度，從而提高玩家的轉化率。這聽起來理所當然，沒有任何問題，當天就開會討論具體要做什么。討論出來的方案幾乎都是大工程，估計需要好幾個月才能完成。

其中有個成員就提出了一個大膽的想法，減少加載時間很困難，但人工增加游戲加載時間很簡單，我們可以先測一下增加游戲加載時間對用戶帶來的影響，然后用這個結果來評估要不要投入幾個月時間去減少。最后的結論是這個優(yōu)化帶來的增益，遠遠不值得投入這么大的精力，然后我們就用這個時間去做更有效的事情了。

花了幾個小時工作量，省下了團隊幾個月的時間，這件事情讓我深刻地認識到，每個公司都應該有這樣的實驗平臺和文化，這也是我們后來創(chuàng)業(yè)的初衷。

2.民主化實驗的四個特點

實驗的門檻和開銷要低。這是所有人都能夠去測試他們各種想法的必要條件，非常重要。實驗數(shù)據(jù)要容易獲取且透明。數(shù)據(jù)容易獲取，可以降低實驗的門檻；數(shù)據(jù)透明，實驗結果才可以讓大家信服。決策結構去中心化。在民主的實驗文化下，任何意見都會被考慮，用實驗一一去測試可行性，然后再用數(shù)據(jù)結果來做決定。能夠自我學習和優(yōu)化的團隊。當結果和預期不一致時，這種看似失敗的實驗，往往能帶來更多的思考價值。

3.民主化實驗對不同的崗位帶來的好處

工程師

他們能夠放心地去發(fā)布新的功能，不需要很多的反復測試流程。如果你有自助化的數(shù)據(jù)，就可以觀察新功能是否達到預期，APP閃退頻率以及用戶延時的變化情況。各種內部SDK的升級，在我們的實驗平臺都可以輕易做到。

數(shù)據(jù)科學家

一方面減少了他們寫SQL取數(shù)和驗算實驗結果的時間，這種事情往往繁瑣枯燥；另一方面由于實驗結果都是自助化的，也省去了團隊其他成員，因為不愿意相信實驗結果所帶來的一些沖突和麻煩。他們可以把這些省下的時間和精力花在更有意義的事情上，比如通過數(shù)據(jù)去幫助團隊尋找產(chǎn)品發(fā)展的方向，或者是推薦更有用的實驗目標之類的事情。

項目經(jīng)理

用數(shù)據(jù)結果說話，可以減少一些非常主觀的辯論。當大家對于一個新的想法意見不統(tǒng)一時，就跑一個實驗，讓結果說話。這樣還可以鼓勵團隊去嘗試更多未知冒險的想法，這些想法往往可以帶來出其不意的回報。

/B實驗的現(xiàn)狀

好的實驗運作應該像流水線一樣，是每天工作的一部分，可以讓員工的工作效率翻倍。但大部分公司做實驗更像是科學研究，從實驗設計實現(xiàn)到數(shù)據(jù)采集解讀，端到端做一個完整實驗是一種奢侈，不可能作為日常工作的一部分。造成這種情況主要有以下三個原因：

大部分實驗平臺的功能不全。比如只能支持后端的實驗，或者只能支持用戶登錄以后跑的實驗等等，這樣就很大程度限制了實驗普及的可能性。實驗數(shù)據(jù)需要數(shù)據(jù)科學團隊手動計算。很多公司的實驗瓶頸就出在這里，計算花費大量人力，不是每個公司都可以有一個大的數(shù)據(jù)科學團隊。導致大家對A/B實驗缺乏主觀的意愿，一般做實驗都是因為領導要求。實驗平臺不提供端到端的完整性。導致一個團隊里面只有全都不出錯，才能夠得到正確的實驗結果。這樣會導致成員之間互相指責，不利于團隊和睦，尤其是新人很容易遭到打擊。

5.市面上的其他產(chǎn)品

市面上的產(chǎn)品沒有真正為產(chǎn)品團隊打造，具體如下：大多數(shù)時候都是為營銷或者市場團隊打造功能，偏向于無代碼實驗，主要是因為這些部門比較愿意花錢。實驗結果經(jīng)常是在黑匣子里面，導致用戶很難自己算出同樣的結果，實驗平臺也不愿意給出具體計算邏輯。在跑實驗之前就要求把測試的2-3個指標確定好，然后實驗開始跑以后就不讓加了，這也是非常有局限性的一面。很多公司提供的客服團隊沒有實戰(zhàn)經(jīng)驗，并不能指導用戶進行最佳實踐，所以也很難讓用戶去建立起一個好的實驗文化。還有一些非常低級的錯誤，比如分組不穩(wěn)定等等。

Statsig如何推進A/B實驗民主化

現(xiàn)在企業(yè)對數(shù)據(jù)分析方面的需求，可以用下圖中的需求金字塔來描述， Statsig的重點在上面兩層：

第一層是無所不在的實驗。簡單來說就是每個新功能都可以當做實驗來做，用實驗的結果來決定下一步干什么，很少有公司能做到這一點，目前只有比較大的一些科技公司才行，而我們的目標是普及到所有的公司。第二層就是大家普遍理解的 A/B 實驗，我們產(chǎn)品提供給用戶最基本的這個功能，就是能夠讓用戶全方面的了解這次產(chǎn)品改動所帶來的影響，以及包括長期指標在內的一個整體畫面。下面兩層是市面上其他產(chǎn)品提供的一些解決方案，我們也在這些方面有一些功能，比較常見，在這里就不展開細講了。

推動A/B實驗民主化，最重要的就是實驗的極簡化，Statsig在這方面下了非常大的功夫。從UI到SDK的設計，都盡量做到極簡，下圖展示的就是我們產(chǎn)品里面的一個功能開關。你做任何的新功能，只要一個功能開關，把功能放到這個開關里面，然后寫基本的一個如果從句，就可以把它變成一個實驗。

這個功能開關只要設置到0-100之間的百分比，我們就會自動把這個做成A/B 實驗，給你分析這個功能的存在與否，對用戶行為上面產(chǎn)生的一些影響。只要把功能放到這個開關，就可以看到你所關心的所有指標。不需要數(shù)據(jù)科學家做任何額外的工作，就可以一目了然，看到這個產(chǎn)品或功能產(chǎn)生的效果。

對于稍微復雜一點的場景，也可以把實驗的變量做成參數(shù)。我們的SDK可以讓你在一個參數(shù)上跑不同的實驗，可以同時也可以不同時，這樣顯而易見的好處就是，測一個參數(shù)的不同數(shù)值，不需要再改動代碼，不需要移動端開發(fā)的等待時間，直接在UI界面上改就生效了，就可以直接開始新的實驗。

至于實驗的數(shù)據(jù)收集，不管是從我們的 SDK 直接發(fā)過來，還是通過數(shù)據(jù)采集器或者數(shù)據(jù)倉庫，我們的宗旨就是數(shù)據(jù)存在哪里都可以兼容。而且無論是記錄原始事件，還是預先設計好的計算指標，我們也都可以用。換而言之，數(shù)據(jù)在哪，實驗結果就可以在哪。

逐步揭示數(shù)據(jù)的復雜性（Progressive Disclosure of Complexity），就是希望讓我們的平臺能夠適用于不同崗位、不同背景的用戶，而不僅僅是數(shù)據(jù)科學家。我們的實驗結果面板，基本上都可以看懂。紅色的就是顯著的不好，綠色就是顯著的提升，灰色就是沒有顯著性。這里面數(shù)據(jù)指標含義，也都是顧名思義、一目了然。所以普通的工程師和項目經(jīng)理也可以通過數(shù)據(jù)面板來讀懂實驗結果。

我們的平臺還支持更多深層次的需求，比如指標的具體計算邏輯，在實驗中某個指標每天的變化等等。還可以從平臺里面導出計算結果的原始數(shù)據(jù)，不少用戶都會這樣來驗算顯示數(shù)據(jù)的正確性，或者拿到他們自己的數(shù)據(jù)倉庫里面去做更多的分析。

很多用戶煩惱的問題就是不知道怎么證明一個團隊跑很多實驗，是不是值得的，給公司帶來了怎么樣的業(yè)績。可以試一下我們平臺內置的這個實驗保留功能，可以隨機選擇一小部分用戶，讓他們不參與任何的一個產(chǎn)品實驗。然后會自動計算這一段時間以來你們產(chǎn)品里面所有的實驗，所有的功能產(chǎn)生的總體影響。很多用戶用這個來當作他們整個團隊一段時間的業(yè)績面板。

再來著重介紹下我們企業(yè)工程團隊，我們與其他平臺最大的不同可以總結為四點，這也是我們能夠推動A/B 實驗民主化一個非常重要的因素：

我們團隊有非常豐富的實戰(zhàn)經(jīng)驗，會對所有的用戶進行實驗基礎、最佳實踐的培訓和答疑。我們甚至會參與到實驗的設計評審當中，幫客戶去建立一個比較好的實驗體系。我們會跟客戶一起計劃實驗文化上面想要達到一些目標，并且把這個當成我們自己的目標來評測是否成功。我們也會負責公司的一些定制化實驗需求，然后進行考量，評估是否可以迭代到我們的標準產(chǎn)品中。

最后介紹兩個民主化實驗推行的成功案例：

Rec Room，這是一個 VR 游戲公司。他們現(xiàn)在就是把每個新功能都做在一個功能開關后面，然后把它跑成一個實驗。有一次升級了UX，原本以為會大大增加用戶粘性，結果發(fā)現(xiàn)這個用戶發(fā)消息的指標卻下降了。然后他們仔細看了下界面設計，發(fā)現(xiàn)在新版上面發(fā)消息這個按鈕確實是有點被隱藏起來了，以前是比較明顯的一個按鈕。于是他們把這個按鈕放到了上面，可以看到這個發(fā)消息指標有了顯著的提升。如果他們沒有每一個功能都來做實驗這個習慣的話，是不會發(fā)現(xiàn)這樣一個問題的。 ancestry，這是一個做 DNA 檢測的公司。他們現(xiàn)在也把所有的功能都放在一個功能開關之后，用Statsig把它跑成一個實驗。下面這個圖說明了在用了 Statsig 以后，實驗數(shù)量的變化。現(xiàn)在跑實驗的頻率大概是一個月 50 個，但他們之前用內部的實驗平臺，頻率基本上是一年 50 個。這也證明了我們公司平臺和其他產(chǎn)品的對比優(yōu)勢。

今天的分享就到這里，謝謝大家。

▌2023數(shù)據(jù)智能創(chuàng)新與實踐大會

? 時間 ：/22 9:00-17:00

地點：北京朝陽悠唐皇冠假日酒店

購票：18301441917

會議亮點：

1. 4大體系，專業(yè)結構數(shù)據(jù)智能

2. 16個主題論壇，覆蓋當下熱點與趨勢

3. 70+演講，兼具創(chuàng)新與最佳實踐

4. 1000+專業(yè)觀眾，內行人的技術盛會

點擊下方鏈接即可報名

免責聲明：本文不構成任何商業(yè)建議，投資有風險，選擇需謹慎！本站發(fā)布的圖文一切為分享交流，傳播正能量，此文不保證數(shù)據(jù)的準確性，內容僅供參考