導讀 A/B實驗是一種通過實驗來做效果評估的方法,主要流程是將評估對象隨機抽樣成對照組和實驗組,對實驗組施加策略干預,然后通過兩組之間的效果對比,得出上線策略會產生的影響。本文分享的內容不涉及具體的算法。
全文目錄:
1. 個人和Statsig公司介紹
(資料圖片)
2. Statsig公司的創(chuàng)始故事
3. 什么是民主化的A/B實驗
4. Statsig如何推進A/B實驗民主化
分享嘉賓|王家侃 Statsig Founding Engineer
編輯整理|李冠 百維金科信息科技有限公司
出品社區(qū)|DataFun
01
Statsig公司介紹
公司名稱Statsig,取自于統(tǒng)計學顯著性的英文簡稱。我們提供A/B實驗以及相應的功能管理平臺,現(xiàn)在也開始做一些用戶分析方面的內容。公司使命就是民主化A/B實驗,用數(shù)據(jù)來驅動決策,脫離傳統(tǒng)的“老板說了算”這種模式。服務的客戶中不乏著名的創(chuàng)業(yè)公司,如Figma、Notion、OpenAI等。
我們企業(yè)工程團隊主要服務企業(yè)級用戶,宗旨是讓所有在Statsig簽約的用戶,跑更多更好的實驗。我們的工作內容橫跨售前和售后,比如幫助銷售介紹公司產品和實驗文化,也會參加用戶的實驗設計和結果評審等。
02
Statsig公司創(chuàng)始故事
Statsig在2021年2月創(chuàng)立于美國西雅圖,整個團隊都是前Facebook西雅圖的員工,包含6名工程師和1名數(shù)據(jù)科學家。創(chuàng)立時正處于新冠高峰期,但還是要求全員去公司上班,因為早期每天都要做很多新的決定,只有這樣才能有更強的執(zhí)行力。
我們的CEO,是前Facebook的副總裁,也是西雅圖分部的負責人。他在 Facebook 任職的10年內,西雅圖分部從剛開始十幾個員工,一直做到 8000 個員工。他在公司內部也是一個比較有名的連續(xù)創(chuàng)業(yè)者,曾經帶領過很多成功的項目,這些項目現(xiàn)在給公司貢獻了上百億美金的收入。
從第一天上班,到第一版產品上線,我們花了大概3-4周時間。之后我們又等了3周的時間,才有了第一個新加坡的注冊用戶。同年10月份,我們收到了第一筆用戶付款,雖然只有幾美金,但確是一個非常重要的里程碑。
03
什么是民主化的A/B實驗
1.一個親身經歷的小故事
我們曾經在Facebook做一款小游戲,一個項目經理提出要花時間去優(yōu)化游戲的加載速度,從而提高玩家的轉化率。這聽起來理所當然,沒有任何問題,當天就開會討論具體要做什么。討論出來的方案幾乎都是大工程,估計需要好幾個月才能完成。
其中有個成員就提出了一個大膽的想法,減少加載時間很困難,但人工增加游戲加載時間很簡單,我們可以先測一下增加游戲加載時間對用戶帶來的影響,然后用這個結果來評估要不要投入幾個月時間去減少。最后的結論是這個優(yōu)化帶來的增益,遠遠不值得投入這么大的精力,然后我們就用這個時間去做更有效的事情了。
花了幾個小時工作量,省下了團隊幾個月的時間,這件事情讓我深刻地認識到,每個公司都應該有這樣的實驗平臺和文化,這也是我們后來創(chuàng)業(yè)的初衷。
2.民主化實驗的四個特點
實驗的門檻和開銷要低。這是所有人都能夠去測試他們各種想法的必要條件,非常重要。 實驗數(shù)據(jù)要容易獲取且透明。數(shù)據(jù)容易獲取,可以降低實驗的門檻;數(shù)據(jù)透明,實驗結果才可以讓大家信服。 決策結構去中心化。在民主的實驗文化下,任何意見都會被考慮,用實驗一一去測試可行性,然后再用數(shù)據(jù)結果來做決定。 能夠自我學習和優(yōu)化的團隊。當結果和預期不一致時,這種看似失敗的實驗,往往能帶來更多的思考價值。3.民主化實驗對不同的崗位帶來的好處
工程師他們能夠放心地去發(fā)布新的功能,不需要很多的反復測試流程。如果你有自助化的數(shù)據(jù),就可以觀察新功能是否達到預期,APP閃退頻率以及用戶延時的變化情況。各種內部SDK的升級,在我們的實驗平臺都可以輕易做到。
數(shù)據(jù)科學家一方面減少了他們寫SQL取數(shù)和驗算實驗結果的時間,這種事情往往繁瑣枯燥;另一方面由于實驗結果都是自助化的,也省去了團隊其他成員,因為不愿意相信實驗結果所帶來的一些沖突和麻煩。他們可以把這些省下的時間和精力花在更有意義的事情上,比如通過數(shù)據(jù)去幫助團隊尋找產品發(fā)展的方向,或者是推薦更有用的實驗目標之類的事情。
項目經理用數(shù)據(jù)結果說話,可以減少一些非常主觀的辯論。當大家對于一個新的想法意見不統(tǒng)一時,就跑一個實驗,讓結果說話。這樣還可以鼓勵團隊去嘗試更多未知冒險的想法,這些想法往往可以帶來出其不意的回報。
/B實驗的現(xiàn)狀
好的實驗運作應該像流水線一樣,是每天工作的一部分,可以讓員工的工作效率翻倍。但大部分公司做實驗更像是科學研究,從實驗設計實現(xiàn)到數(shù)據(jù)采集解讀,端到端做一個完整實驗是一種奢侈,不可能作為日常工作的一部分。造成這種情況主要有以下三個原因:
大部分實驗平臺的功能不全。比如只能支持后端的實驗,或者只能支持用戶登錄以后跑的實驗等等,這樣就很大程度限制了實驗普及的可能性。 實驗數(shù)據(jù)需要數(shù)據(jù)科學團隊手動計算。很多公司的實驗瓶頸就出在這里,計算花費大量人力,不是每個公司都可以有一個大的數(shù)據(jù)科學團隊。導致大家對A/B實驗缺乏主觀的意愿,一般做實驗都是因為領導要求。 實驗平臺不提供端到端的完整性。導致一個團隊里面只有全都不出錯,才能夠得到正確的實驗結果。這樣會導致成員之間互相指責,不利于團隊和睦,尤其是新人很容易遭到打擊。5.市面上的其他產品
市面上的產品沒有真正為產品團隊打造,具體如下: 大多數(shù)時候都是為營銷或者市場團隊打造功能,偏向于無代碼實驗,主要是因為這些部門比較愿意花錢。 實驗結果經常是在黑匣子里面,導致用戶很難自己算出同樣的結果,實驗平臺也不愿意給出具體計算邏輯。 在跑實驗之前就要求把測試的2-3個指標確定好,然后實驗開始跑以后就不讓加了,這也是非常有局限性的一面。 很多公司提供的客服團隊沒有實戰(zhàn)經驗,并不能指導用戶進行最佳實踐,所以也很難讓用戶去建立起一個好的實驗文化。 還有一些非常低級的錯誤,比如分組不穩(wěn)定等等。03
Statsig如何推進A/B實驗民主化
現(xiàn)在企業(yè)對數(shù)據(jù)分析方面的需求,可以用下圖中的需求金字塔來描述, Statsig的重點在上面兩層:
第一層是無所不在的實驗。簡單來說就是每個新功能都可以當做實驗來做,用實驗的結果來決定下一步干什么,很少有公司能做到這一點,目前只有比較大的一些科技公司才行,而我們的目標是普及到所有的公司。 第二層就是大家普遍理解的 A/B 實驗,我們產品提供給用戶最基本的這個功能,就是能夠讓用戶全方面的了解這次產品改動所帶來的影響,以及包括長期指標在內的一個整體畫面。 下面兩層是市面上其他產品提供的一些解決方案,我們也在這些方面有一些功能,比較常見,在這里就不展開細講了。推動A/B實驗民主化,最重要的就是實驗的極簡化,Statsig在這方面下了非常大的功夫。從UI到SDK的設計,都盡量做到極簡,下圖展示的就是我們產品里面的一個功能開關。你做任何的新功能,只要一個功能開關,把功能放到這個開關里面,然后寫基本的一個如果從句,就可以把它變成一個實驗。
這個功能開關只要設置到0-100之間的百分比,我們就會自動把這個做成A/B 實驗,給你分析這個功能的存在與否,對用戶行為上面產生的一些影響。只要把功能放到這個開關,就可以看到你所關心的所有指標。不需要數(shù)據(jù)科學家做任何額外的工作,就可以一目了然,看到這個產品或功能產生的效果。
對于稍微復雜一點的場景,也可以把實驗的變量做成參數(shù)。我們的SDK可以讓你在一個參數(shù)上跑不同的實驗,可以同時也可以不同時,這樣顯而易見的好處就是,測一個參數(shù)的不同數(shù)值,不需要再改動代碼,不需要移動端開發(fā)的等待時間,直接在UI界面上改就生效了,就可以直接開始新的實驗。
至于實驗的數(shù)據(jù)收集,不管是從我們的 SDK 直接發(fā)過來,還是通過數(shù)據(jù)采集器或者數(shù)據(jù)倉庫,我們的宗旨就是數(shù)據(jù)存在哪里都可以兼容。而且無論是記錄原始事件,還是預先設計好的計算指標,我們也都可以用。換而言之,數(shù)據(jù)在哪,實驗結果就可以在哪。
逐步揭示數(shù)據(jù)的復雜性(Progressive Disclosure of Complexity),就是希望讓我們的平臺能夠適用于不同崗位、不同背景的用戶,而不僅僅是數(shù)據(jù)科學家。我們的實驗結果面板,基本上都可以看懂。紅色的就是顯著的不好,綠色就是顯著的提升,灰色就是沒有顯著性。這里面數(shù)據(jù)指標含義,也都是顧名思義、一目了然。所以普通的工程師和項目經理也可以通過數(shù)據(jù)面板來讀懂實驗結果。
我們的平臺還支持更多深層次的需求,比如指標的具體計算邏輯,在實驗中某個指標每天的變化等等。還可以從平臺里面導出計算結果的原始數(shù)據(jù),不少用戶都會這樣來驗算顯示數(shù)據(jù)的正確性,或者拿到他們自己的數(shù)據(jù)倉庫里面去做更多的分析。
很多用戶煩惱的問題就是不知道怎么證明一個團隊跑很多實驗,是不是值得的,給公司帶來了怎么樣的業(yè)績。可以試一下我們平臺內置的這個實驗保留功能,可以隨機選擇一小部分用戶,讓他們不參與任何的一個產品實驗。然后會自動計算這一段時間以來你們產品里面所有的實驗,所有的功能產生的總體影響。很多用戶用這個來當作他們整個團隊一段時間的業(yè)績面板。
再來著重介紹下我們企業(yè)工程團隊,我們與其他平臺最大的不同可以總結為四點,這也是我們能夠推動A/B 實驗民主化一個非常重要的因素:
我們團隊有非常豐富的實戰(zhàn)經驗,會對所有的用戶進行實驗基礎、最佳實踐的培訓和答疑。 我們甚至會參與到實驗的設計評審當中,幫客戶去建立一個比較好的實驗體系。 我們會跟客戶一起計劃實驗文化上面想要達到一些目標,并且把這個當成我們自己的目標來評測是否成功。 我們也會負責公司的一些定制化實驗需求,然后進行考量,評估是否可以迭代到我們的標準產品中。最后介紹兩個民主化實驗推行的成功案例:
Rec Room,這是一個 VR 游戲公司。他們現(xiàn)在就是把每個新功能都做在一個功能開關后面,然后把它跑成一個實驗。有一次升級了UX,原本以為會大大增加用戶粘性,結果發(fā)現(xiàn)這個用戶發(fā)消息的指標卻下降了。然后他們仔細看了下界面設計,發(fā)現(xiàn)在新版上面發(fā)消息這個按鈕確實是有點被隱藏起來了,以前是比較明顯的一個按鈕。于是他們把這個按鈕放到了上面,可以看到這個發(fā)消息指標有了顯著的提升。如果他們沒有每一個功能都來做實驗這個習慣的話,是不會發(fā)現(xiàn)這樣一個問題的。 ancestry,這是一個做 DNA 檢測的公司。他們現(xiàn)在也把所有的功能都放在一個功能開關之后,用Statsig把它跑成一個實驗。下面這個圖說明了在用了 Statsig 以后,實驗數(shù)量的變化。現(xiàn)在跑實驗的頻率大概是一個月 50 個,但他們之前用內部的實驗平臺,頻率基本上是一年 50 個。這也證明了我們公司平臺和其他產品的對比優(yōu)勢。今天的分享就到這里,謝謝大家。
▌2023數(shù)據(jù)智能創(chuàng)新與實踐大會
? 時間 :/22 9:00-17:00
地點 :北京朝陽悠唐皇冠假日酒店
購票 :18301441917
會議亮點:
1. 4大體系,專業(yè)結構數(shù)據(jù)智能
2. 16個主題論壇,覆蓋當下熱點與趨勢
3. 70+演講,兼具創(chuàng)新與最佳實踐
4. 1000+專業(yè)觀眾,內行人的技術盛會
點擊下方鏈接即可報名
免責聲明:本文不構成任何商業(yè)建議,投資有風險,選擇需謹慎!本站發(fā)布的圖文一切為分享交流,傳播正能量,此文不保證數(shù)據(jù)的準確性,內容僅供參考
關鍵詞: