火山引擎DataTester:AB實驗平臺未來演進趨勢是怎樣的?
(原標題:火山引擎DataTester:AB實驗平臺未來演進趨勢是怎樣的?)
近日,第四屆“數據智能創新與實踐人工智能大會”在北京舉辦。火山引擎DataTester數據科學家就“傳統視角下的AB實驗與互聯網實驗平臺演進”這一話題作了分享,從宏觀層面介紹了AB實驗平臺的發展狀態,及未來演進趨勢。
互聯網AB實驗平臺期望解決的問題是:通過結果數據度量業務方案收益,並做出最優決策。但由於AB實驗結果的合理性保障,是在假設隨機及滿足SUTVA假設兩個點的基礎上存在的,因此當前的AB試驗實驗平臺亟待解決的問題,絕大部分都與二者有關。
目前互聯網AB實驗平臺的建設,圍繞分流能力、數據追蹤與計算能力、統計分析與結果可視化能力以及標準實驗流程4塊核心能力展開。大多數互聯網公司都有自建的實驗平臺,但成熟度參差不齊。其中,火山引擎DataTester完善度相對較高。在C端場景下,火山引擎DataTester SUTVA假設滿足較好,實驗能力發展相對成熟,可滿足80%以上C端實驗需求,且額外投入的人力相對較少。
但在社交、直播等違背SUTVA假設的場景下,互聯網公司雖有嘗試,但都未建成標準化能力。現階段上述場景進行AB實驗仍需要投入大量人力,“如何實現隨機化”和“配套通用統計分析方法”成爲實驗平臺發展的痛點。與此同時,現階段的實驗平臺在易用性方面,如何降低使用成本和提升效率仍需提升。
DoE是Design of Experiment 的縮寫,旨在描述在假設反應變化的條件下,信息變化的任何任務的設計。DoE可以分爲單因素實驗和多因素實驗,有4大基本原則:對照原則、隨機化原則、重複性原則以及均衡性原則。而DoE的4大基本原則可以分別對應到互聯網實驗的“對照組”“流量分層 hash”“多天觀測、擴流”以及“SRM問題”。
在DoE的啓示下,可以分析出AB實驗平臺可能的六個演進方向:
1. C端場景實驗深度發展:從分流服務、實驗結果精度以及實驗分析縱橫發展三個方面分別演進。
2. 增加正交分層:完善實驗平臺正交性,實驗正交的作用是兩個實驗沒有相互影響時,可以在各個兩個實驗層獨立進行,獨立評估效果。
3. 健全實驗分析能力:完善平臺數據歸因解讀能力,同時發展平臺正態分佈外分析能力。
4. 實驗工程成本優化:採用正交設計框架,並且建設標準數據源。
5. 拓展實驗能力邊界:減少流量場及業務之間的相互影響。
6. 完善非標場景推進準因果實驗方法:平臺非 C 端實驗類型都不同程度具備業務系統的侵入性,平臺建設難度陡增。目前此方面優化在抖音 & 火山引擎,已有一定的嘗試和基礎建設。
會上,火山引擎的數據科學家也介紹了DataTester。據瞭解,火山引擎DataTester源自字節跳動長期沉澱,截至2023年6月,字節跳動已通過DataTester累計做過240萬餘次AB實驗,日新增實驗4000餘個,同時運行實驗5萬餘個。
目前,DataTester服務了包括美的、得到、凱叔講故事等在內的上百家企業,爲業務的用戶增長、轉化、產品迭代、運營活動等各個環節提供科學的決策依據,將成熟的“數據驅動增長”經驗賦能給各行業。