工程師老爸育兒經:我如何使用「A/B測試」來養雙胞胎

工程師老爸育兒經:我如何使用「A/B測試」來養雙胞胎
Photo Credit: Tyler Lund

我們想讓你知道的是

我決定用這個方法來測試孩子,看我們是否可以提高小朋友的睡眠時間,這對任何有十周大嬰兒的家庭來說頗為重要,特別是有雙胞胎的家庭。

文:Tyler Lund(Audible軟體研發工程師)
翻譯:Wendy Chang

「我不知道我們該怎麼做才能讓他們多睡。」我太太提出這個簡單的想法,甚至還稱不上是個問題,卻成了我的挑戰,工程師的腦袋就把它當作一個需要解決的問題。當一個軟體工程師遇到問題,就要想辦法來測試並解決它。幸運的是,我知道有個系統可以完美地來測試我的想法,而且是在能夠控制、可以衡量結果的狀況下,再加上我生的是雙胞胎,這個測試方法更有用了,一起來看看我的A/B測試(A/B testing)!

A/B測試用於所有的網站,你每天可能遇到它幾十次、甚至幾百次,但完全不會注意到,所有的科技大公司都使用它做為測試的工具,了解某些點子的成效並且衡量。

舉例來說Google曾嘗試了多達41種各種深淺不同的藍色,來作為搜尋結果呈現的顏色,據說設計師無法決定要使用哪兩個藍色,所以他們測了41種,來看看最後哪個結果會吸引比較多使用者點擊搜尋結果。

Facebook則不斷在動態消息裡測試使用者體驗;Amazon甚至常常更動購買按鈕還有購物車的版面配置,如果你曾經試著從一台全新的電腦登入,或是看到朋友瀏覽同樣的網站,可能會注意到他們的網頁呈現和你的有些微的不同。

A/B測試是用來測一個或多個方法,或是針對控制組或現況做實驗。測量的標準通常是根據一個使用者的行為,比如說相較於控制組的點擊率。以Google的案例來說,他們可能會針對不同色調去測試不同使用者的點擊可能性,經過一段時間後,大約是一至兩周,點擊率較好的結果就會被採用,然後又變成新的控制變因。

會讓這個測試變得很複雜的情況,大部分是一次有很多個測試同時進行,或是說使用者的比例並沒有平均地分配,這需要高度的統計學知識才能達成,或是強大的測試工具來處理。在Audible跟Amazon,我們總是在測試使用者經驗,這是知道使用者行為的最好方式,因為使用者做的事情跟他們說的事情會有些微不同。

1-tOASdo-x8sIKfpvOy57PjQ

我決定用這個方法來測試孩子,看我們是否可以提高小朋友的睡眠時間,這對任何有十周大嬰兒的家庭來說頗為重要,特別是有雙胞胎的家庭。把一個孩子當作操作變因,另外一個就是控制變因,先不要去管有沒有人會用變因來形容生活周圍的人,我只是要來測試幾個關於睡覺長短的假設,跟控制變因來對照。

在任何實驗中,精確的測量還有數據追蹤都非常重要,通常,一個成功的指標選擇是因為可以取得其相關數據,或是可測量結果,你不會想要測試一個東西的時間,比改變測試或是測試結果的時間還要長。幸運的是測量睡眠並沒有很難,我跟我太太只要在孩子半夜醒來的時候記錄下來就好,其實這正是從我們出生的那天起,醫院護士就在做的,我們已經記了好幾本筆記本,但還蠻容易追蹤的,我們甚至還把資料輸進電腦的表格裡,可以更直觀地看到結果。

1-npDioB-HZr3ffdI5uZRJeQ

首先我們測試的是,提高睡前餵奶的量,過去只餵四盎司,我們試了五盎司、甚至六盎司,為了不要有偏差,兩個孩子都交互著當操作變因,當一個被餵得比較多的時候,另一個就維持喝四盎司的量。結果是:尚無定論。

無論如何兩個孩子的睡眠時間似乎都有拉長,他們兩個幾乎都睡了差不多長的時間。有一個晚上是多餵了一點奶而睡眠時間是5.5個小時,但是只有一個數據是不足以成為一個定論。另一個很難進行這個測試的原因是,只要餵超過五盎司,小朋友很有可能在幾分鐘之後就吐奶。

下一個是各親子部落格流傳的小秘方,同時在辦公室的媽咪/爸爸之間相互傳承——肥仔水(gripe water),好吧,也許它不是什麼秘密,但我們花了一段時間測試,據說這種混合草藥和香料的方子可以一夜之間解決脹氣問題,從而讓寶寶睡得更久。經過測試了一周之後,我們發現它真的可以解決食物逆流、嘔奶的問題,打嗝跟放屁似乎都有減少,雖然我們沒有追蹤發生的時間。睡眠的長度並沒有太大的變化,我們確實看到平均小幅增加,大約20至30分鐘,但同樣這可能是由於寶寶年紀在增加。

在肥仔水成為新的控制變因後,我們在寶寶睡覺之前,再試著多餵一次奶,寶寶們自動開始等著多喝一次,而我們同時也試著要防止這樣的事,然而,這似乎是水到渠成測試的機會,所以我們還是嘗試了。許多寶寶在睡覺之前會想要多喝幾次奶,每次間隔的時間都很短,我們這次測試是間隔1.5到2個小時,跟正常的3個小時做對比,而餵的量是四盎司,對比他們白天喝四到五盎司的量,有時候他們會拒絕喝超過三盎司。

在所有的測試中,這個方式似乎成效最佳,最後得出來的結果是最多多睡一個小時,雖然還沒有說持續好幾天,但足以影響睡眠模式了。從A/B測試可以學到要改變是需要一點時間,因為人正在找尋新的因應方式並調整,抓到調整時間的結果和調整後的結果都一樣重要。Apple最有名的就是在發表新品時忽視適應期的時間,尤其是Apple的地圖服務。

最後我們試的是讓寶寶們在白天盡量維持清醒,我們的假設是,這樣他們晚上會更累,就會睡得更久。這也許是真的,我們後來觀察到睡眠時間有微幅地增加,但我們沒有算入因為要讓他們不睡所帶來的壓力還有疲憊感。也甚至要花更久的時間來安撫他們入睡,因為他們已經太累了,這次的測試教訓是:不要為了想要增加某個數字,就想要犧牲其他的。