當(dāng)新冠疫情來襲時(shí),,塞巴斯蒂安·馬丁正在Lyft公司擔(dān)任博士后研究員。突然之間,,使用Lyft應(yīng)用程序的乘客與司機(jī)的數(shù)量發(fā)生了重大的變化,,公司也試圖迅速因應(yīng),。
Lyft過去一直使用一種算法來匹配司機(jī)與乘客,因此公司以為或許將這個(gè)算法稍做調(diào)整便可以變成有效的新冠疫情方案,。然而事與愿違,,這項(xiàng)工作比預(yù)料的困難許多?!八C明了這套系統(tǒng)的局限性,。”如今是凱洛格學(xué)院運(yùn)營學(xué)助理教授的馬丁說道,。
馬丁解釋,,主要問題在于簡單的算法,例如將距離最近的司機(jī)指派給乘客,,事實(shí)上效果不是那么好,。
于是馬丁開始思考如何能夠改善這種匹配算法,甚至在共乘服務(wù)從新冠疫情中復(fù)蘇之后,。如果算法可以教自己更好地調(diào)度司機(jī)然后做出實(shí)時(shí)調(diào)整會(huì)怎樣呢,?
馬丁和一個(gè)Lyft團(tuán)隊(duì)實(shí)現(xiàn)了這樣的假設(shè)。他們用了一年多的時(shí)間創(chuàng)造出了一個(gè)能夠進(jìn)行“強(qiáng)化學(xué)習(xí)”的算法,,這在科技公司簡直就是永生,,馬丁表示。而設(shè)計(jì)這個(gè)算法雖然困難,,但要說服公司上下去試用一樣很難,。
畢竟,強(qiáng)化學(xué)習(xí)會(huì)要你“讓出一大部分的掌控權(quán),?!瘪R丁說?!耙慌_(tái)可以做決定而不告訴你的機(jī)器,?試想如果它做的決定關(guān)乎你賴以維生的工作呢,?”
然而結(jié)果是值得的:Lyft公司開始賺更多的錢,,司機(jī)有了更多的工作,乘客給出了更多的五星評價(jià),。此外,,他們的項(xiàng)目被提名為2023年弗蘭茲·厄德曼獎(jiǎng)(Franz Edelman Award)的六名決賽者之一,這是分析與運(yùn)營研究領(lǐng)域里最負(fù)盛名的獎(jiǎng)項(xiàng),。如果你在過去一兩年內(nèi)用過Lyft,,那么這個(gè)算法就幫助過你匹配給某個(gè)司機(jī),而你的出行數(shù)據(jù)反過來又幫助改進(jìn)算法,。
在對自學(xué)習(xí)算法越來越憂懼的氛圍下(想想ChatGPT),,Lyft的故事顯示在這些工具中,有些確實(shí)能夠改善每一個(gè)人的生活,馬丁表示,。
“它不總是零和游戲”,,輸與贏不是處于此消彼長的狀態(tài)。他說道,?!俺丝透鼭M意,司機(jī)更忙碌,,平臺(tái)賺錢更多,。基本上是百利而無一害,?!?/p>
為什么最近的并不總是最好的
對大多數(shù)人而言,尤其是下雨天站在街頭等候共乘的我們來說,,派出距離最近的司機(jī)似乎是最符合邏輯的做法,。但實(shí)際上卻不總是如此。
當(dāng)生意繁忙而司機(jī)人手不足時(shí),,問題就出現(xiàn)了,,馬丁解釋道。在這種情況下,,離乘客最近的司機(jī)或許還相當(dāng)遠(yuǎn),。要是派遣這名司機(jī),他就要花很多時(shí)間“開空車”,,讓乘客苦苦等候,,說不定司機(jī)還在途中,乘客就已經(jīng)取消叫車,。還有很關(guān)鍵的一點(diǎn)是這意味著試圖叫車的新乘客會(huì)需要等候更長的時(shí)間,,因?yàn)橛锌盏乃緳C(jī)正在花很多時(shí)間試圖開車到下一個(gè)乘客那里,因此有空載客的司機(jī)越來越少,。
“它像是平臺(tái)的死亡螺旋,。”馬丁說道,。
因此,,理想的解決方案會(huì)是一個(gè)可以預(yù)測接下來幾分鐘情況如何演變的匹配算法。會(huì)有一個(gè)新的,、更近的乘客出現(xiàn)嗎,?某條堵車的道路會(huì)變的通暢而縮短開車時(shí)間嗎?如果司機(jī)去接載某個(gè)乘客,,下車地點(diǎn)的附近是否會(huì)有另一個(gè)乘客,,使得轉(zhuǎn)換到下一個(gè)乘客的效率更高嗎,?
總之,這個(gè)算法要能夠預(yù)測接下來會(huì)發(fā)生什么事情,。馬丁和Lyft的團(tuán)隊(duì)成功地教算法去做這樣的工作,。
他們著重于在任何時(shí)間有空的司機(jī)的“價(jià)值”,這個(gè)價(jià)值是司機(jī)工作當(dāng)天收入的估計(jì)值,。然后,,他們訓(xùn)練算法不間斷地分析實(shí)時(shí)情況,以便算法訓(xùn)練自己預(yù)期接下來最可能發(fā)生什么事情,。
這類似于會(huì)下棋的強(qiáng)化學(xué)習(xí)算法,,馬丁說道。下棋算法接受數(shù)百萬個(gè)實(shí)際棋局的訓(xùn)練,,然后便可以用那些知識(shí)來預(yù)測對手的下一步走法,。
該團(tuán)隊(duì)通過建立實(shí)驗(yàn)時(shí)段和對照時(shí)段來測試他們的算法。在實(shí)驗(yàn)時(shí)段,,Lyft用強(qiáng)化學(xué)習(xí)算法來匹配司機(jī)與乘客,,在對照時(shí)段,則用Lyft的一般算法進(jìn)行匹配,。
在經(jīng)過一年多的調(diào)整改進(jìn)后,,他們找到了一個(gè)在所有重要功能上都勝過舊算法的新算法。它一年為公司多增加相當(dāng)于超過3,000萬美元的收益,,司機(jī)的收入也相應(yīng)提高,。乘客取消叫車的可能性減少了3%,叫車后沒有司機(jī)能夠接單的情況減少了13%,。同時(shí),,乘客的五星評價(jià)數(shù)量也變多。
馬丁說:“使用Lyft的人沒有增加,。這些改善是由于司機(jī)獲得了更好的運(yùn)用,。”
超越數(shù)學(xué)
他們的成功是共乘公司使用強(qiáng)化學(xué)習(xí)的第一個(gè)記載案例,。不過,,設(shè)計(jì)算法不是唯一的困難點(diǎn)。
“比數(shù)學(xué)更重要的,,是如何在公司內(nèi)做這件事情,。”馬丁表示,。
強(qiáng)化學(xué)習(xí)意味著涉及其中的人未必對事情的現(xiàn)況一清二楚。對一家公司而言,,這變得有些棘手,,馬丁說道,。比如,假設(shè)負(fù)責(zé)定價(jià)的團(tuán)隊(duì)想要進(jìn)行自己的實(shí)驗(yàn),,那么他們就希望將所有其他因素保持不變以便了解實(shí)驗(yàn)數(shù)據(jù),。但如果與此同時(shí),一個(gè)匹配算法自行改變,,要知道如何解讀定價(jià)實(shí)驗(yàn)的數(shù)據(jù)就變得很困難,。
“它讓其他許多情況變得錯(cuò)綜復(fù)雜?!瘪R丁說道,。
此外,它使研發(fā)該算法的團(tuán)隊(duì)難以了解如何繼續(xù)創(chuàng)新,?!叭绻藗儗φ诎l(fā)生的事情一無所知,他們?nèi)绾文軌蚶^續(xù)創(chuàng)新,?”馬丁問道,。馬丁目前和一名博士生黃玉笛(音譯)合作,后者正在與Lyft合力研究這個(gè)問題,。
此外,,在Lyft,這個(gè)算法的研發(fā)花費(fèi)了一年多的時(shí)間,?!耙荒陮萍脊臼呛荛L的時(shí)間,兩個(gè)月就已經(jīng)很長了,!在一件效期不長的事情上花一年時(shí)間是非常少見的,。”他說道,。
最終,,該團(tuán)隊(duì)保持士氣,終于說服公司的其余部門讓他們繼續(xù)實(shí)驗(yàn),。他說,,這不涉及高科技策略?!坝玫氖侨魏蔚胤蕉歼m用的相同方式,,也就是去找合適的人商量,取得人家的信任,。組織一個(gè)興致高昂的團(tuán)隊(duì),,然后證明東西有效。在研究領(lǐng)域里,,通常認(rèn)為構(gòu)想本身就已足夠,,但對公司而言,,真正可以帶來成果的是過程?!?/p>
事實(shí)是,,至少在這個(gè)案例上,過程帶來“三贏”的情況,,馬丁對此特別興奮,。
每一次團(tuán)隊(duì)測試修改后的算法時(shí),他們會(huì)看著儀表板上各項(xiàng)重要指標(biāo)的顏色變化,,紅色代表實(shí)驗(yàn)結(jié)果比現(xiàn)況糟,,綠色代表比現(xiàn)況好。
“團(tuán)隊(duì)找到致勝算法的那一天,,儀表板上出現(xiàn)了一整片綠色,。”他說,,“這就是運(yùn)營優(yōu)化真正要做到的事情:找出全綠的東西,。”(財(cái)富中文網(wǎng))