大數據能治愈癌癥嗎?
????特納的父親是一位地球物理學家,,從事石油勘探工作,。特納在成長的過程中,,曾經在美國的得克薩斯州和路易斯安娜州,荷蘭,、蘇格蘭之間來回搬遷,。同事們形容特納是笑面“老精靈”。他的淺棕色頭發(fā)已經開始脫落,,露出了寬大的額頭,,但是他的面相依舊年輕,像個研究生,。不久前的一個早上,,他身穿一件馬球衫,一只肩膀上掛著雙肩背包,,手腕上戴著為各種活動籌集資金的橡膠手鐲,。坐在從前Flatiron位于紐約特里貝卡區(qū)(Tribeca)的一間房“總部”(公司后來搬到了更寬敞的辦公空間)對面的一家咖啡店里,特納一五一十地講述了Flatiron公司的計劃,。他既沒有成功的系列創(chuàng)業(yè)者身上普遍存在的那種張揚,也沒有自認為可以改變世界的創(chuàng)新者身上的專橫之氣,。但是他和在曼哈頓上西區(qū)(Upper West Side)長大的溫伯格都有一種堅定的信念:技術可以給癌癥患者的生活帶來重大的影響,。溫伯格說:“正如你了解到的有關醫(yī)療空間和腫瘤學的情況,如果有一個團隊不恥下問,,愿意提出正當的問題,,它就有助于解決很多問題?!?/p>
????特納首次對癌癥產生興趣是在2009年,。當時,他和親屬在北卡羅來納州度假,,7歲的表弟布倫南·西姆金斯(Brennan Simkins)生病了,。經過一連串的化驗,表弟被確診患上了急性骨髓細胞白血病,,由此開始了多年的折磨,,先是骨髓移植,然后又復發(fā),,再移值,,再復發(fā)。西姆金斯總共經受了四次痛苦的骨髓移值,,還被數次誤診,。他今年12歲,病情自2011年以來一直處于緩解期,。
????表弟痛苦求生的經歷促使特納和溫伯格開始動腦筋,,為患有類似病癥的人們做點什么,。他們討論了開辦一家新公司的創(chuàng)意,起初考慮通過互聯網提供補充性的專業(yè)醫(yī)療建議,。特納(他的橡膠手鐲上刻有西姆金斯的名字)說:“在半年的時間里,,我們把精力都放在了癌癥上?!倍嗽煸L了大約60家癌癥中心,,與專家交談,和醫(yī)生巡訪,,探討可能的商業(yè)創(chuàng)意,。經常與他們同行的,還有克里施納·耶什萬特(Krishna Yeshwant),,他是一名醫(yī)生和谷歌風投公司的合伙人,,專業(yè)從事生命科學投資。
????經過數十次交談,,特納和溫伯格形成了一個新的創(chuàng)意:整理分散在美國各地的腫瘤治療中心檔案里的海量臨床數據,,無論是數字形式還是其他材質的數據,加以編排匯總,,再返回給醫(yī)生,,目的是幫助他們更好地決定怎樣治療病人。
????對于特納和溫伯格這兩位數據狂人來說,,腫瘤學臨床數據的問題既明顯又熟悉,。盡管多年來,醫(yī)學機構一直在努力說服醫(yī)生和醫(yī)院采用電子病歷(簡稱“EMR”),,但是腫瘤學的數據依舊難于查找和使用,。特納說:“EMR的數據太不合格?!币晃徊∪说臄祿赡苡袔资畟€來源:實習醫(yī)師,、腫瘤科醫(yī)生、放射科醫(yī)生,、外科醫(yī)生,、化驗室和病理報告,等等,。即使數字化的數據也存在著技術人員所說的“格式散亂”的問題,。數據庫沒有經過規(guī)整,展示方式因化驗報告和病歷的不同而存在差異,。更糟糕的是,,隱藏的報告里的海量數據有的是手寫的,有的是掃描文件,,有的是從沒有人聽過的錄音,,還有的是由傳真機生成的低分辨率PDF文檔,,結果造成各種數據系統(tǒng)無法兼容,再加上有關個人健康信息的嚴格隱私規(guī)定,,令共享數萬種腫瘤療法變得難上加難,。
????坦白地說,挑戰(zhàn)極為巨大,。
????理論上,,電子病歷應該很容易做這樣的數據匯總和整合。但是想想這樣的情況:假設要測量某一種蛋白質的水平,,比如癌癥病人通常要化驗的白蛋白,,來自于某家癌癥中心的EMR可能會被用30多種格式展示出來。這算是一大挑戰(zhàn),,考慮到癌癥治療中采用的蛋白質和遺傳化驗,、活組織檢查及其他診斷方法超過100種,整理的難度將成倍增長,。再考慮到美國獨立的EMR系統(tǒng)和癌癥中心的數量,,難度又會提高很多倍。想必現在,,你已經理解這個問題的復雜性了,。
????為了解決這一問題,特納和溫伯格花了兩年多的時間建立他們所謂的數據模型,,也就是將海量數據清楚地分門別類的方法。他們很快發(fā)現,,針對所有類型的癌癥來做這項工作實在是太復雜了,。因此,他們與一群醫(yī)生顧問合作,,專注于結腸癌,。利用公開的臨床數據,他們提取了超過350個類別,,包括人口結構,、地點、癌癥發(fā)展期,、疾病的生物學標識以及對療法的反饋,,等等。然后,,他們再對其他類型的癌癥重復這一過程,。
????從EMR中提取數據是一項極度勞動密集型的工作,為了將這一過程自動化,,Flatiron采用了各種計算機技巧,,包括給化驗報告確定價值的匹配算法,。公司還完善了一種叫做“自然語言處理”的技術,讓計算機“閱讀”文件,,并且從中提取數據,。這類系統(tǒng)特別容易出錯,所以Flatiron創(chuàng)造了一種人機混合感知系統(tǒng),,鎖定并糾正錯誤,。其實就是公司聘請了一個由50名護士組成的團隊,手工錄入500名患者的數據,,制作出特納所謂的“培訓模板”,,可以用來發(fā)現自動收集的數據中的錯誤。相關的差異再被反饋回系統(tǒng)中,,幫助完善自動收集程序,。
????Flatiron并不是第一家從事這項工作的組織。去年,,一家非營利專業(yè)機構美國臨床腫瘤學協(xié)會(American Society of Clinical Oncology)公布了CancerLinQ計劃,,打算開發(fā)一種系統(tǒng),利用臨床數據庫來改進療效和加快發(fā)現新藥的速度,。另一家由資深計算機科學家馬蒂·特南鮑姆(Marty Tenenbaum)管理的非營利機構Cancer Commons希望進一步推進腫瘤學臨床數據的標準化,,能夠供所有人免費使用。IBM借助其沃森(Watson)人工智能系統(tǒng),,已經在與紀念斯?。瓌P特琳醫(yī)院(Memorial SloanKettering)等癌癥治療中心合作,篩選數以百萬計的臨床資料數據,、期刊文章以及臨床試驗報告,,自動向醫(yī)生推薦患者的治療方案。
????早期的努力—包括美國國家癌癥研究所(National Cancer Institute)的一項耗資5億美元之巨,、名叫“caBIG”的生物信息學計劃—不是失敗,,就是尚未產生積極的效果。但是,,阿伯內西說,,Flatiron對復雜數據的專注讓她驚嘆。她曾經擔任過CancerLinQ項目顧問委員會主席,,并且參與了其他的臨床腫瘤數據的數字化編纂工作,。她說,特納和溫伯格顯然明白,,“光有技術解決不了這個問題,,這是我決定和他們一起努力的原因”。
????谷歌風投公司的投資不僅提升了Flatiron的信譽,,還讓它有本錢收購為腫瘤醫(yī)學創(chuàng)造EMR服務的Altos Solutions公司,。該公司位于加利福尼亞州山景城(Mountain View),,距離谷歌不遠,收購它讓Flatiron擁有了更大的用戶基礎,,加強了與醫(yī)生的聯系,。目前,大約有210家癌癥醫(yī)療中心使用Flatiron的系統(tǒng),,每年共收治大約30萬名新患者,。大多數客戶是社區(qū)癌癥診所,但是也有一些大型學術機構,,比如耶魯紐黑文醫(yī)院(Yale-New Haven)的斯米洛癌癥診所(Smilow Cancer Hospital),、賓夕法尼亞大學(University of Pennsylvania)的艾布拉姆森癌癥中心(Abramson Cancer Center)。谷歌表示,,給Flatiron投資的原因之一,,是想讓一個前景光明的領域快點出成果。谷歌風投公司的主管比爾·馬里斯(Bill Maris)說:“我們努力不讓電子醫(yī)療紀錄還要再過一代人的時間才能得到廣泛應用,。我希望,,我們能省去人們的很多麻煩和痛苦?!?/p>
????橫穿美國,,前往位于長島(Long Island)林木蔥蘢的郊區(qū)杰斐遜港(Port Jefferson)的一座不起眼的低板辦公樓,這里的杰弗里·瓦奇爾卡(Jeffrey Vacirca)醫(yī)生相信Flatiron的愿景,。瓦奇爾卡說,,他已經使用了數年Altos的EMR系統(tǒng),幫助他改進了對患者的治療,,但是這個系統(tǒng)還有很大的潛力沒有發(fā)揮出來,。他說:“數據非常多,但是沒有人能整理它,,沒人知道其中的含義。我認為,,Flatiron的重要性就在這里,。它提取所有的詳細數據和數百萬名患者的治療結果,加以評估和歸類,,尋找真正有效的方法,。”瓦奇爾卡醫(yī)生將Flatiron系統(tǒng)稱為“癌癥治療的基礎設施”,。他說,,未來有了它,他就能發(fā)現,,他對特定癌癥的治療方法是否在哪些方面已經落后并加以調整,,還能確定是否有更多的病人符合臨床試驗的資格,。他還說:“如果積累患者的速度增加五倍,想象一下,,你能讓多少藥物通過規(guī)定的流程,?”
????該領域的一些領軍人物仍然對大數據的長期抗癌前景表示懷疑。在不久前發(fā)表在《細胞》雜志(Cell)上的一篇論文中,,開創(chuàng)性研究者羅伯特·溫伯格(Robert Weinberg)指出了大數據和癌癥之間不穩(wěn)定的關系,。他與扎克·溫伯格沒有親戚關系,是麻省理工學院懷特黑德生物醫(yī)學研究所(MIT's Whitehead Institute for Biomedical Research)的創(chuàng)始人之一,。他強調,,從腫瘤里的蛋白質間的相互作用到基因突變,方方面面的數據膨脹已經超過了研究人員的解讀能力,。他后來在一次采訪中對《財富》雜志說:“有人對生物信息學太著迷,,以為只要做一下數據匯總,就可以獲得從前無法得到的高質量的見解,。對我來說,,這一點并不明顯?!?/p>
????羅伯特·溫伯格還說,,即便可以利用數據來提高某些治療方案的療效,其改進的程度也并非大到足以讓醫(yī)生改變他們的療法,。他說:“有很多大膽的嘗試和樂觀的聲明,。相比于已經付出的努力,實際得到的經驗很少,?!?/p>
????斯坦福大學的一位醫(yī)學健康研究和政策教授約翰·約安尼季斯(John Ioannidis)給出的評價要高一些,但是也有限,。他認為,,如果有能力通過一個集中的系統(tǒng)將患者的病歷與療法進行匹配,有助于減少小診所與大醫(yī)院在癌癥治療方法上的巨大差異,。但是除了高度受控的臨床試驗,,依靠其他數據能否實現重大進步,約安尼季斯心存疑問,。他說:“我們能從這個沒有試驗設計的數據大集合中學到多少東西,,是個公開的疑問?!?/p>
????特納和扎克·溫伯格并不期望能迅速打消別人的疑慮,。但是他們和很多客戶(Flatiron的客戶數量還在不斷增長)都相信,他們的“智能數據”將給癌癥患者帶來更佳的治療。阿伯內西說,,它首先可以消除社區(qū)診所和醫(yī)術通常更高的頂級教學醫(yī)院之間的差距,。與此同時,聯合創(chuàng)始人溫伯格說,,Flatiron從事的是長期抗癌斗爭:“我們是一家只有兩年歷史,,但有著雄心勃勃的龐大計劃的新創(chuàng)企業(yè)。我們已經來了個開門紅,,但歸根到底,,這是一個需要花數十年才能解決的問題?!保ㄘ敻恢形木W)
????譯者:古正