打敗新冠病毒要借力AI與大數據
新型冠狀病毒肺炎(COVID-19)源于一種與嚴重急性呼吸道癥候群(SARS)和普通感冒有關的冠狀病毒。結合大數據(big data)和預測分析,以及人工智能(AI)和各種熱傳感器,可望有效控制這種傳染病的疫情擴散,從而使其致死病例數降至最低。
由于目前對于這種病毒的檢測能量有限,經常無法確定究竟有多少受到感染的病例數,使得這種病毒的真正危險性仍令人存疑。數據分析技術對于支持流行病學專家具有決定性的貢獻。
數據分析就和數學一樣,扮演著基本的作用。如同過去幾年一樣,數據科學先驅對于世界的影響深遠,在疾病擴散之際,利用數據和分析推動重大改變與進展。從歷史發展軌跡來看,數據分析的最早應用之一是在1854年倫敦寬街霍亂爆發(1854 Broad Street cholera outbreak)事件。第一批數據導向的流行病學家之一約翰·斯諾(John Snow)對于倫敦的致死案進行地理空間分析,從而隔離了疾病的來源。根據John Snow的分析,英國當局才能精準地采取防疫措施,迅速掌握傳染病的擴散。
如何評估數據?
透過數據分析系統執行各種模型,已經證實能夠大致上評估趨勢的發展。例如最常見的「易感-感染-康復」(Susceptible-Infective-Recovered;SIR)模型,這種流行病學模型用于計算「在一個存在具傳染力病例的密閉空間中,被感染病例隨著時間逐漸增加的理論數」。該模型使用耦合方程式分析易感染人數S(t)、被感染人數I(t)以及康復人數R(t)。最簡單的SIR模型之一是Kermack-McKendrick模型,這種流行病模型也被認為是許多其他同類分析模型的基礎,其中,我發現Ettore Mariotti的分析最有意思。
首先要有一個島嶼,即人們無法自由進出的系統。在某個特定時間下,每個人可能存在以下某種狀態之一:「易感染」、「被感染」和「康復」,因為從未患此病的人(S)很可能發病并在某個時間被感染(I),然后康復(R)。以CoVID-19而言,更適于為此SIR模型中增加一項「已暴露」(Exposed)狀態,這包括了帶有病毒但尚未感染確診者(無癥狀帶原者)——SEIR模型。
該SEIR模型考慮了兩項因素:病毒的動態以及個體之間的互動。后者極其復雜,因而需要采用數據分析技術。透過這些模型與技術,讓我們可以定義R0參數,用于表示被每一位感染者可能傳染的人數。
例如,假設某個人A發病了,而系統中的R0 = 2,這表示A將會傳染給2個人。這2個人分別傳染給4個人,而這4個人將會分別再傳染給2個人(因此4 x 2 = 8),依此類推。這突顯了疾病是以乘法而非累加方式快速擴散。R0可以發生如圖2所示的3種基本情況。
關閉學校、體育館等,減少了人們的社交互動,因而降低了R0。醫療系統是有限的,因此,將此參數降低到低于1極其重要。如果R0 > 1,那么疾病就會傳播開來;唯有當R0 < 1時,才能讓疾病消失。因此,為了減少R0,我們可以合理地期望政府采取更嚴格的政策來限制人們的行動性。
值得注意的是,R0衡量的是疾病的潛在傳播途徑,而非疾病傳播的速度。以流感病毒的普遍性來看,其R0僅為1.3。R0值過高是引發群眾擔憂的原因,而不是引起恐慌的原因。
R0是平均值,因此可能受到超級傳播者事件等因素影響。超級傳播者是指一個被感染者傳染給很多人。在SARS和MERS流行期間以及目前的Covid-19大流行期間,發生了多起與超級傳播者有關的事件。這一類事件并不一定是壞兆頭,因為它們可能顯示持續讓疫情流行的人數減少了。而且超級傳播者可能也更易于掌握和遏止,因為他們的癥狀可能相當嚴重。
簡言之,R0是持續變動中的參數。追蹤每一個確診案例以及疾病的傳播極其困難,因此,R0的估算既復雜又具挑戰性。其估算值經常隨著新數據出現而改變。
那么,哪些技術解決方案能夠減緩或終止Covid-19的傳播并有效控制R0?當然,利用最新的AI技術結合手機GPS移動的數據,可以建立分析模型,用于預測哪些小區更有可能發生未來感染狀況或哪些小區需要緊急采取消毒等行動。
大數據、AI與傳感器
以傳染病而言,臨床數據在質和一致性方面的變動可能較大,甚至包括出現假陽性患者。大數據和AI可用于檢查是否達到隔離要求,而機器學習則可用于藥物研究。這些都是新數字技術為緩解冠狀病毒緊急情況而發展出來的解決方案,像是許多亞洲國家,還采用數字技術成功實施各種防疫措施。
配備智能掃描儀和相機系統的無人機可用于檢測那些不遵守隔離措施的民眾,還可以量測人們的體溫。例如中國大陸和臺灣使用智慧相機攔截未戴口罩者,同時執行實時熱感應以偵測是否有發燒的情況。
例如,中國AI公司SenseTime開發了一款即使戴著口罩也能掃描人臉的平臺,而阿里巴巴(Alibaba)則開發了基于AI的新型冠狀病毒診斷系統。SenseTime的非接觸式溫度檢測軟件已經實施于北京、上海和深圳的地鐵站、學校和公共中心。同時,阿里巴巴開發基于AI的Covid-19診斷系統透過計算機斷層掃描(即CT掃描)檢測是否感染新型冠狀病毒,據稱準確率高達96%。
Graphen與美國哥倫比亞大學(Columbia University)合作,嘗試定義每個病毒基因定序的典型形式,并找出其變體。它采用仿真人腦功能的Ardi AI平臺,儲存這些變異的數據并使以可視化呈現。在圖3中,每個紅點代表一個病毒,綠點則代表一組具有相同的基因組序的病毒。點選紅點還可查看病毒的信息,包括位置、性別與年齡等。
大數據是控制疫情的另一種有效工具。在緊急期間,它已被廣泛用于改善監控系統,以繪制病毒傳播圖。
大數據的擷取和處理,需要設計用于收集和分析的新方法和新技術。例如以下四種大數據分析類型或方法:
- 描述性分析:發生了什么?描述業務流程或計劃的現在與過去情況,以綜合和視圖方式呈現活動的績效指標;
- 預測性分析:將發生什么?即使用回歸分析和預測模型等數學技術,協助了解未來可能發生事件的資料分析工具;
- 規范性分析:需要做什么?用于確定有效的策略和營運解決方案;
- 自動化分析:根據執行分析的結果自動執行所需的操作與行動的工具。
阿里巴巴還開發了Alipay Health Code行應用程序(App),利用中國醫療保健系統提供的大數據,指示誰可以或被限制進出公共空間。
多倫多新創公司BlueDot采用AI建構的平臺,開發可自動監控傳染病擴散與預測的智能系統。在SARS傳播期間,BlueDot平臺已經取得了具體成效。2019年12月,BlueDot就曾經針對這種冠狀病毒癥狀的嚴重性提出警告,如今也證實了其準確性。在BlueDot使用的工具中,還有一些采用自然語言處理(NLP)技術,可用于處理人們的語言及其表達方式。
美國生物科技公司Insilico Medicine同樣致力于以AI預防疾病。該公司正開發下一代AI和深度學習途徑,并將其應用于藥物探索與開發過程中的每一步驟。Insilico Medicine目前開發的新技術,未來將可用于建議醫師如何對抗冠狀病毒分子的信息。在最近的分子分析后,Insilico Medicine的系統能夠針對如何有效對抗冠狀病毒提供反饋信息。該新創公司現正開發可為疫苗開發項目提供相關信息的數據庫。
WeBank研究人員則采用衛星分析技術,確認煉鋼廠中的熱點所在,為產業的復蘇提供了重要信息。
透過分析GPS衛星數據,還可以確定哪些人正在通勤中。軟件可用于計算每座城市中的通勤人數,并比較2019年與2020年同一日期的通勤人數。無論是2019還是2020年,在中國農歷新年期間的通勤人數都大幅減少,但相較于2019年,2020年假期后上班人數并未恢復。隨著疫情狀況逐步受到控制,WeBank研究人員還計算出,截至今年3月10日,中國約有75%的員工已經返回工作崗位。根據這些曲線預測,研究人員的結論是,除了武漢之外,大多數的中國工人將在3月底恢復正常工作。此外,研究人員并預期今年第一季的經濟成長將達到36%。
如今,全球各地的科學家和研究人員也在設法克服COVID-19的挑戰,各種新技術正成為其有利的后盾。成功通過此次緊急狀況考驗的技術與解決方案,可望成為日后的產業標準
- 上一篇:額溫槍or耳溫槍,為何能準確測量你的體溫嗎? 2020/3/20
- 下一篇:嗅覺靈敏的芯片能“聞出”氣味?WHAT? 2020/3/20