大數據助力疫情溯源與監測

  總書記指出,要運用大數據等手段加強疫情的溯源和監測,這是對大數據作用的肯定,也是對互聯網界的一個要求。

  手機已經成為另一張“身份證”

  現在手機已經成為我們個人的另一張身份證。我們在2018年移動通訊普及率是112%,而全球是106%,獨立移動通訊用戶的普及率,也就是說扣除了一人多號,我們是82%,接近發達國家的水平,移動互聯網的普及率高于全球的平均水平??梢哉f,我們國家有獨立活動能力的人群幾乎都有手機,而且中國實行手機用戶的實名制,從手機用戶就可以識別持有人的身份。

  手機可以關聯持有人的位置

  一般手機在待機的時候,用戶會從一個小區移動到另一個小區,這個時候手機要不斷接收基站發出的測量信號。讀取測量信號,可以說選擇新的小區,在非待機的時候實際上就是切換了。因為用戶可能是在移動的,而蜂窩半徑又比較密,因此,更新的時間要比較快。

  目前的更新是秒級,可以說具有實時性。當然手機是根據什么定位呢?主要是利用基站,有幾種方法,可以基站定位。定位精度如果說用比較好的方法,定位精度可以數十米,一般目前可能是一兩百米,5G基站更密,定位精度就更高。

  全球導航衛星+數字地圖可提升定位精度

  當然,除了基站定位以外,我們用全球導航衛星和數字地圖都可以定位?,F在的智能手機比例已經很高了,能夠百分之八九十,所以智能手機都裝了全球導航衛星的接收的能力。定位的精度一般數十米,當然它更好地可以做到米級,但是室內是做不到的。另外,數字地圖公司有它的一些方法來掃描這個街道,因此它的定位甚至可以到每一棟樓。

  一般來講,手機用戶如果下載了這種數字地圖的APP,而且開機并啟用了定位功能,它就會變化新的位置,會發送信息給GPS。所以,能知道你所在的位置。當然,它的定位精度比基站的方法要好得多。

  但是,只限于裝有數字地圖APP的用戶,我們有個比較知名的數字地圖公司,目前它現有用戶數是7個億(下載),占全國移動用戶還不到一半,只有43%,所以說覆蓋面是有限的。但是,盡管電信的運營商覆蓋定位用戶更多、更全面,但是精度并不一定比數字地圖公司更好。

  這里邊,給出的是一個數字地圖公司的大數據地圖,它可以溯源,武漢春節前將近500萬人流到什么地方去,這里可以給出一個很好的走勢。

  有了這些數據,怎么來決定疫情的傳播?國際上通常用一種叫C-SEIR的模型。它把人群分成什么呢?I就是已經感染病的人群,E是密切接觸者,S目前是健康的,R是最后運算結果是康復的,它有一套規律。

  中國的學者提出了一種改進,增加了P和Q,P是疑似人群,Q是確診人群?,F在我們國家也是分四類,從中可以計算出傳播的模型。

  我們可以看到,這是從1月份到2月9日,全國的疫情傳播模型??梢钥吹絺鞑サ臓顩r,目前,中國的修正模型,考慮了政府的采取措施和大眾的對于防疫的意識,所有上面的模型,還是基于因為城市里頭感染者和沒感染者,包括所有的加起來是一個常數,也就是說不考慮城市里面有流入的和流出的。

  實際上利用電信大數據,可以把流入流出的一部分人考慮進去,可以使得這個模型更精確。

  大數據可視化——“疫情方寸間”

  當然,有了模型,很多大數據還需要有一種可視化的表現。這里給出一種可視化的方式,每個方框表示每個省。比如說右下角的方框--湖北,它的背景顏色就比其他的深,也就是感染人群更多。

  其中綠色是治愈的,黑色是死亡的,可以看到治愈的比例也比其他省要少,死亡的比例反而還比較高??梢钥吹?,這是一種直觀的看法。

  我們有了這種行為的大數據,可以精確到每一個小區。左圖是百度,以上海為例,右圖是騰訊,以深圳為例,它都可以以一種APP的方式來發布,老百姓可以用,下載可以查詢,甚至可以查到哪個小區的具體位置,距離你所在地方有多遠,里面有多少個是確診病例。

  實際上,其中一家公司說,已經覆蓋了200多個城市了?,F在開始復工了,這是2月10日,節后第一個復工日,人流的增加也為疫情的防控帶來了一些新的壓力。這里面給出了疫情期間城市的熱力圖,我們可以細化到每個縣,可以讓我們知道什么地方人最多,盡量避免人口的密集。

  這里面是一個確診患者的行程追蹤。從底下看是1月21日他離開武漢,乘坐了高鐵,到達一個地方,21日又換了一個高鐵,到另外一個地方,一直到24日,他發現有癥狀了,當然他行程還得繼續,27日又到了一個地方,30日又到了下一個地方,31日確診了。

  根據這種確診患者的行程追溯,我們可以很好地知道他到過哪里?,F在有些地方是依靠流行病學的調查,去問這個患者,你什么時間到什么地方,一個是他記不準,另一個說不準,利用手機的大數據,可以很好的知道。

  同時,通過計費數據,也可以知道他平時比較密切的聯系人,也可以知道有沒有可能是密切接觸者。

  基于衛建委+交通+工信數據查找密切接觸者

  我們把衛健委的數據、交通系統的數據、工信部門的數據組合起來,可以找出密切接觸者。比如說,衛健委可以知道確診患者的姓名、身份證號,然后通過交通部,可以給出這個患者半個多月來乘坐過的航班車次,衛健委讓工信部提出,這些人的手機號是什么?根據手機號,地方政府可以找到密切接觸者,當然這是從官方的查找。

  實際上平臺也可以開放,同行者可以在同行查詢平臺查出我所坐的航班和車次,車上有沒有確診患者,可以很好地發現密切接觸者。

  電信疫情大數據平臺用于個人自證無疫區行程

  目前,還是返程復工,還有節后回家的時間,有些人隱瞞了自己來自疫區、到過疫區的經歷,回到家、回到村子里頭還到處走,雖然看上去沒有癥狀,但是可能已經感染了,并且是有很強的傳染性,導致了疫情擴散,導致幾十人甚至上百人被隔離,或者已經被感染。

  通過手機定位,是可以知道這個用戶是不是來自疫區,還是到過疫區,但是這種形式不能直接提供給街道、小區和鄉鎮,因為隱私的保護原因,如果我們開放給他們,很可能不一定是查患者,說不定用作其他,所以不能這樣做。

  現在怎么辦呢?我們知道,從《個人信息保護法》得知,本人是可以查詢自己信息的。所以,工信部現在統籌三個運營商,提供了用戶行程的服務。用戶提出來,你可以查詢你本人,在14天前到過什么地方,當時工信部提出是按停留4個小時以上,這個時候,你有清單,就可以上當地的用工單位、街道、小區來證明你自己沒有到過疫區,這就是自證。

  目前,這件事情已經開放查詢上千萬人次了,當然現在面臨返程復工,有些地方甚至擴大化,把一些疫情確診人數比較多的省要求全部都不許人家回來。這實際上嚴控不能失控,硬核但不能亂來,所以實際上,返程的一些檢查是必要的,當然就會對旅途帶來一些影響,這里比如說以高德地圖為例,他給出一個人從濟南要到上海,原圖的經過城市的疫情情況列出來了,上海市對進上海的人有什么管理及要求也列出來了,包括高速路入口、出口的車流量,以及大概這個過程中間有很多檢查站,路程需要多長時間也列出,返程直通車也方便大家,如果返程的人知道,我路上大概要多長時間,要做好什么準備。

  電力大數據在疫情防控中的作用

  除了電信和互聯網公司的大數據以外,事實上還有其他大數據。我這里講的是電力大數據,一個家里邊是否有人在家,是否有人回來,根據用電的情況是能區別出來。所以,國網電力杭州公司,作為1000多萬條數據收集,開發出大數據分析的算法,能夠很好的知道,這里邊有沒有居家隔離的人,有沒有獨居的人,社區可以根據這個來判斷是不是做針對性地服務。

  利用電力的用電狀況,我們也可以知道復工狀況,根據用電量,廣東在2月14日已經是正常時候用電量的60%,也就是復工率差不多60%。浙江2月14日的復工率不到1/3,尤其是溫州,屬于疫情比較嚴重的地方,復工率只有12%。這些是可以比較宏觀地掌握了復工的趨勢。

  醫療大數據助力智能診斷

  大數據不僅用于追蹤人群等等,還可以幫助智能診斷。從現在統計看,新冠肺炎患者的核酸檢測,目前只有30%是陽性,盡管它是患病的人,確診了,但是只有30%。原因是什么?取樣是從口腔部來取樣的,實際上這里邊感染不算嚴重,肺部才嚴重。

  因此,判斷還要根據CT,一個肺掃描出幾百張這樣CT照片,一張張看是比較難的,利用大數據,我們可以用人工智能的技術,可以把它還原回一個3D三維的肺,比較容易看有沒有纖維化,有沒有肺變形、毛玻璃狀。

  同時,現在還可以根據醫療的經驗,開發出感染肺炎患者的CT影像大數據分析評價系統,不一定要醫生看了,這些CT照片可以放系統上,進行分析,能幫助醫生進行病灶分析。過去醫生可能要看5個多小時,現在幾分鐘就可以,因為它把幾百張變成一張了。

  大數據在新冠病毒肺炎新藥與疫苗研制中的作用

  大數據本身在新冠肺炎新藥研制和疫苗研制里,也會發揮作用。新藥研制總體上過程是比較長的,新藥的篩選、活性的評價、藥理的分析、安全評價等等,到臨床還要做很多工作。

  目前是沒有特效藥的,所以,另外一種途徑是老藥新用,把一些過去抗艾滋病、流感的藥物重新檢驗一下,看它有沒有可能對新冠肺炎有效。我們知道,已經上市的和臨床實驗的藥有近萬種,一種一種來篩選時間是很長的,而且現在去積累數據,已經不容易了,如果原來有積累更多的數據更好。

  這里舉一個例子,清華的藥學院,它的人工智能藥物研發大數據平臺,收集了以前冠狀病毒研究里邊涉及的900多個小分子的實驗信息,利用這個就有可能加快藥物的篩選。

  大數據優化醫療緊缺物資的生產組織與調度

  大數據也在優化醫療緊缺物資的生產組織和調度上有很好的用處。海爾開發了疫情醫療物資信息共享資源匯聚平臺,一方面連接醫院,780多家醫院;另一方面聯系需求的社區,以及能生產這些醫療物資的企業500多家,它發布了這個需求5000多萬件,另外,它的采購不限于中國,還到全球,所以實現了抗疫資源的精準對接。湖北有一個醫療物資需求平臺,是由志愿者開發的,它爬取網上的數據,按城市醫院類別分類,登出需求、運輸和聯系方式。

  四川也開發了防控應急物資的管理系統,把物資的入庫、調度、審批、庫存、日常消耗需求匯總在一起,提高了應急物資配置的調度效率,當然這些都是從網上獲取數據。

  現在難題是什么?我們的衛健委,并沒有得到所有醫院的床位數據,因為過去是不聯網的,這樣導致我們不能實時地知道什么床位是有富余的,什么可以調度出來。所以這也說明,我們過去這方面的工作都不足。

  相關數據的融合將能得到更有價值的結果

  另外,數據需要融合,現在不少小區實行了封閉管理,現在已經有上線的專項排查APP,不用手登記,用手機一掃身份證,報上體溫,數據自動聯網。還可以記錄下來現在到藥店購買發燒藥、咳嗽藥的人的實名數據,因為有些人已經有病了,沒到醫院自己買藥,實際上是有很大風險的。我們還可以將公交卡、網約車的數據結合起來,這次疫情也是考驗我們,聯防聯控協調調度的機制,包括跨部門大數據的協調能力。

  大數據協力企業復工

  現在是復工了,很多企業需要工人,但是人員流動密集又有風險,因此企業面臨兩難。杭州采用一種綠紅黃三色的健康碼的管理方式,區別用戶是不是接觸過確診患者、疑似患者,是不是來自重點疫區,以及隔離長短,可以分別對待。但是,你會擔心填報是不是真實?這里邊健康碼是要聯系到云端的,跟網上掌握的數據匹配,大數據能查出不實的信息。

  大數據與隱私保護

  大數據是雙刃劍,怎么做到隱私保護。實際上,電信的大數據只考慮了信令和計費,不含通信的內容,但是盡管這樣,患者的行為數據也是敏感的。電信大數據目前只限于疫情的管控,疫情結束以后,不會再保留有關的原始數據,現在特別要注意的是,除了國務院衛生健康部門依法授權的機構以外,其他任何單位和個人,不得以疫情防控,治病防治為由,未經被收集者同意收集用戶的個人信息。這里就難了,又要保護個人信息,又要利用大數據聯防聯控,怎么辦呢?有一種方法,就是原始數據可用不可見。

  什么叫可用不可見?有關部委,衛健委、交通部、公安部、工信部等可以上報數據的樣本,幫助疫情大數據分析調試平臺來調試我們的算法和程序,一旦調試好程序,再下發到相關部委,在相關部委的各自范圍里頭運行并產生結果。最后匯報給上面的結果已經不是原始數據了。

  通過這樣,不改變數據的歸屬所有權和存儲位置,只帶走了不含敏感數據的分析結果。

  疫情大數據系統的信息安全防護

  疫情大數據也是需要特別進行安全防護的,從右上角的圖可以看出綠色是健康數據,健康數據是黑客所重點關注的,甚至2014年,我們國家的國航網站受攻擊最多的是醫療衛生的網站。

  美國也統計過,遭遇黑客醫療數據的泄露損失很高,而且疫情大數據不但是商業利益問題,還關聯國家政治社會問題,我們以為疫情大數據系統是內網,但實際上內網也會遭遇攻擊。我們在疫情大數據的系統上,要明確接入權限與過程審計,用各種各樣的安全措施來確保安全。

  為何新冠疫情大數據姍姍來遲

  為什么這次新冠疫情大數據來得晚呢?這上面是谷歌有一年某個地方發生流感,谷歌的報告流感比美國疾控中心還提前一個星期,相似度97%。它能提前預警,而中國的這次疫情大數據,基本上沒有起到預警作用,為什么?網上人說,你們說得那么好,為什么你們沒有早說出來?原因是網上信息很多。

  傳染病根本沒有被列到互聯網界關注的優先點,另外在發現不明肺炎之初,醫療機構的信息中心也沒有能夠根據十多例的病情分析出人傳人,掌握不了病毒控制的主動權,應該說,可惜我們信息技術人員敏感性不夠。

  大數據依賴真實數據的開放

  另外一個更重要原因,是數據的披露開放之后不及時。在發現最初動物作為傳染源的時候,案例是比較少的,很難觸發疫情大數據的分析。發展到人傳人的時候,電信以及互聯網公司的人行為軌跡的大數據才有作用,我們知道,武漢的重癥病例從發病到住院平均等待了將近10天,有些還沒等到住院就不行了。

  整個獲得信息延誤了10天,再加上14天左右的潛伏期,病毒已經蔓延了一個多月,而且一些錯誤的信息,“不會人傳人”“可防可控”在發布。而真實的信息被當做謠言,疫情的數據沒有對外公布,當公眾知道病毒可以人傳人的時候,已經錯過了防控的黃金時間,造成了武漢疫情爆發長時間失控,這種公布數據,不僅僅是為了大數據分析。

  華盛頓大學有一個研究,“當媒體的報道量增加10倍,疾病的感染數會減少33.5%”,所以應該是更有用的。

  大數據的應用需要有法律保證

  另外,大數據的應用需要法律保證?!秱魅静》乐畏ā芬幎?,有關部門要報告疫情和監測,但是沒有明確哪一級地方政府有權收集當地運營商跟疫情有關的數據,也沒有明確政府應該開放什么數據,應該公布什么信息。

  所以,我們建議,要出臺《傳染病防治法》的實施細則,要明確省市政府對疫情防控數據的收集權限和政府各個部門,以及相關企業提供疫情防控有關數據的責任。

  電信大數據對疫情防控有用但還不夠

  因為用戶的信令數據面很廣,而且實時性很好。實際上,每個用戶平均每天有200條左右的信令數據,應該是很好的,很詳盡?;镜亩ㄎ痪戎挥邪倜椎牧考?,實際上100米的半徑里,根據這個來確定密切接觸者是不準確的,因為有很多人隔100米和隔10米的情況是不同的。

  衛星導航+數字地圖的定位精度是比電信基站的定位精度要優,但是它的用數覆蓋不夠,所以兩者的結合可能比較好。電信大數據對疫情防控是有很好作用的,但是還是有限的,所以僅有電信大數據不夠,需要跟有關部委融合。

  大數據是方法與輔助工具

  大數據本身是一種方法,整個醫療不僅僅是在院中,還涉及到院前、院后和醫院管理,涉及到很多環節。大數據也不是智慧醫療的唯一方法,也是要跟其他信息技術結合,同時也要跟醫學專業知識結合,需要信息技術和醫學界的緊密合作。

  最后,跟17年前的非典疫情相比,本次疫情是更嚴峻的大考。但現在用上了先進的醫療技術和大數據等新一代信息技術,科學防治、精準施策。在黨中央的堅強領導下,在疫情防控的人民戰爭中,大數據的應用環境將進一步優化,在聯防聯控精準施策中將發揮更大的作用。我們一定能夠打贏疫情防控的人民戰爭、總體戰、阻擊戰。

責任編輯:qinpeng