站在新的歷史起點和數字化發展創新風口,秉持“智慧報國”的一貫初心,不負連續17年堅持累積的良好社會影響與業界口碑,一年一度的改革研討盛會“智慧中國年會”,以“聚焦數字化覺醒和數字中國再提速”為主題,于11月24日-25日通過網絡直播渠道盛大開啟。2021智慧中國年會由智慧中國年會組委會、北京國脈互聯信息顧問有限公司主辦,設置主論壇和專項分論壇,分別以“加快數字化轉型 建設美好數字中國”和“數據治理體系構建與城市運行體征管理”為主題,邀請界內決策者、管理者、建設者、觀察者、思考者開展深入探討、交流與合作。

  本文系國家信息中心原主任、國家信息化專家咨詢委員會委員高新民于11月24日上午在“2021智慧中國年會”主論壇上的演講。內容通過速記整理,未經本人審核。

圖片

---以下為演講內容---

  很高興今天有機會參加智慧中國的年會,因為疫情關系就不到現場了,通過視頻的方式與大家做交流。大家知道,現在我們在推動數字中國的過程中,核心問題是做數字化轉型或者叫數字化發展,十四五規劃中專門有一章節來講這個問題。數字化轉型、數字化發展核心問題是數據的問題,要以數據為驅動,加上數據的治理,產生智能化決策、閉環、控制,來實現智慧中國的發展應用。因此,現在討論較多的“數據”作為關鍵要素,數據治理應如何推進,最近國家在這方面發布了很多文件,特別是在數據安全領域,實際上這也涉及了數據治理的問題,各個單位對數據治理也高度重視,特別是關于數據的質量控制、數據安全使用以及數據共享、數據流轉等等數據治理問題。另外,討論數據交易的問題也比較多,如何確權,如何定價,現在各個地方也在做大數據交易中心,這也是數據治理問題。但現在感覺到有一個問題,現在對數據治理基礎架構如何構建,這個問題討論不是很多,也不是很清楚如何做。在過去,數據治理在一個機構或部門里邊,他的基礎架構是有案例的,也是有解決方案的,這是沒有問題的,但是現在的數據治理涉及到一個更大的空間,涉及跨部門、跨地區、跨層級這樣一個特征,因此,數據治理架構應該什么樣,今天圍繞這一問題談一些看法,供大家參考。

  數據要素重要性大家都有共識。簡單來說,數據本身是一個基礎支撐,比如“人”,人是有身份證數據,有基因數據,每個人都有一個身份、基本生理特征等基礎數據的支撐,這些數據與業務相融合就能產生效益。比如,人的基因數據,人到醫院看病,診斷這個人是什么病,一般下來有時候這個病跟基因是有關系的,因此,跟診療結合之后,才會提升診斷的效率和準確度。另外,數據作為要素能夠流轉,能夠在更大范圍內流通,那么,他將產生更大的價值。比如,基因數據,在國外與醫院中的診療數據、制藥企業掌握的制藥數據、療效數據以及其他有關醫療健康數據融合之后,當然數據要透明,他可以發現很多規律,這樣他的價值將更大,數據這三種價值的提升越來越重要,這個越來越有共識。

  目前數據還面臨一些問題。第一,數據質量問題,有相當一部分數據質量不是特別高,有不少問題,如準確性不高、時效性不高、垃圾數據,給數據應用帶來一些困難。第二,數據流轉不暢,如大家知道的信息孤島、數據孤島。第三,融合應用方面深度不夠,用的還不太好,產生的價值不知道怎么用。這些問題怎么解決,都是跟數據治理密切有關系的,質量問題、流轉問題、融合之后應用價值、安全可控問題都是和數據治理有關的。

  現在的出路是,怎樣構建領域數據空間。用政策、制度支撐構建領域數據空間,同時用技術架構支撐構建領域數據空間,就剛剛講到,數據流轉、數據共享有困難,跨部門、跨地區、跨異組的數據共享有困難,困難的原因是什么呢,這里面有些數據標準不一樣,數據所存儲或產生的數據的信息也是異構的、異組的、異地的,也就是三異,這些客觀上來講對數據的共享產生困難,但是泛泛的說,把所有數據按照一個統一的標準來做,這個難度非常大,因為數據幾乎是一個海洋,不可能對海洋的每一滴水進行治理,所以我的一個觀點就是,首先數據要變成一個數據對象,是有邊界、可識別、有內涵的、可定義的對象,我們叫他數據對象,數據要變成一個數據對象,由數據對象在一定的基礎架構下,能夠進入一個空間,這個空間里能夠使數據對象進行互操作,所以,數據本身要進行治理,首先數據要變成數據對象,由數據對象構建基礎數據架構,這個架構有制度規則、有技術的支撐,形成領域數據空間。為什么叫領域,因為數據要共享、要流轉,一定跟場景、跟應用導向是相關的,而領域與數據應用場景比較親切,應用需求比較清楚,因此在這種條件下,數據對象本身的關聯度就比較強,因此就形成領域,所以符合領域內強關聯度的數據形成空間,這個空間能夠實現數據的互操作基礎,大概就是這樣一個概念,我認為這個概念就應該是數據治理的基礎設施,沒有這個基礎設施就很難把數據治理的質量、流轉、共享、安全、融合使用這幾個要素都去做到就很難。最近國家出臺很多關于數據安全的條例,這些數據安全條例是必要的,但怎樣去落地,我認為落地的關鍵問題就是基礎架構,沒有這個基礎架構,這些落地是非常困難的,尤其是在互聯網的這個環境下,很多互聯網平臺企業,其數據量是非常巨大的,上千個bit,如果這些數據里面沒有一個基礎的架構,不是一個可識別的數據對象,那么如何對他進行監管、提出要求,進行治理,包括他自己要去流轉、去管理都是很困難的。所以這就是我們今天說的,要構建一個數據治理的基礎架構,這個基礎架構我建議不是泛泛去說,要去建立領域數據空間。領域數據空間有兩個支撐,一個是制度/政策支撐,這里引用FAIR原則,符合FAIR原則的標準的數據對象,就可以進入這個數據空間。另外,這個數據空間要用技術實現FAIR原則,實現這個標準的技術架構,也是對數字對象體系架構進行技術支撐。由這兩個支柱,即制度支柱、技術支柱,來形成一個領域的數據空間,這樣作為數據治理的基礎設施,我覺的這是一個思路。這個思路也是最近觀察到歐盟在實施一個歐盟統一數據空間的倡議或者說是一個項目,這里面有兩個內容,一個是統一歐洲的云,因為數據都在云上,都是云架構,所以做了一個統一歐洲云的技術架構;另外在這個架構上,做了一個IDS,國際數據空間(International Data Space)。這兩個東西組合成歐盟跨國數據基礎設施,他甚至還有一個想法是把他做成國際的。這個想法跟我今天講的內容還是有一些區別的,他沒用運用DOA的架構,也沒有很明確的用FAIR原則在做,那么我是把這三個內容結合起來,來進行的一個思路研究。歐盟的IDS和云空間這兩個項目,國內有些單位跟他們有很多交流,過幾天我和德國的一個教授也會做一些技術交流,我希望大家能夠關注、能夠借鑒,設計符合我國國情、符合我們實際的,借鑒新的理念,把領域數據空間作為數據治理的基礎設施來推進。

  下面,我想再展開下,把FAIR原則、DOA的技術架構簡單說說,供大家參考。

  領域數據空間分類??梢苑譃楫a業領域數據空間,舉例有加工制造業、交通運輸業、通訊產業、金融業等等,這些產業是強相關的,某個行業里互相有關聯,也可以再細分,當然也不能太細了,還是有個領域的;另外一個是政務領域數據空間,比如政府之間的電子政務、政府對企業的電子政務,即G2G、G2B、G2C、G2E,G2E是指政府對本身公務員的,這個分類也可以;還有一種就是按照我們政務領域之間的分類,如環境保護、公共安全、公共衛生、產業宏觀調控的等等也可以按照這個來分。公共領域里面有電子健康、科研教育、文旅、民生生活上的內容等等,這個是舉例來講,都可以這么分類。

  FAIR原則,實際上也是四個英文名的開頭字母,第一個字可發現,數據變為數據對象,有邊界、可識別、有內涵、可定義、可定價,在某種場景下可定價,定價一定跟場景關聯,沒有場景關聯這個價是很難定的。這四個字呢,第一個是可發現,第二個字是可訪問,第三個字是可互操作,第四個字是指這個數據對象可重用??砂l現就是數據對象在什么位置,講數據在什么位置是很難發現的,數據是一個很泛在的概念,一定是變成數據對象后是可發現的,他有標識、有邊界、有地址;可訪問是指可以找到,有一定訪問權限,有認證,安全里面有可訪問,包括認證權限、訪問權限等;可互操作,包括接口、數據間的通信協議,這個都要標準化;可重用就是可流轉,在一定的條件下面、一定的規則下面,與前面三個條件能夠在需求導向、規則為基礎下重用,就是流轉。這個原則所有的數據對象,符合這個原則就允許進入共同體,就能夠享受共同體的一些權益。符合FAIR原則是它的義務,不符合原則自動標準的數據對象是不能進入共同體。進入到數據共同體或數據空間,它符合這個原則就很容易在有需求、有場景導向的情況下,很容易實現互操作,就能夠實現共享,就能夠很容易組成支撐業務的需求,就是這么一個思路,當然包括各種各樣的治理,你要去交易也好、你要去開放也好、你要去共享也好,不同的流轉機制就能夠支撐。

  這個原則因為時間關系就不詳細講了,對數據的要求大家可以再看看。目前FAIR原則在國際上,在科研的數據上發揮共享和互操作起了非常明顯的作用。我剛開始舉的例子,舉了基因數據和臨床數據、還有藥物的治療數據,這些數據是跨部門的、跨領域,有的是在制造業,有的是在醫院里面,有的是在研究機構學校里面,他們就用FAIR原則把數據都進入到一個空間,然后在里面產生很多有價值的規律,發現很多價值,如某種基因缺陷會產生什么疾病或者反過來說某種疾病可能和某些基因的變異或者缺陷有關,或者某種藥物對某種疾病因某種基因變異后產生的疾病能有療效、有針對性。那么這樣一些東西目前已經是實現,已經證明利用FAIR原則是指導數據的空間在發現支撐方面發揮很大作用,這已經是證實了。舉例子講,上次有一位荷蘭過來的教授,曾經和我們交流就是用FAIR原則怎么實現這種跨部門、跨資源而且是跨國的數據共享,能夠分析出很多有用的支撐規律,這是非常典型的一個例子。我認為這個事情非常重要,比現在局里研究的數據交易、數據確權更為重要。那個當然也是需要研究的,但是不把這些問題研究清楚,我們的數據價值、數據的流通流轉,包括安全的可控都是很難實現、很難落地。

  這是一方面,FAIR原則是一個制度原則或者是一個政策原則。它的技術實現什么?就是剛才講的,其中一個方面也不是全部,歐洲的IDS不是按照FAIR,但是原理和這個很接近,它是用另外一套體系、另外一套軟件來實現的。那么現在有一種方案是利用DOA,就是數字對象體系架構來實現,因為體系架構就能夠實現變成一個數據對象,這個數據可大可小,單個數據可作為一個對象。一個數據庫、數據文件、數據湖、數據池,將來比如我們講數據孿生都可以算數據對象。它一定要有邊界,要把它定義好。這個對象形成之后就給它一定的賦碼、統一的賦碼,而且也是唯一性的。這個碼賦完之后可注冊,注冊之后這個賦碼對象還包括兩個內容,不僅僅是碼的問題,封裝之后里面的元數據標準是一樣的,元數據可以自己定義,它有一定的標準架構來定義它。這樣就實現這些能給它提供條件,這些最后要訪問,訪問要有一定的條件,包括安全認證的條件加進去。最后信息內容能夠,剛才講的元數據和內涵的一些語義分析也是一部分,和數據對象之間的一些通信要有統一的協議。把這個架構實現起來,在政策下規定了一些標準化的數據對象進入數據空間之后,DOA的架構技術實現它的互操作。這就是一個完整的數據治理基礎架構。

  DOA怎么實現它的支撐?它可發現,里面有標識、語義定義、全球的解析,怎么來實現它可發現的東西。那么可訪問就是它的安全認證,以及元數據的定義使它可訪問?;ゲ僮骶褪峭ㄐ艆f議,一個是發現的協議,還有一個就是數據互相交互協議。還有一個重用要在一定的范疇之下有統一的注冊、統一的分類,按照主題、內容數據對象進行分類,有一個分類表,然后就可以在一定場景下面、用戶有需求的時候去訪問它,去調用它都可以。重用的“用”有多種方式,也可以訪問也可以匯聚也可以同步,就像我們現在講的區塊鏈一樣是數據的同步,其實區塊鏈是DOA里面的,區塊本身是一種DOA,所以我們講區塊鏈可以把它理解為DOA架構下面一種特殊應用,而且是一種比較高級的應用。所以我認為我們用數據對象的概念、FAIR原則來構建數據治理的基礎,實現三億數據的互操作這樣一個基礎。這是數據治理非常非常重要的一個關鍵。

  我今天就講這些供大家共同研究、共同探討,謝謝大家!

更多精彩,請關注“官方微信”

11.jpg

 關于國脈 

國脈,是大數據治理、數字政府、營商環境、數字經濟、政務服務專業提供商。創新提出"軟件+咨詢+數據+平臺+創新業務"五位一體服務模型,擁有超能城市APP、營商環境流程再造系統、營商環境督查與考核評估系統、政策智能服務系統、數據基因、數據母體等幾十項軟件產品,長期為中國智慧城市、智慧政府和智慧企業提供專業咨詢規劃和數據服務,廣泛服務于發改委、營商環境局、考核辦、大數據局、行政審批局等政府客戶、中央企業和高等院校。

責任編輯:wuwenfei