本講座選自復旦大學數字與移動治理實驗室主任、國際關系與公共事務學院副教授、院長助理鄭磊于2015年11月29日在 RONG 系列論壇之六——大數據與政府治理研討會上所做的題為《開放數據的價值與進展》的演講。   

  首先非常感謝清華大學的邀請,從去年4月第一次來清華做開放數據講座到現在已經是第四次到清華講開放數據了。每次都有壓力,一方面,既要講新東西,準備新的干貨,另一方面,每次又有新的人,有一些基本的東西看來還要講第四遍了。
 
  我首先把基本概念先講一下,然后重點將開放數據的實踐,尤其是上海剛舉辦的SODA大賽,整個組織過程我都在參與,可以介紹一下這方面的情況。

  首先看看開放數據是什么?現在在理論界和實踐界,還沒有完全說清楚“政府信息公開”、“開放政府數據”、“信息共享”等概念之間的差別。今天我重點講一下政府開放數據和政府信息公開的差別。

  第一個最大的差別是開放數據要把數據開放到底層的、原始的數據,而傳統的政府信息公開是公開經過加工和分析的信息,甚至是一些文件。

  第二個區別是政府信息公開最主要的目的是保證公眾的知情權,更多是政治和行政上的責任,要讓公眾知道政府在做什么,然后參與和監督;而開放數據的主要原因是由于政府在履行行政職責的過程中采集了大量的數據,這些數據原來只放在政府自己的后臺,現在這些數據要不僅政府自己用,也要開放給社會來開發利用,推動大數據時代的到來。所以開放政府數據更多是要保障公眾對政府數據的利用。
 
  下面舉幾個例子,美國最早通過《信息自由法》來推動信息公開,第一張USAspeding.gov是關于財政數據的公開,第二張recovery.gov是美國金融危機后七千億美元救市計劃的公開,你可以看到加州和紐約州投的錢比較多,點開地圖上的每一個點,會告訴你這個地方多少錢,給到哪些機構,已經花了多少錢,創造了多少工作機會等等。

  下面這個是關于空氣質量數據的公開,你可以看到全美實時的空氣質量情況,綠色的空氣質量比較好,黃色的有一點問題,紅色的就是有毒了。中國近些年北京上海也開展了類似的環境信息公開工作。

  但是,以上所舉的這些例子都不叫政府開放數據,這些叫政府信息公開。因為在這些網站上并不能下載數據集進行深度的挖掘利用。在這些網站上只能看到和知道數據,只能這樣一條一條地查詢,但不能把這些數據集拿走。所以這些網站還是在信息公開的層面,提供的是信息查詢服務,還不是政府數據開放。

  上面是DATA.GOV,有美國聯邦政府十幾萬個數據集可以下載,這樣才是開放數據。還有英國的DATA.GOV.U也是,我們這周五還跟他們交流過經驗。

  在這張表上,橫向是從知情到利用,縱向是從信息層到數據層。開放政府數據在右上角,要開放到數據層,并且保證社會對數據的利用。政府信息公開是為了保障知情權,開放的是信息層。一些政府網站上也發布了一些數據,但這就像政府在大門上貼出一張告示,說這就是政府的數據分析結果,而政府數據開放是政府打開一個門,說這里面的數據,你們可以拿去用。過去還提過政府信息資源再利用,這和開放數據的差別是數據資源只給自己指定的公司用,但這可能涉及到數據資源權利尋租的問題。開放數據應該是如果你把數據給了A,就也可以給B,只要B也滿足了基本條件。

  真正的開放數據要滿足以上這些標準。數據是完整的、原始的、一手的、及時的,可獲取的,有一個平臺可以讓我下載,而不是我私下里找你要,例如DATA.GOV這樣的平臺。開放數據是非歧視、非私有的,產權上來說這些數據屬于公共資源,并不屬于某個政府部門,而是屬于社會的公共資源。免授權,獲取過程中不再需要填一系列表格協議,就可以到網上下載,美國政府開放的數據我們中國人也可以去下載。

  在跟英國開放數據研究院的交流中他們也提到,開放與封閉數據并不是非一即零的關系,中間有一個過渡階段,從完全封閉到完全開放中間有一個過渡階段,有些是有限度的開放,有一些是授權的開放。

  為什么要開放數據?我們現在都在說數據是石油、是金礦。我們把數據比作一種底層的資源,他是原始素材,開放給社會以后,社會對這些數據進一步地挖掘、利用、開發,產生各種應用或者是提供決策支持,創造出商業價值和社會價值。就好比把底層的米開放以后,可以做成各種各樣的飯,加工做飯的過程由社會和市場來完成,用的是他們自己的錢,來滿足各種各樣的需求。過去是數據層和應用開發層都由政府來完成,就是政府的數據,由政府自己來開發成一個個應用。但是如果這些數據不涉及到機密的話,政府為什么要自己來開發?開發出來的產品用戶體驗能比市場開發的更好嗎?能滿足各種精細化的需求嗎?眾口難調的問題怎么解決?再接下來,有足夠的錢來推廣嗎?政府的人力財力精力可以做出一個極致化的應用嗎?過去都是自己辛苦開發,做出來了老百姓還不滿意,吃力不討好,那不如把數據開放出來,讓市場和社會來開發。

  這樣一來,政府的治理模式就發生變化了,過去都是自己做,現在是政府開放數據,社會開發利用數據,兩者形成一個開放式的、合作共創的模式,這也是創新2.0的思維。所以,總結起來可以說,開放數據能助力經濟增長,走向創新驅動,提升公共服務,推動大眾創業。

  2013年美國GIQ期刊的主編馬里蘭大學的教授Bertot就說:“大數據建立在開放數據的基礎上”,不然一個個都是信息孤島、數據孤島,怎么可能帶來大數據時代?在這種情況下,政府先把自己的數據開放出來,可以引領大數據時代的到來。

  那么開放數據難在哪里?第一,數據在哪里?有些政府部門對自己有什么樣的數據資源并不完全了解,所以先要把清單整理出來。有時候你問他要數據,他說我沒有,其實他是不知道他有,因為每個部門都是一條線,這個條線不知道哪條線有什么數據。

  第二,能不能開放?涉及到國家安全和隱私就不能開放,但是中間有很多模糊地帶,不容易判定。

  第三,愿不愿意開放?可能出于部門利益不愿意開放,或者是有些政府部門認為這些數據非常專業,拿出去以后他們看得懂嗎?他們會用嗎?他們有興趣嗎?有這種想法。

  第四,數據好不好?數據質量有沒有問題?數據的清洗、脫敏等等。

  第五,有沒有這個能力開放數據?開放數據對政府部門來說是一個新的挑戰,過去沒有做過這樣的經驗。哪個部門管?有沒有編制?有沒有人?有沒有這樣的技能?所以體制機制和能力建設都要跟上。

  開放數據就是一種服務,是有風險的,一旦沒有做好,數據出現質量問題,被用錯了,還會涉及到責任,搞不好他們回過頭來告政府。這樣政府部門就會覺得不做不錯,多做多錯,少做少錯。反正沒有說一定要開放,那我就觀望,先看看別的地方怎么做。

  我國開放數據的現狀如何?北京和上海在2012年推出平臺。今年我們選了七個有代表性的地方做了一個評估??纯撮_放數據到底做得怎么樣,這些數據我們都已經發表過了,今天就只簡單說一下。

  評估包括數據層和平臺層。各地平均公開了278個數據集。數據總量上看武漢是全國第一,但是武漢可機讀的數據只有一半,另外一半基本是PDF格式,不利于社會對數據的利用,不是真正的數據開放。

  開放的數據中86.25%是靜態數據,甚至沒有按照自己的承諾更新,只有17.21%按承諾在更新。只有無錫、海曙明確保障數據的永久免費,沒有“現階段”字眼。沒有一個地方明確賦予對數據進行增值利用和分享的權力。在數據下載過程中也遇到一些壁壘,能不能在平臺上提出數據請求,就是我需要什么數據,還能讓別人也看見。目前只有寧波海曙的數據請求是完全開放的。

  平臺層整體來說交互便捷性還比較差,缺乏高質量數據應用展示,溝通交流缺乏便捷性。

  上海數據開放的整體思路是未來三年以正面清單的模式,要求各部門按照清單開放數據,既有數量要求、又有質量要求,還有格式要求。三年后,則采用負面清單的思維。除了明確不能開放的,其他都要開放。
 
  然而,開放政府數據本身不會直接產生價值,只有政府開放了數據并被社會充分地利用,才會產生價值。所以政府數據開放出來之后,政府還需要做很多事情,來推動社會利用這些數據,生怕他們利用不充分。所以就搞了很多大賽。紐約搞了一個大賽叫Big APPs。
 
  今年上海經信委協調交通委,一共開放了1TB的數據,也組織了一個大賽,名稱很好玩,叫SODA大賽。當我們把Shanghai Open Data Apps這幾個詞的首字母放在一起的時候,正好就是SODA,就是蘇打水的意思。這正符合開放數據的理念。政府的數據就像封在瓶子里的蘇打水,關著瓶蓋的時候看上去悄無聲息,但只要你把瓶子一打開,嘭的一聲,數據的能量就迸發出來了。這個瓶子的logo是我當天晚上畫了一個構思草圖發到組委會的群里面,后來專業的設計師給畫出來了。在SODA百強派對的時候,真的找來一個大瓶的香檳酒,上面寫著SODA,嘭的一聲把瓶子打開,意思就是數據開放了。
  最后來參賽的隊伍的數量超出組織方自己的想象,主辦方開始預計有兩百個團隊就不錯了,到方案截止前,組委會跟評委們說,不得了,我們評委要很辛苦了,一共有五百多個方案交上來。一半是上海的,還有一半是來自上海以外,北京16%,廣東6%,其他省4%,還有國外的團隊。在世界上,一個城市一下子開放這么大的數據集也是很轟動的事情,所以很多都過來參加這個比賽。最后選出了一百個方案進入復賽。
  上禮拜SODA組委會開了復盤會慶祝一下。這個大賽的評委會是開放的,我們并沒有開過幾次正式的組委會會議,但是每天都深更半夜還在群里面討論問題,反而討論出了很多非常好的建議。用的是一種互聯網的方式,平等開放的模式來組織大賽。甚至有學生的創業公司參與了大賽的組織工作。這是大賽當時的一些照片,決賽的時候來了兩百多人。15支團隊進入決賽進行路演,最后得大獎的是交大的團隊,我當時也擔任評委。
  最后交通委的領導上來發言,他說,本來我已經準備了一個文字稿,但現在我決定脫稿講。他主要講了幾點:第一,大開眼界,還是要依靠科技創新;第二,大受啟發,智慧在民間。第三,把這15個團隊都請到交通委和相關處室對接,想辦法讓這些創意落地。最后他還說,可惜這次我們開放的數據還不夠多,如果再多放一點數據,你們可能能做出更好的方案。這個大賽辦完,交通委真正體會到了開放數據的價值,就有了內生的開放數據的動力。
 
  SODA大賽只是剛剛開始,如果只是一個大賽,那就太簡單了,接下來就是怎么讓這些方案落地,對社會產生價值,反過來,政府就會更愿意開放數據。大賽的第一波效果是征集了創新應用,聚集了一大批人才,對公眾和政府部門普及教育開放數據的理念。第二波效果就是給城市提供更好的服務,推動創新創業,推動產業發展,最終產生一系列的社會價值和商業價值,同時又對政府提出了新的數據需求,政府更知道社會需要那些具體的數據,也看到了給社會帶來的價值,就更有意愿開放。
  我們跟英國開放數據研究院交流時,他們說在英國也搞了類似的大賽,他們做了一個投入產出的研究,結果是這個大賽每投一塊錢,回報是10倍。一些政府部門在考慮把數據賣錢,免費地開放數據對我有沒有直接回報,我為什么不能收一筆錢呢?但是另外一種思維是,你開放出去之后,一波兩波三波的效應能產生更大的價值,最后政府的稅收會上升,比你直接賣數據能產生有更大的回報,世界銀行的專家來復旦交流時也支持這個觀點。
  所以,數據開放可以兩條路同時走,一種是自上而下、由內而外的推動開放,通過內部的壓力。另一種是像SODA大賽這樣由外而內、自下而上的拉動,讓政府部門看到開放數據后產生的效果,意識到開放數據對政府部門自身也有好處,從而變成內生的動力,效果甚至會自上而下地推動更好。所以,要充分調動數據的開發利用者,通過SODA大會這樣的活動,在加上產業孵化,讓開放數據這件事滾動起來,產生價值,讓政府有更大的意愿開放。
  總體來說,開放數據到產生價值是一個非常復雜的動態的過程,涉及到各種利益相關方,有各種因果關系和利益關系,要使整個循環成為一個正循環,而不是成為一個堵塞的循環,就要讓這件事產生效果,讓政府更愿意開放。產生更好的效果了,也就更愿意開放,開發者也會更積極得來利用數據。
  政府要有一個生態系統的思維。開放數據不是甲乙方外包關系、購買服務的關系,政府要做的工作是培育圍繞開放數據的生態系統。
  最后呼應一下早上張楠老師講的觀點,安全和數據開放不是一對矛盾,他們是一個相輔相成的過程。信息政策里有一個理論框架:第一個原則是保管的原則,把數據的安全和質量問題解決好;第二個原則是利用的原則,不僅要把數據管好,更要把數據充分利用起來,產生價值。兩個原則互為補充,只有管好了數據,才能產生信任、降低風險,有利于更好地利用數據,反過來,數據利用得越好,創造的價值越大,政府就對你越信任,也更愿意推動利用。安全有保障,才會更愿意開放,利用得越好,政府也更愿意花力氣去提升數據質量、保證安全。如果安全出了風險,利用就進行不下去了,數據不利用了,管理數據也就沒有價值了。這就好比圖書館的工作不僅是為了管理書,管理的目的是為了讓書被更好得利用,發揮它的價值。而只有管好書,才能更好地把書借出去,書借出去了,還要能管得好,收得回來,這兩個是相輔相成的關系。開放和安全也是這樣的關系。
  我們實驗室從2011年開始關注和研究開放數據,2013年開始發表開放數據方面的論文,上個月剛在中國行政管理也發了一篇。今天由于時間關系,還沒有講透的地方,大家可以參考這些論文。謝謝大家!


責任編輯:admin