11月24日,在北京萬壽賓館舉辦的2016年中國智慧政府發展年會,政府大數據與數據開放論壇上,中國信息協會副會長胡小明以“為電子政務服務的大數據”為題發表了精彩演講。

中國信息協會副會長 胡小明
中國信息協會副會長 胡小明 
  非常感謝大家能夠參加今天的會,我原來認為下午我做第一個發言,首先是幫助大家適當的休息一下,因為剛吃完飯需要消化。但是我看大家的積極性對我也是一個鼓勵,所以我也希望能夠跟大家做一次交流。 
  關于政府電子政務服務的大數據,我們在這里因為大數據太熱了。我覺得這里面有風險,希望我們在研究大數據的時候,我們不要被大數據熱沖昏頭腦。所以應該把這個問題想清楚,哪些是可以解決的,哪些是不能解決的。 
  平常心對待大數據
  第一是要以平常心對待大數據,在宣傳熱的情況下,我們發現我們更多講的是大數據的技術、大數據的手段改進。而對大數據的實際應用,仔細來看真正的例子還是少的。我們講數據挖掘,講這么多年之后,講數據挖掘還是啤酒尿布,這說明問題呢?說明在應用領域和技術領域這兩者差距還是非常大的。 
  而現在我們需要的從實際當中來考慮這個問題,我覺得大數據有點被慣壞了。目前大家都在說成立大數據機構,申請大數據經費。但是從大數據實際應用來看,我覺得我們并不是很明確。到底解決什么事情,它能不能做呢?還有很多問題,我覺得大數據從我看來,它只是一個工具。它永遠是我們要做目標的仆人。希望大數據的發展和應用,不要走信息資源共享的路,信息資源共享喊了很多年。從國新辦的17號文開始到現在已經搞了十五年了。但是在信息資源共享方面到底有多大的進步能說出來,我認為一直沒有做好,也沒有說出太多東西。當然這里面的原因是非常多的,為什么會這樣呢?我覺得有一個非常重要的原因,就是我們把數據資源共享的能力和效果想的太高了,我們以為它能夠解決多少問題,實際上它并不能解決那么多問題。 
  隨著社會數據資源的增加,信息共享手段的增加,政府那點數據共享它能所做的貢獻是越來越少的。并不是所有的信息共享都是有用的,可以說多數的信息共享并不是很方便。而且他們的成本效益并不都是正的,在這種情況下,你要求全面的信息共享肯定是失敗的,正確的做法應該是仔細挑選,可能十項里面只有一兩項是好的,你有什么必要推全面的信息共享呢?所以集中精力來做真正有效率的事情,這才是我們該做的。所以說在大數據方面來講,我們一定要以目標位中心,以平常心來對待大數據。以目標位中心就是不是所有的大數據都是有用的,可以說大部分的大數據都是沒有用的,真正有用的東西是少部分的,你必須把有用的挑出來。當你想解決什么問題的時候,這時候你再談大數據,我認為是有價值的。當你的問題還不清楚想用大數據的時候,我認為這完全是錯的,它根本沒有用。因為數據資源是不缺的,數據也可以是垃圾。最缺的是你的目標,你到底想干什么,現在我們最大的問題是我們想干什么不清楚,所以我覺得這是一個很大的問題。 
  目前我們對大數據概念,大家講的都是不一致的,講的都不清楚。對于政府的官員來講,他認為我的政府數據很多,我只要把數據合起來就是大數據。因此他認為他的一切數據都是大數據,你整合起來就多了。為什么會有這種想法呢?有很多的原因,其中一個原因你掛上大數據能夠申請經費,能夠得到重視,能夠符合潮流。如果你沒有掛上大數據,你是小數據的整合。所以這個問題也是一個因素,但是這些問題都不重要,最重要的到底什么能解決問題,這是最重要的。 
  另一個方面來說,我們現在看的大數據,大部分是基本大數據的概念,是從互聯網公司來的?;ヂ摼W公司它有了很高的技術,它能夠利用起來大數據。因此這個概念基本上是由互聯網巨頭決定的,過去也有預測、石油勘探它也是一堆數據,但是都不說它是大數據?;ヂ摼W出來之后它創造了一種經濟,也就是說一個名詞,一個概念的出現是和應用結合起來,應用可能帶來有效的東西。它就是來自互聯網大數據的概念,而政府大數據它基本的概念還是傳統的,這兩個是不一樣的,所以政府大數據整合,并不是我們現在所講的大數據數據。而是我們傳統的數據整合、數據處理、數據分析,它是傳統的技術。所以這兩個技術是不一樣的,它們的概念不一樣。 
  傳感器大數據 
  然后是傳感器大數據,為什么?因為我們技術的發展出現了非常多的傳感器,而這些傳感器,它收集的數據是非常多的,這種數據用在什么地方呢?用于人工智能。比如說無人駕駛汽車以及機器人等等這樣的技術,他們也用這個技術。但是這個技術多不多,量大不大,我覺得不是最大。它最重要的特點是什么呢?就是數據處理的過程當中沒有人的干預,它是自動化的,所以它們屬于人工智能這方面的大數據。 
  當我們在分析這個問題的時候,我們要關注一下當前你想解決什么問題,其實對不同地區是不一樣的。比如說互聯網和傳感器大數據,什么工業4.0類似這些東西都跟這些有關,對于政府改善服務,它最主要的是整合大數據,這個大數據主要還是在傳統的數據范圍內,他們需要的技術是不一樣的。 
  對于政府來講,最重要的東西經常是最簡單的,永遠是這樣,重要的都是簡單的。如果它不簡單,它就不會重要,重要的都是簡單的。我們現有的數據改善服務,這種服務全部都是在大大數據范圍內,只是我們說大數據,但是從技術來講他們都是傳統的技術使用和改進?;ヂ摼W數據也可以來做,但是它并不會在政府工作改進上占據主要的位置,因此對于我們政府的工作來講,核心的問題是小數據整合最重要,這才是最重要的。 
  互聯網大數據改進是專業部門做的,傳感器大數據用于工業智能,用于人工智能改進,建立各種各樣的智能系統,它們是有用的。 
  大數據不適合大決策 
  下面我再講一下大數據并不適合于大決策,大家都知道小數據適合大決策,原因是什么呢?當我們的數據量太多的時候,畢竟你關注的范圍要窄,你關注的范圍窄,你的量才能大,才能深,這么以來你對問題的看法和視角都狹窄。我們處理大決策的問題它需要廣闊的視角。對于具體的問題來講,大數據適合于解決小問題。 
  另外,很多問題是沒有辦法依靠大數據的,比如說國際形勢發生了變化,現在網上經常在討論說希拉里和川普他們倆誰上臺,他們倆上臺政策不一樣,你該怎么處理,對世界經濟影響也不一樣。像這樣的問題你能不能用大數據來分析,我覺得是不可能的。但是絕不可能分析出他們的政策會帶來什么樣的改變,因為這些東西來講是未來的東西。比如說經濟發展美國十幾年前的9.11事件,出了很多問題,而這些問題對中國經濟發展是有利的,為什么?因為把美國搞亂了,中國有很多的機會。這樣重大的政策反而不是大數據能夠搞出來的,原因是什么呢?當你數據量太大的時候,你的視野不一定狹窄,如果你的視野寬闊你的數據量并不那么多。所以正因為這個原因,我們要想清楚。 
  高層決策最主要是靠全面信息,而不是狹窄的數據。我談了大數據的服務問題,因為我現在在深圳,我幫他們來討論一些問題,他們總覺得政府的數據資源非常多。我要打通把數據整合,然后我就可以分出來很多東西來支持政府,這是它的一種基本思想。但是這種基本思想一般來說是不行的,為什么?政府的數據實際上一點也不多,總說政府資源占90%,那些都是三十年前的概念,因為那時候沒有互聯網?,F在互聯網巨頭不比政府的數據多十倍、百倍、千倍。而且政府的數據主要來自于人工調查,人工調查的效率和機器識別的數據是不一樣的。所以政府的數據是很少的,你可以把它集合起來解決問題。但是你不是需要靠大數據來分析,而是靠轉動的數據分析,來挖掘政府數據的潛能,所以這個很重要。 
  在這種情況下,如果政府把所有的數據都整合了,然后等著你去打通,去分析出結果,這樣行嗎?政府信息資源雖然沒有開放,但是沒有不透風的墻,政府信息代表的東西都會通過各種各樣的渠道傳遞出去,包括我們的手機、聊天、談話等等。所以在這種情況下,你想有一個非常重大的發現出來是不容易的。 
  如果你能夠發現這些重大信息,你這些能力如何給政府提供。實際上我們提出的東西對政府的官員來講你的東西是小兒科,是外行。你要依賴大數據政府是不放心的。在這種情況下,你把各種各樣的數據整合起來,讓它變成一個可視化的服務這反而是有效的。一個可視化的服務隊政府官員來講是很歡迎的,就像我們天天都要看天氣預報。我們看天氣預報一個月幾次臺風,可視化數據能夠迅速的一眼能夠對整體有一個改觀。所以說對于政府領導來講,你提供一個可視化的圖,包括云圖和變化圖。 
  人工智能發展的過程當中,也是有一個進程的。在六七十年代,當時人工智能非?;?,搞來搞去做不下去了。后來人們也做機器發現做來做去也做不下去了,什么時候開始這輪又起來了,核心是它把人工智能改成了大數據,改成了數據學習。實際上里面包含的信息,比如說機器翻譯,以前我也見國際歌搞翻譯的人,那時候的思想是造型和理解的角度來翻譯,現在發現越來越做不下去的?,F在的翻譯是怎么做的,上一句話是這個,下一句話是那個,什么概率最高用那個,別的東西不管。哪個詞出現的頻率最高就用哪個,現在我們發現我們的軟件越來越快,就是一般打這個字,下個字什么概率最高就提出來,這樣對你加快速度就更容易了。 
  智能化的城市也和我們的大數據應用緊密的結合起來,它這種應用和我們決策的應用是不一樣的。實際上數據有兩種情況,一個是用在人工智能領域,它應用的系統是自動化的,而提出來之后機器自己來用,因為計算機本身你別看它總是數據,但是它一點都不懂信息,它腦子里面只有數據的概念,它碰到數據算概率,沒有別的概率。但是人決策不一樣,它會把所有的數據拿過來看一遍、想一遍,這兩個用途是不一樣的。所以說機器使用大數據和人來使用大數據它是兩種不同的使用方式,你會知道為什么人使用大數據結果是不確定的,機器數據是死的。 
  當我們在研究大數據的時候,一定要從應用出發,而不能從資源出發。一個數據,它是資源,還是垃圾,我們不要認為所有的數據都是資源。因為資源和垃圾它倆沒有區別,資源就是垃圾,垃圾就是資源,完全取決于不同的人在這里看,資源和垃圾本身上是一樣的,就好像你想刪掉就刪掉,你刪掉的就是垃圾,你不刪掉的就是資源,所以垃圾和資源是同一個東西。我們如何區分,它判斷標準就是對人工的幫助,所以這就是要注意的事情,我們不能從資源出發,現在我覺得在全國各地處理推廣大數據的時候有一個觀點我是非常懷疑的,各地做的頂層設計里面。你到底是解決什么問題,你先把數據收集過來。 
  大數據的發展要在應用中成長,而不是在大樓中成長,這是什么大數據呢?實際上你發現有很多大數據確實可以解決問題,它還需要長期不斷的積累,不斷的改進。因此有效的大數據你不斷的維護它和改進它,它在應用中成長,而不是在你的大樓中成長。 
  所以如果你沒有想清楚做什么,你的大數據組織是非常危險的,它會浪費你很多的資源。你搞一堆垃圾,你還想升官,那樣肯定不行,因此你不能這么做,你要挑出來有用的東西,在應用中不斷改進,也許它所用到的數據,只是幾十分之一就可以了。我的數據賣給你,當時我想賣一點錢,他說我不要,我說你為什么不要,他說我要等我的用戶,我的用戶咨詢到哪一個我買哪一個,寧可貴一點我也要,我不要你們企業的數據,他用的是這樣來想的。 
  在這樣的情況下,我們就需要在大數據當中我們要進步,對高層的服務和對基層的服務是不一樣的。政府的數據整合最重要的是基層的服務,整合的數據對基層的服務有用,對高層的服務它要了解外體和整體,它并不需要精確的數據。所以我們要把精確的數據送到前線,什么是前線呢?直接為公眾服務的,他知道這家是困難戶,這家收入多少。然后把整體的趨勢可視化的圖形送領導,這樣領導一眼就知道大概的趨勢,這樣的話才會更有效。 
  我們要以解決問題為中心,真正能解決問題的東西不見得數據量大才是能解決問題的。 
  我舉一個例子,美國友一家公司,這個公司花錢花的太多,每一個公司都超預算非常頭疼,于是派了一位領導解決這個問題。一開始把帳單都打出來看看有什么不合格,后來計算機打出來他根本沒有辦法看,誰浪費最多,排第一,每次超支最多的,每個月發一份,然后他就不管了,各個部門都怕自己的排名表靠前,于是很快就把這個問題解決了。解決這個問題并不是靠大數據分析來解決的,而是靠排名表解決的,所以說很多問題要以解決問題為中心,大數據并不是唯一的工具。 
  大數據被政府慣壞了,只會花錢不會干活了。所以我們要先整合好小數據,所以數據的應用應當始于足下,而不要讓大數據誤導,這是我講的一些想法,謝謝大家。

責任編輯:admin