<code id="0yi4s"><var id="0yi4s"><b id="0yi4s"></b></var></code>

<label id="0yi4s"><output id="0yi4s"><dl id="0yi4s"></dl></output></label>

<menuitem id="0yi4s"><delect id="0yi4s"></delect></menuitem>

<label id="0yi4s"><acronym id="0yi4s"></acronym></label>

<output id="0yi4s"><acronym id="0yi4s"><dl id="0yi4s"></dl></acronym></output>

張瑞飛：大緩存大交換大共享

2018-06-13 16:59 查看：次分享11

　　6月2日上午，“2018數字政府與政務大數據建設高層研討會”在北京國際展覽中心召開，本次論壇由國脈數據研究院主辦，北京國脈互聯信息顧問有限公司、浙江蟠桃會網絡技術有限公司承辦，國脈海洋信息發展有限公司支持，來自國內政務大數據領域的管理者、研究者、實踐者等數百人到場參會。

▲2018數字政府與政務大數據建設高層研討會召開

　　會上，北京神州云聯科技有限公司咨詢顧問張瑞飛以“大緩存、大交換、大共享”為題發表演講。他從政務大數據建設趨勢出發，深入分析我國大數據發展戰略在電子政務上的重點方向，并提出數字中國建設的核心能力是數據交換與共享；又從大數據業務應用的變化出發，闡述了傳統大數據平臺忽略的大數據交換共享問題以及現有ETL數據處理不適應數據分析業務的缺陷問題，他表示，現有業務需求的變化要求數據實時響應需求，因此必須采取新一代流數據處理架構。

　　以下是會議現場發言要點實錄（根據現場速記和錄音整理，未經本人審核）：

　　一、電子政務大數據建設趨勢分析

　　從國家一些政策來看，2015年開始，國務院發布了《促進大數據發展行動綱要》，提出了開放和共享做大數據治理的思路。2016、2017年，國務院、國家發改委做了互聯網、人工智能的強化活動，將人工智能和行業大數據進行結合。去年11月10日，中央政治局在進行第二次集中學習時，提出讓信息多跑路，讓民眾少跑腿，實施數字中國戰略。

　　關于數字中國的建設，今年網信辦和發改委評出30個最佳實踐案例，在最佳實踐里的項目名稱中有10個項目提到交換和共享，剩下的項目在內容里也絕對產生了交換和共享思路。我們現在處在一個大數據交換和共享時代，在這個時代，我們如何去實現數據匯聚？如何從數據匯聚走到數據共享、數據交換和使用？我認為這個過程在未來五年會不斷地出現，不斷通過數據交換、共享釋放我們的生產力，通過大數據釋放整個工作效率?？梢钥吹浇粨Q和共享的威力，從一天時間辦一個業務，現在可以縮短到10分鐘。

　　二、大數據業務應用正在發生變化

　　傳統的大數據業務面臨著比較大的挑戰，第一個是傳統大數據的數據源很多。過去我們曾做過一個實驗，大數據要服務很多商業、企業和政府的辦公系統，我們逐漸建立了一些數據倉庫，希望把數據從普通交易數據庫放到數據倉進行統一保存和存儲，但這一愿景和目標到今天還是沒有實現，很多數據還是割裂的，數據倉庫能夠覆蓋的范圍很有限。隨著大數據平臺的出現，我們會看到越來越多的這類問題，更多的系統變得更加分散。大數據平臺本身有幾十個讓我們去熟悉、使用，在傳統的數據倉里我們又維護了一套數據系統，數據倉和大數據是很難打通的，在今天也沒能實現。90年代提出用一個統一的方法來統計數據，這個目標目前是沒辦法達成的。

　　這里面有個核心問題：做數據忽略了數據交換和共享。這個問題以前很少被提到，第一次是Google在2014年提出的，2015年亞馬遜提出一個設計理念，支持幾十萬個數據源不限量。舉一個公安的技偵例子，要通過技術偵查手段把互聯網信息、現場勘察信息、指紋信息、DNA信息進行技術分析，可以想象公安的數據量在互聯網時代面臨的數據壓力。當出現這個壓力時，最難的是如何解決卡口、網監、信令、法制、反恐、事件、接處警、詢問、檔案等服務問題。

　　Google在2014年提到一個觀點，當時報道世界杯時需要一個新方法，被命名為數據流水線，Google正在給世界貢獻一個全新的生態，這個生態不同于早期的Hadoop開源的生態。

　　2015年，亞馬遜看到Google的動作后，跟進了一個策略，提了三個方向，既支持批量又支持實時，這一點很難，目前絕大部分中國企業完全不支持。在2011年的時候提到一個架構，現在國內95%左右的數據普遍采用的一個技術架構，可能很多數據是放在HDM，有些數據放在一個流水線上，前面做了一個緩存和Hadoop數據進行交互，大量的系統是這樣的架構，但它有一個非常大的弱點，不能同時支持實時和批量，實時和批量是兩套系統、兩套數據庫。2011年全球提出這個方向，那是中國大數據興起的時候，第一基于開源系統，第二基于云服務的生態，第三是靈活擴展，指數據不限量，可以處理PB或更大，都需要一個橫向擴展能力，對數據源也不限量，可以是幾十個，甚至是幾百，但在亞馬遜看來是不夠的，希望是幾十萬個數據源。

　　基于這樣的架構，我們在國內的發展態勢要彌補過去大數據的不足，我們也沒辦法顛覆原來的大數據架構，重新構造一套可能不現實，希望有一個新方法來解決它的問題，我們就提出了一個大數據前置的部分，希望建立一個大緩存，這個緩存可以基于內存。緩存的意思好理解，把它處理到PB級，達到這樣的技術手段，實現特別大的緩存，在這個緩存上實現數據交換和共享的能力，來支撐和彌補我們以前在大數據架構上的不足。

　　我們借鑒Google和亞馬遜的方式，建設了大數據共享平臺，支持各種數據源實時和批量的數據交換。在數據源支持上，可以看到，不只支持數據庫，數據源本身不等于數據庫?，F在這個時代，數據源也包括網絡協議，從互聯網分裝下來的協議，包括中間件或者是各種文件，互聯網和公共設備所傳遞的一些設備，所以數據源不能簡單看是支撐多種數據庫。實施數據管理，數據同步、對比驗證、數據傳輸、數據交換、數據質量管理，將歷史數據和決策數據放到一個平臺，所有人都可以在這個平臺上進行大數據處理。

　　以前的大數據來自于不同的源，有不同的格式，所以我們有一個人工的苦活，全部是通過手工編寫腳本和驗證的方法來實現，要統一成一個格式來進行加工。我們現在有方法變成自動化，通過數據流水線的方式來實現數據從采集到加工的一體化服務?，F在亞馬遜正跟我們合作，把它原來云上的私有云到公有云手動遷移改造成一個自動的遷移。這種能力在新的數據加工里，有人會叫做邊緣計算，在新的架構里更強調通過統一的數據模式、一個數字形態，在數據采集的時候就開始計算，而不是把所有的數據匯集到一個集中的節點或者是集群上進行計算，所以我們賦予了數據計算的邊緣能力。

　　我們打通跨部門的數據橋梁，打通的意義在于解決了一個問題，有時候我們建一個數據平臺比較容易，但是建一個數據平臺往往發現建了一套存儲，并沒有用起來，各個部門難以協調，它的意義在于我們沒有強行要求數據上收，原來的數據邏輯還在，但是通過一個交換共享中心能夠輔助快速處理，并且處理的結果還可以返回，通過修橋梁的方式，我們更容易實現數據的打通和上收。

　　如果只有海量的交換和集群，可能還是不夠。比如中國人民銀行總行，在未來希望把3000家銀行、銀保監會、證監會的數據匯聚到人民銀行里，難度可想而知，工行一家的數據可能會把人民銀行的數據做宕機，3000家銀行的數據匯聚起來是更難的問題，除了有快速的交互，還需要有更快速的處理能力，不是兩套系統分別寫出來的。

　　為什么選DataHouse？大家覺得傳統的Hadoop是比較慢，它比我們這套系統能夠慢到600多倍，Hadoop早期是基于批處理數據，我們希望提供更快速的處理。當處理達到幾百倍的數量級，比如在公共服務方面，公安破一個案子，有可能要對案件研判和推理，一個是一周的時間計算出來，一個是一分鐘計算出來，這是本質的差別，不只是性能的差別。我們33個節點可以支持2個PB的數據讀寫，反饋速度是0.01秒來計量。

　　未來可以有一些演進，我們可以整合在datahouse架構里面。在橫向就打通數據流，從源數據到采集、入庫、處理，實現了完整打通，沒有借助于很多的大數據平臺，我們是在一個平臺上用S來完成的。

　　下面是一些案例，我們利用了大數據的能力，也應用了人工智能自然語言處理能力，給公安構造了10套系統，同時我們也寫了一個數據交換共享標準。這是在公安局的一個實際測試，對技偵大數據的測試，同時也在交通研究所，把全國交通卡口所有的圖像上收，來進行一次統一的數據分析處理。

　　這就是我們剛才講到的技偵數據處理，既有DPI的互聯網分裝的數據，也有通過采集和爬蟲的數據，看到分包數據的原始狀態，同時也有設備上的網關，如何把不同格式的數據匯聚到一起，最后提出一個服務。這是我們現在這套系統給大家展示的一種能力，不需要先做很多格式轉換，做一個臨時庫、臨時表，分別建數據集等，不需要這些東西，這些東西太浪費開發精力、周期也太長，我們在采集的同時就可以計算，計算的同時就可以發布。謝謝大家！

責任編輯：李泰民

- 咨詢
關注微信
請掃描二維碼

国产精品无码专区吃奶,97日日碰曰曰摸日日澡,亚洲日本va中文字幕无吗,亚洲欧美日韩久久一区二区,国产单亲乱视频