導讀

  它山之石,可以攻玉。為了幫助各界人士學習國外先進經驗,進一步了解大數據市場的定價、交易與保護,國脈戰略研究院專家楊冰之、林渠,帶來了《大數據市場調查:定價、交易與保護》的翻譯文章,相信會給大家以思想的碰撞、靈感的啟迪,促進大家思考,從而為我國推進數據要素市場化配置改革,貢獻國脈戰略研究院的智慧。本文為《大數據市場調查:定價、交易與保護》連載系列文章第五篇。

  數據定價和數據交易是互補的過程。由于數據具有商業價格,數據市場和數據交易方案成為輔助數據定價和共享過程的有效方式。此外,數據的價值推動了許多研究,如設計數據交易技術,以確保數據交易過程公平、安全和高效。在此,我們系統地研究了數據交易方案和平臺以及相關問題。

  A. 大數據交易的主要目的

  由于數據量正在大幅增加,物聯網技術也在以類似的速度發展,具有全面內容和具體細節的海量數據集變得越來越有價值。大數據交易的主要目的或好處可以分為兩個方面。一方面,數據交易過程應最大限度地提高數據所有者的利益。另一方面,該過程還應滿足消費者對海量數據的需求。消費者可以進一步利用這些數據集來改進其產品或服務。這無疑是一個對所有者和消費者都有利的過程。

  對于數據所有者:大數據是下一代生產力解決方案的基礎:數據技術(Data Technology)。Facebook、谷歌、亞馬遜、騰訊和阿里巴巴等數據所有者通過他們提供的服務收集海量數據。顯然,通過機器學習和數據挖掘技術支持的大數據分析技術,這些數據集為公司創造了巨大的價值。例如,借助機器學習和數據挖掘技術,電子商務公司能夠將商品推送到消費者的愿望清單或瀏覽歷史記錄上?;谖恢玫姆仗峁┥棠軌驗榭蛻魠^分家庭或工作地點,并在適當的時間提供最佳路線。盡管如此,并不是所有的公司都有能力收集高要求的數據,因為收集龐大而全面的數據集需要大量的基礎設施投資和長期持續努力。在提供服務、提高生產率和最大化數據價值方面,數據所有者強烈希望與他人交換自己的數據集。

  對于數據使用者:在競爭激烈的環境中,信息是公司發現新業務機會、價值觀和客戶的關鍵。盡管如此,巨大的挑戰是消費者如何獲得必要的數據集,因為他們自己沒有能力收集數據。為此,數據消費者強烈希望從市場上購買數據,并使用這些有價值的數據集改進其服務或產品。例如,有了充分的信息,制造商能夠最大限度地將不同消費者的需求與產品差異化相匹配,服務提供商能夠完善其服務計劃,以改進并針對其客戶提供服務。因此,數據交易是滿足這些需求的一種可行方法。

  如果沒有數據交易,數據仍然是靜態的,并形成單獨的信息孤島。因此,數據交易將數據作為一個動態流推動,實現數據的商業價值,并建立一個雙贏的市場。事實上,數據交易是管理大數據的總趨勢,也是大數據時代擴張的關鍵。此外,數據交易可以刺激由機器學習、數據挖掘和其他技術支持的數據分析,并為所有者和消費者帶來利益。在下文中,我們首先概述大數據交易的關鍵問題,然后介紹具有支持平臺和交易技術的大數據市場。

  B. 大數據交易的問題

  大數據交易涉及通過信息通信技術進行的資源交易和分配。已有大量的研究調查集中于資源交易和分配,并利用各種算法或博弈論方案優化交易過程。然而一些問題仍然沒有解決,包括如何確保多個供應商的利潤最大化,如何確保交易的真實性,如何保護供應商和消費者的隱私,以及如何建立一個可信的交易平臺。下面,我們將詳細討論這些問題。

  1) 多個所有者數據交易

  大多數與數據交易相關的研究都有局限性,即只考慮單個數據所有者。盡管如此,在現實世界中,數據市場中有許多數據所有者。挑戰在于如何定量分析每個所有者的所有權。當有多個所有者時,他們處于競爭中。例如,如果某個數據集有兩個所有者,則兩個所有者都希望通過自己的市場銷售該數據集。雖然需求是恒定的,但競爭出現了。因此,很難設計數學模型來描述這些復雜的需求。此外,正如我們提到的,數據商品的維護成本是總成本的另一個重要組成部分。大數據通常上傳并存儲在云端,更新、維護和修改的工作很難量化。因此,確定和考量每個所有者的維護成本至關重要。

  2) 交易公平與真實

  與傳統商品交易一樣,最重要的關注點是公平和真實,這是所有交易流程的基本要求。公平和真實有兩個主要方面。第一種是在供應商和消費者之間,另一種是在供應商、消費者和交易組織之間。這兩個方面對數據和數字商品交易都是挑戰,因為所有交易的商品都是虛擬商品,所有交易過程都是通過網絡進行的,這對所有供應商和消費者來說都是“盲目的”。為了解決這個問題,有一些研究集中在建立公平交易平臺,而另一些研究集中在基于密碼技術的數據商品。盡管如此,這些提議的方案都有一些局限性。例如,德爾加多·塞古拉(Delgado Segura)等人提出了具有公平協議的公平交易市場,交易過程可以隨時完成或終止,以確保供應商和消費者都不會蒙受損失。盡管如此,該平臺不能辨別虛假信息,一次只考慮一個交易過程。

  3) 隱私保護

  隱私對于供應商和消費者來說都是一個重要因素。在數據交易過程中,對消費者的一些個人信息應該進行隱私保護。同樣,對于數據商品,隱私顯然也很重要。一般來說,人們使用法律監督和技術保護,如版權法、水印、加密許可證等。然而,版權法只注重保護所有者的合法權利,不能直接保護數據的隱私。此外,水印技術只能作為調查中確定濫用的證據。這兩種保護方案都是無功的。關于數據加密技術,需要花費越來越多的計算資源來確保更高的隱私要求。一些研究集中在隱私保護方面。例如,有學者提出了最小化設計策略。該策略的原則是通過在每個時間間隔提供最少的數據量來降低隱私泄露的風險,并進一步提高較大的數據包的價格。通常用基于密碼技術的技術進行隱私保護,也有研究者提出了隱藏設計策略來加密和隱藏來自原始源的部分數據。加密過程可以使用不同的高效加密技術,在所有者將數據上傳到云/邊緣存儲節點時對數據進行加密。

  4) 第三方交易平臺

  隨著數據交易需求的增加,數據所有者很難建立自己的交易平臺,因此,第三方交易平臺成為實現這一目標的可行途徑。數據所有者委托第三方交易平臺向消費者銷售數據商品,類似于在在線市場上交易傳統商品。然而平臺的可靠性是一個很大的問題,因為數據商品的復制成本幾乎為零。許多研究提出了一些方案以避免第三方交易平臺通過單獨出售許可證和內容竊取數據商品或泄露信息。典型的是,所有者加密數據商品并將其上傳到交易平臺,然后將密鑰出售給消費者。因此只有購買許可證的消費者才能解密數據商品。

  C. 大數據市場

  與傳統商品交易的主要傳統市場類似,數據交易也需要數據市場來支持數據交易。請注意,數據是一個虛擬項目/數字商品,具有自己的特點。因此,為了公平、安全地在市場上交易數據,建立數據市場至關重要?,F有許多關于數據市場平臺和支持機制的研究成果。下面,我們將詳細討論數據市場。

  1) 市場平臺

  一個成功的數據市場需要為供應商和消費者提供最佳的銷售和購買體驗,還需要保護數據商品和個人信息的隱私。為了滿足這些要求,我們查看了一些現有的計劃。

  a:交易查詢

  在客戶決定購買數據集之前,有許多查詢過程用于搜索。不過查詢操作并不是免費的。例如,Microsoft Azure Marketplace的全球歷史天氣是每100次“交易”支付12美元。因此,市場應該有一個高效的查詢系統,以最大限度地降低消費者的成本。為了優化這些查詢,提出了一種大數據學習方案。該方案需要豐富的數據統計。然而由于數據商品不同于傳統商品,數據市場中的統計記錄較少(即沒有購買歷史記錄、無價值分配),只有數據集的大小和屬性等基本信息可用,這顯然是不夠的。

  為了找到這個問題的最佳解決方案,有學者提出了一種基于學習的優化方案。這種優化方案可以通過設計有效的算法來減少中間數據量,從而減少購買過程中的查詢次數。該方案包括解析器、優化器和執行引擎。具體來說,解析器首先在消費者注冊數據市場時獲取本地表信息。然后,優化器通過加載本地數據表中的參考數據和數據市場信息的統計信息來優化查詢。最后,將結果發送到執行引擎。方案經過優化,可以避免部分數據市場的接入,為消費者降低成本。

  b:動態交易

  現有的數據市場通常有兩個局限性。首先,數據市場通常只銷售整個數據集,而不是面向需求的子集,并且不支持任意查詢,正如我們前面提到的。第二,數據市場通常不支持數據更新和維護,因為原始數據集由所有者上傳,數據商品是靜態的。盡管如此,數據商品需要頻繁更新,因為數據是動態的。劉(Liu)和哈西古穆斯(Hacigümüs)提出了一個動態數據市場框架來解決這個問題。在該框架中使用了在線共享計劃,選擇算法來確保數據商品視圖的維護效率。然后通過維護數據商品的視圖,商品不斷更新。

  在另一項研究中,作者提出了一種分布式算法,其概念來自匹配博弈論,即按需銷售數據。該方案比較供應商和消費者的偏好函數,捕捉消費者的需求,找到數據商品的匹配部分,然后將匹配部分出售給消費者。該方案支持將所有參與者自組織到一個匹配表中,并確保匹配過程和結果動態地適應消費者的需求。結果表明,通過模擬,使用提出的方案,每個消費者的平均效用增加了25%到50%。

  c:隱私保護

  數據交易過程中的一個關鍵問題是如何信任供應商和消費者的交易平臺。供應商和消費者都不想相互暴露敏感的個人信息。一般來說,加密技術是保護敏感信息的一種有效方法,許多研究集中于使用基于加密技術的方案進行交易數據。例如,牛(Niu)等人提出了數據市場中的真實性和隱私保護(TPDM)機制。特別是,TPDM采用了帶有簽名的同態加密(身份識別)。它保護隱私和數據機密性,同時改進批量驗證和數據交易流程。與傳統的加密方案不同,基于身份的簽名組件在密文空間中處理數據。此外,來自數據所有者和消費者的所有簽名都是他們的真實身份,它可以防止所有惡意供應商或對手。

  2) 數據拍賣

  最流行的數據交易機制之一是通過拍賣過程。一般來說,拍賣是一種經濟驅動方案,旨在通過買方和賣方的投標過程分配商品并確定相應的價格。拍賣理論已在多個領域(經濟、電力市場、移動市場和其他領域)得到了很好的探索。由于能夠確保公平和效率,拍賣機制在解決大數據交易問題方面顯示出巨大潛力。在詳細回顧大數據市場拍賣理論的相關工作之前,我們先介紹拍賣機制的基本概念如下:

  投標人:在拍賣過程中,投標人是提交投標書并打算在市場上購買商品的人。在大數據市場中,投標人通常是數據消費者。

  拍賣人:拍賣師扮演著代理人的角色,負責運行拍賣流程、確定獲勝者、進行付款和分配。在大數據市場中,拍賣商可以是云中的代理。

  賣方:賣方是投標和出售商品的所有人。在大數據市場中,這包括從不同平臺和設備生成、收集和存儲大規模數據以供進一步銷售的組織(谷歌、Facebook等)。

  估價:在拍賣過程中,買方和賣方均對其要求或出售的每一單個商品進行估價。此外,估價可以高于或低于最終結算價格,最終結算價格由拍賣師在拍賣過程中確定。

  結算價格:在拍賣過程中,賣方和買方提交請求和出價。詢價單表示要出售商品的要價,而投標單表示所需商品的投標價。清算價格將由拍賣人根據優化目標(如社會利益最大化)確定。換句話說,結算價格是買賣雙方達成交易的價格。

  a.  數據拍賣模型

  最近,人們對拍賣機制進行了大量研究,并對其應用進行了測試,其中許多已經被應用到大數據交易中,并越來越受歡迎。我們在此介紹一些典型的拍賣類型,這些拍賣類型已經在大數據交易中使用,或者有可能解決大數據市場固有的交易問題。圖4展示了基于拍賣的大數據交易流程的典型框架。

圖片

 ?。▓D4. 基于拍賣的大數據交易流程框架)

  單邊拍賣:單邊拍賣包括正向和反向拍賣。遠期拍賣也被稱為賣方拍賣,在這類拍賣中,買方競爭賣方的商品。例如,為了在數據生產者和數據用戶之間實現有效的數據流通,安(An)等人提出了多輪防偽前向拍賣(MFPA)機制,旨在最大化數據所有者和消費者的社會利益。為了抵御假名競價攻擊,數據量在MFPA中以捆綁大小進行交易。作者進行了理論分析,以證明投標人可以實現最大效用,當且僅當他們的投標和要求是真實提交時。在反向拍賣的情況下,賣家競相向買家出售商品。一般來說,在大數據市場中,反向拍賣機制適用于多個數據所有者將數據出售給一個數據消費者或數據采集者的情況。

  雙重拍賣:雙重拍賣是現實世界實踐中最常用的拍賣之一,在紐約證券交易所、智能電網和移動市場中得到了廣泛應用。在雙重拍賣過程中,多個買家和多個賣家向拍賣師提交出價和請求。圖5顯示了買家和賣家的出價和要求的典型曲線[。在這里,黑色和紅色曲線分別表示賣方請求的升序和買方出價的降序。在收集了競買人的資料后,拍賣師根據結算價格以及買家向賣家支付的款項匹配這些出價和要求。關于設計大數據交易市場中的雙重拍賣機制已經開展了相關的探索工作。

 圖片 

(圖5.雙拍賣中的出價和出價曲線)

  例如,為了防止自私行為導致的低交易效率,曹(Cao)等人提出了一種迭代拍賣機制。這種拍賣機制可以避免自私行為,防止直接訪問私人信息。迭代拍賣的過程包括四個步驟。在第一步中,拍賣師向所有消費者公布數據商品的分配、定價和拍賣規則。在第二步中,每個消費者計算投標價格,以使公用事業最大化。在第三步中,拍賣師收到投標價格,并根據規則和價格宣布結果。這三個步驟也存在于常見的拍賣過程中。他們提議的拍賣機制的獨特之處是第四步,基于先前的拍賣過程。在此步驟中,拍賣師可以調整并重新宣布新的起始價格和拍賣規則,以開始全新的拍賣。這種迭代拍賣過程鼓勵消費者在拍賣過程中列出合理的價格。此外,在二級移動市場中,蘇珊托(Susanto)等人提出了一種基于McAfee的雙重拍賣機制,以實現異構動態環境中的移動數據交易。他們的理論分析證明了所提出的雙重拍賣方案能夠實現納什均衡和真實性。

  印章競投:在密封投標拍賣中,買家在不知道其他買家的投標信息的情況下私下向拍賣師提交其投標。與傳統拍賣不同,印章競價拍賣是一次性拍賣,會導致買家的非公開競爭。印章競價拍賣已經得到了很好的探索,典型的例子包括kth價格拍賣、VCG拍賣和McAfee拍賣。第kth價格拍賣可分為第一價格拍賣和第二價格拍賣。在第一價格拍賣中,中標人是提交最高投標價格并因此支付最高價格以贏得拍賣的投標人。在第二價格拍賣(也稱為Vickrey拍賣)中,中標人是提交最高投標價格的投標人,而中標人將支付第二高價格以贏得拍賣。請注意,第一價格拍賣確保了賣方的最大利潤,而第二價格拍賣誘導買方如實報告,確保了拍賣方案的公平性。Vickrey Clarke Groves(VCG)拍賣似乎是Vickrey拍賣的一種廣義形式。關于McAfee拍賣,這是Vickrey拍賣的延伸。具體而言,買家和賣家向拍賣師提交私人出價,其中買家(賣家)的出價高于(低于)閾值價格,而獲勝者將支付未贏得拍賣的最高價格。在大數據市場中,已經研究了一些密封競標方案。例如,焦(Jiao)等人提出了一個基于貝葉斯優化機制的最優價格密封競標市場模型。首先,數據源分為三組:眾感數據、社會數據和感知數據。然后,定義了成本函數、滿意度函數和數據效用函數。根據這些函數,確定數據商品的起始價格。在貝葉斯利潤最大化拍賣過程中,計算了估值分布函數,在此函數基礎上確定了最優價格點和次優價格點。同時,確定了從這些收集器獲取的最佳數據大小。不過,這項拍賣計劃只考慮一輪拍賣。

  組合拍賣:在大數據交易市場中,買方對數據的需求和賣方對數據的供應總是多種多樣的。因此,在應用上述拍賣方案時,買賣雙方都不能通過簡單地將數據放在一起進行交易而感到滿意。組合拍賣就是針對這種情況設計的。在組合拍賣中,市場上的競買人可以對商品的組合和捆綁進行競價。特別是,投標人提交的標書包含多種商品的組合和組合價格。然后拍賣商根據競拍者的出價和要求,為競拍者做出最佳分配。

  b. 數據拍賣模型中的隱私保護

  一個有效的拍賣方案傾向于誘導投標人如實提交投標資料,以確保公平性,并實現社會利益最大化,這是經策略證明的特性。此外,作為虛擬商品,在拍賣過程中,數據只能通過互聯網進行交易。因此投標人的行為將使其面臨發布私人信息的風險。這些私人信息與投標人對數據類型的偏好、投標人的活動時間、經濟狀況甚至地理位置有關。此類信息的發布不僅會造成投標人的經濟損失,還會威脅到投標人的人身安全。例如,如果用戶感興趣的數據類型被發布,賣方可能會提高其估值,投標人將在未來遭受惡意投標,其利益將受到損害。此外,如果投標人的活動時間或位置被公布,其人身安全將受到競爭對手或其他惡意行為者的嚴重威脅??傊?,隱私保護仍然是大數據拍賣市場的關鍵問題。然而在這一領域開展的研究工作很少。

  大量而廣泛的研究集中于在其他類型的拍賣市場中設計保護隱私的拍賣方案,如頻譜市場、移動人群感應、云計算市場和電動汽車(EV)充電市場。一般來說,拍賣方案中的隱私保護方法可分為三個方面:匿名性、密碼系統和擾動,這三個方面在大數據交易市場中的隱私保護方面具有擴展潛力。

  具體而言,匿名性提供了有效的方法來保護投標人的隱私不受公眾的影響。不過這種方法只是將公共信息的敏感部分匿名化。在應用匿名方法時,隱私將通過攻擊(鏈接攻擊等)釋放。密碼系統能夠防止對手入侵拍賣系統獲取隱私信息。密碼系統中最常用的方法之一是同態加密系統,它在拍賣系統中添加一個代理以幫助拍賣過程,并確保拍賣系統的每個部分都不能保存投標人的所有私人信息。當對手試圖通過比較多個類似出價產生的拍賣結果來推斷投標人的個人資料時,可以應用包括差異隱私的擾動法。差分隱私方案將隨機噪聲添加到拍賣結果中,并確保相同投標人的檔案不會產生相同的拍賣結果。因此對手無法推斷出投標人的確切情況。

  c. 第三方拍賣平臺

  基于數據拍賣的增長,數據所有者將發現很難建立自己的拍賣平臺。因此第三方拍賣平臺正在成為數據拍賣領域的主要競爭者。安全性和真實性對于第三方拍賣平臺尤為重要。有少數研究工作集中在拍賣平臺策略。設計了一種基于同態加密的隱私保護大數據拍賣方案。特別是拍賣平臺的設計基于同態加密的概念,以滿足隱私保護的需要。在這項工作中,整個系統由兩個相互獨立的實體組成:拍賣商(AC)和中間平臺(IP)。所有敏感投標均使用Paillier密碼系統進行加密,并輔之以一次性密鑰。在這種結構下,中間平臺首先接收使用Paillier加密的密文形式的投標。這些出價將在發送給拍賣商之前用便箋簿偽裝。此外,此設計使目標拍賣數據只能由拍賣的獲勝者訪問。最后,應用Paillier密碼系統的數字簽名功能,以確保數據在傳輸過程中,免受拍賣商或平臺操縱。此設計解決了與不受信任的第三方拍賣商進行數據拍賣時的隱私保護問題。拍賣的獲勝者可以通過使用加密的出價來確定,但賣家和競拍者都不必擔心敏感信息的泄露。流程和算法設計良好,總體時間復雜度為O(log n),允許大規模部署。同時該結構已被證明是安全的,可以抵御參與者所關心的不同類型的攻擊,包括虛假出價和平臺受損的情況。

  總之,在本章節,我們首先從數據所有者和數據消費者的角度討論了大數據交易的主要目的。然后,我們概述了大數據交易在多所有者數據交易、交易公平性和真實性、隱私保護和第三方交易平臺方面的問題。此外,我們還全面講述了大數據市場平臺和數據拍賣模型。盡管如此,為大數據交易設計有效的交易平臺和拍賣模型仍然是一個具有挑戰性的問題。需要進一步研究支持大數據交易,包括設計安全的第三方交易平臺,創建有效的拍賣模型以確保多個數據所有者和消費者之間的真實交易,以及開發確保敏感信息無法被對手等推斷的隱私保護機制。

更多精彩,請關注“官方微信”

11.jpg

 關于國脈 

國脈,是大數據治理、數字政府、營商環境、數字經濟、政務服務專業提供商。創新提出"軟件+咨詢+數據+平臺+創新業務"五位一體服務模型,擁有超能城市APP、營商環境流程再造系統、營商環境督查與考核評估系統、政策智能服務系統、數據基因、數據母體等幾十項軟件產品,長期為中國智慧城市、智慧政府和智慧企業提供專業咨詢規劃和數據服務,廣泛服務于發改委、營商環境局、考核辦、大數據局、行政審批局等政府客戶、中央企業和高等院校。

責任編輯:wuwenfei