北京消協(xié)殺熟榜發(fā)布 在線旅游等高居榜首
原標題:北京消協(xié)殺熟榜發(fā)布,是什么技術(shù)正在“偷窺”我們?
四海網(wǎng)訊 近日,北京市消費者協(xié)會發(fā)布了“大數(shù)據(jù)殺熟”問題調(diào)查結(jié)果。在主觀問卷調(diào)查方面顯示,88.32%的被調(diào)查者認為“大數(shù)據(jù)殺熟”現(xiàn)象普遍或很普遍,有56.92%的被調(diào)查者表示有過被“大數(shù)據(jù)殺熟”的經(jīng)歷。同時,被調(diào)查者認為網(wǎng)購平臺、在線旅游和網(wǎng)約車等消費“大數(shù)據(jù)殺熟”問題最多,在線旅游高居榜首。
大數(shù)據(jù)“殺熟”與“價格歧視”
價格歧視的概念是指零售商、批發(fā)商或制造商對同一商品向不同的顧客收取不同的價格。這是一種普遍的做法,并不一定意味著消極歧視。
一、二、三級歧視分別適用于企業(yè)采用的不同定價方法。這在很大程度上取決于對細分市場的了解,以及消費者支付更高或更低價格的能力,即需求彈性。
有人可能會為一件商品支付更多的錢,這被認為是需求彈性較低的。另一個不愿意付那么多錢的人相對而言具有較高的彈性。
一級價格歧視包括根據(jù)每位顧客的個人意愿向他們收取一定的價格。
二級價格歧視不是根據(jù)顧客的特點收費,而是根據(jù)所購商品的數(shù)量收費,例如數(shù)量折扣。
第三級價格歧視依賴于把顧客分成不同的群體,并根據(jù)這些群體內(nèi)的支付意愿收取不同的價格,例如電影的高級折扣。
顯然,賣家并不總是能夠識別出誰愿意為某些商品支付更高的價格,但當他或她能夠這樣做時,他的利潤就會增加。
消費者可以在新車和二手車的銷售中看到一級價格歧視。
人們會為具有相同功能的汽車支付不同的價格,銷售人員必須嘗試衡量汽車的最高售價。
這通常包括一個討價還價的方面,即消費者試圖以更低的價格進行談判。
二級歧視是指公司對更高數(shù)量的產(chǎn)品收取更低的價格。
如果客戶大量訂購,并且能夠同時購買大量相同的商品,客戶可能會得到折扣。這個“批發(fā)價”不適用于一次只訂購幾件商品的客戶。
這種價格歧視在零售店很常見,如果顧客買兩件T恤而不是一件,就可以打折。
這種形式有助于售出庫存,為公司創(chuàng)造更多的收入。
三級價格歧視是建立在對市場的了解基礎(chǔ)上的,基于人口群體,并且發(fā)生的頻率很高。
這種類型有許多不同的形式,但在所有情況下,都試圖從每個細分的“消費者組”獲得最多的銷售額。
例如,老年人被認為是一個群體,他們經(jīng)常在電影院、交通、餐館,甚至在零售商店享受折扣,老年人每周可能有一個“老年人日”,可以在商品上打折。
“學(xué)生”是另一個細分的群體,也可能被提供更低的價格。
老年人和學(xué)生都有更高的需求彈性,通?梢越邮鼙纫话闵习嘧甯偷膬r格。
在考慮需求彈性時,市場細分也可能會評價一個地區(qū)的社會經(jīng)濟方面。
在一個零售商知道自己可以為一件商品賺到更多錢的地區(qū),零售雜貨店提供不同的價格并不罕見。
如果一個地方只有一家連鎖店,零售雜貨店可能會提供更高的價格,因為人們沒有其他地方可以購物。
三級歧視的另一種形式是機票的臨時折扣,目的是增加業(yè)務(wù)。這些折扣可能是季節(jié)性的,旨在促銷并增加業(yè)務(wù)。
與農(nóng)村地區(qū)相比,城市地區(qū)的人可能要支付更多的機票或酒店費用。
是什么技術(shù)在“偷窺”我們?
價格歧視并不是一件新鮮事,但有了互聯(lián)網(wǎng)時代的大數(shù)據(jù)等新興技術(shù),這種“不同人不同價”的規(guī)模和速度都達到了新的階段。許多消費者突然意識到自己的思想、消費觀念甚至生活的方方面面都已被置于他人的“監(jiān)視”之下,這種隱私泄露的問題讓大數(shù)據(jù)等技術(shù)成為了一把“雙刃劍”。
那么大數(shù)據(jù)背后的技術(shù)原理是什么?新時代究竟是什么技術(shù)正在收集我們的個人數(shù)據(jù)?
從產(chǎn)生數(shù)據(jù)、收集數(shù)據(jù)、存儲數(shù)據(jù)到數(shù)據(jù)處理分析,這一過程中所涉及的各種技術(shù)可能比我們想象的還要多得多。
數(shù)據(jù)采集
獲取大數(shù)據(jù)需要兩個主要的子組件,第一個組件是感知數(shù)據(jù)本身的存在,第二個組件是收集和存儲數(shù)據(jù)的階段。
這兩個子組件都是非常多樣化的領(lǐng)域,用于執(zhí)行這些任務(wù)的技術(shù)發(fā)生了許多快速變化。
數(shù)據(jù)感知
數(shù)據(jù)并不存在于真空中,而是作為一個更大的過程的一部分而創(chuàng)建的,尤其是在現(xiàn)代技術(shù)方面。
因此,數(shù)據(jù)來源本身在決定如何在更大的范圍內(nèi)捕獲和分析數(shù)據(jù)方面起著至關(guān)重要的作用。
實體不斷向環(huán)境中釋放信息,這些信息可以被用于大數(shù)據(jù)的目的,從而產(chǎn)生兩種主要類型的數(shù)據(jù):“天生數(shù)字化”的或“天生模擬”的數(shù)據(jù)。
“天生數(shù)字化”數(shù)據(jù)
“天生數(shù)字化”的信息是由用戶或數(shù)字系統(tǒng)創(chuàng)建的,專門供計算機或數(shù)據(jù)處理系統(tǒng)使用。這是一個范圍廣泛的信息,每天都有更新的字段被添加到這個類別中。
簡短地列出清單:電子郵件和短信、任何形式的數(shù)字內(nèi)容輸入,包括鍵盤、鼠標交互和觸摸屏、GPS定位數(shù)據(jù)、日常家用電器(物聯(lián)網(wǎng))數(shù)據(jù)等。
所有這些數(shù)據(jù)都可以被跟蹤和標記到用戶身上,并被聚合起來形成一個更大的圖景,從而極大地擴大了構(gòu)成大數(shù)據(jù)中的“數(shù)據(jù)”的范圍。
這些“天生數(shù)字化”的資料,在送去收集/儲存前,如何由用戶方面的科技途徑編錄?其中一些方法如下:
Cookies——網(wǎng)站會在用戶設(shè)備上留下一些小的、通常只是文本的文件,以便在隨后的事件中(例如,重新訪問網(wǎng)站)進行訪問、任務(wù)或操作(例如,登錄電子郵件帳戶)。
網(wǎng)站分析——各種各樣的服務(wù),如谷歌Analytics、Piwik等,都可以使用Java和其他web開發(fā)語言來記錄用戶在網(wǎng)站上的行為,進行非常詳細、密切的跟蹤,包括用戶鼠標在鏈接上方停留的時間,花在網(wǎng)站/應(yīng)用程序上的時間,在某些情況下,甚至花在頁面特定部分的時間。
GPS——隨著具有基本定位功能的智能手機的廣泛使用,這些設(shè)備上的GPS傳感器用于向應(yīng)用程序、操作系統(tǒng),甚至是第三方提供有關(guān)用戶位置的定期、分鐘級的驅(qū)動更新,F(xiàn)代技術(shù)的更新,如A-GPS可以在沒有衛(wèi)星覆蓋的情況下提供基本的定位信息,極大地擴展了室內(nèi)定位數(shù)據(jù)收集的能力。
所有這些感知“天生數(shù)字化”數(shù)據(jù)的例子都是常見的,全世界數(shù)十億人每天都在使用這些技術(shù),這象征著它們已經(jīng)深深地滲透到我們的日常生活中。
除了隱私和安全方面的擔(dān)憂,這反過來也會導(dǎo)致為任何相關(guān)方收集的可用數(shù)據(jù)呈指數(shù)級增長。
傳感器數(shù)據(jù)
當信息包含了物理世界的特征時,如圖像、視頻、心跳等,我們稱之為“模擬”。
當這些信息被“傳感器”處理時,這些信息就變成了電子信息。“傳感器”是一種能夠記錄物理現(xiàn)象并將其轉(zhuǎn)化為數(shù)字信息的設(shè)備。
以下是一些例子,可較好地說明以模擬方式產(chǎn)生但以數(shù)字方式收集的資料:
設(shè)備上的語音和/或視頻內(nèi)容——除了電話和其他形式的通信,商家還開始定期捕獲基于視頻和語音的交互,以提供增強的服務(wù)。
其中包括Google Now、Cortana等數(shù)字助手以及車載語音導(dǎo)航系統(tǒng)等。
個人健康數(shù)據(jù)——如心跳、血壓、呼吸等等, 這些個人的、潛在的非常有用的信息是由設(shè)備上的專用傳感器收集的,使用如Fitbit、Mi Band這樣的設(shè)備,以及越來越復(fù)雜的智能手機應(yīng)用程序,如Google Fit,無需任何特殊設(shè)備就能做到這一點。
家用電器上的攝像頭——視頻游戲機等設(shè)備上的攝像頭和傳感器(Kinect就是一個相關(guān)例子)可以記錄詳細的人類互動,除了與設(shè)備本身進行基本互動外,還可以挖掘大量信息。
雖然不像“天生數(shù)字化”數(shù)據(jù)那樣是一個龐大的類別,但技術(shù)成本日益降低,以及數(shù)字、網(wǎng)絡(luò)化設(shè)備的普遍使用,正導(dǎo)致傳統(tǒng)上本質(zhì)上類似的信息被捕捉并以快速增長的速度使用。
數(shù)據(jù)收集與存儲
傳統(tǒng)數(shù)據(jù)的處理通常采用提取、轉(zhuǎn)換、加載(ETL)方法,該方法用于從外部數(shù)據(jù)源收集數(shù)據(jù),修改數(shù)據(jù)以適應(yīng)需要,然后將數(shù)據(jù)上傳到數(shù)據(jù)存儲系統(tǒng)中,供將來使用。
如電子表格、RDBMS數(shù)據(jù)庫、結(jié)構(gòu)化查詢語言(SQL)等技術(shù),最初都是用來執(zhí)行這些任務(wù)的,通常都是手工完成的。然而,對于大數(shù)據(jù)來說,傳統(tǒng)的方法既低效又不能滿足現(xiàn)代使用的需求。
大數(shù)據(jù)中使用的大多數(shù)解決方案都依賴于兩個主要組件來存儲數(shù)據(jù):分布式系統(tǒng)和運行在非關(guān)系(內(nèi)存)數(shù)據(jù)庫系統(tǒng)上的大規(guī)模并行處理(MPP)。
傳統(tǒng)上,數(shù)據(jù)庫性能和可靠性是使用純性能指標(每秒浮點運算次數(shù)等)以及原子性、一致性、隔離性、持久性(ACID)標準來度量的。
大數(shù)據(jù)應(yīng)用中最常用的數(shù)據(jù)庫系統(tǒng)如下:
非關(guān)系型數(shù)據(jù)庫
傳統(tǒng)上,數(shù)據(jù)庫是結(jié)構(gòu)化的實體,僅依賴于使用顯式定義的關(guān)系將存儲在其中的信息關(guān)聯(lián)起來的能力。
甚至在大數(shù)據(jù)出現(xiàn)之前,這一前景就已經(jīng)成為利用大量存儲信息的限制因素,這導(dǎo)致了非關(guān)系數(shù)據(jù)庫系統(tǒng)的發(fā)展。
非關(guān)系數(shù)據(jù)庫也稱為NoSQL數(shù)據(jù)庫,包括MongoDB、Couchbase等。它們是為管理和存儲非結(jié)構(gòu)化數(shù)據(jù)而開發(fā)的。
它們的目標是可伸縮性、靈活性和簡化開發(fā)。
這樣的數(shù)據(jù)庫更側(cè)重于高性能的可伸縮數(shù)據(jù)存儲,允許在應(yīng)用層而不是數(shù)據(jù)庫特定語言中編寫任務(wù),從而實現(xiàn)更好的互操作性。
內(nèi)存數(shù)據(jù)庫(IMDB)
為了克服傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的性能限制,一些現(xiàn)代數(shù)據(jù)庫現(xiàn)在使用內(nèi)存數(shù)據(jù)庫。這些系統(tǒng)管理服務(wù)器RAM內(nèi)存中的數(shù)據(jù),從而消除存儲磁盤輸入/輸出。
與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)所需的分鐘或小時相比,這幾乎允許來自數(shù)據(jù)庫的實時響應(yīng)。
這種性能上的改進是如此之大,以至于人們正在為使用IMDB系統(tǒng)開發(fā)全新的應(yīng)用程序。
這些IMDB系統(tǒng)也被用于對大數(shù)據(jù)的高級分析,特別是為了提高數(shù)據(jù)的訪問速度和分析模型的評分率。
IMDB的例子包括VoltDB、NuoDB、SolidDB和Apache Spark。
混合系統(tǒng)(Hybrid Systems)
這是在大數(shù)據(jù)應(yīng)用處理或分析數(shù)據(jù)之前用來存儲數(shù)據(jù)的兩大系統(tǒng)。
然而,數(shù)據(jù)存儲和數(shù)據(jù)管理之間的差別很小,大多數(shù)數(shù)據(jù)庫系統(tǒng)還包含各種獨特的屬性,以滿足特定類型的分析。
Apache Hadoop33是一種非常常用的混合系統(tǒng),它處理存儲和數(shù)據(jù)感知。
Apache Hadoop由兩個主要組件組成:用于大數(shù)據(jù)存儲的HDFS和用于大數(shù)據(jù)分析的MapReduce。
Hadoop中的HDFS存儲功能提供了一個可靠的分布式文件系統(tǒng),可以跨多個系統(tǒng)存儲,用于處理和冗余。
文件系統(tǒng)針對大型文件進行了優(yōu)化,因為單個文件被分割成塊并分布在稱為集群節(jié)點的系統(tǒng)中。
此外,節(jié)點之間的數(shù)據(jù)由復(fù)制機制保護,即使任何節(jié)點失敗,復(fù)制機制也確?捎眯浴
Hadoop的冗余性、速度、在商品硬件上運行的能力、行業(yè)支持以及快速的發(fā)展速度,使得它幾乎與大數(shù)據(jù)同步。
數(shù)據(jù)意識
在大數(shù)據(jù)背景下,數(shù)據(jù)感知的任務(wù)是在一組數(shù)據(jù)中創(chuàng)建一個關(guān)系方案,允許數(shù)據(jù)的不同用戶確定流動但有效的數(shù)據(jù)上下文,并將其用于他們想要的任務(wù)。
它是一個相對較新的領(lǐng)域,目前大部分工作都是在語義結(jié)構(gòu)上進行的,以允許數(shù)據(jù)以互操作格式獲得上下文,這與當前系統(tǒng)不同,在當前系統(tǒng)中,數(shù)據(jù)使用惟一的、特定于模型的構(gòu)造來獲得上下文(如XML模式等)。
這個領(lǐng)域的一些原始工作是以使用資源描述框架(RDF)的形式進行的,RDF的構(gòu)建主要是為了以一種可移植的方式描述數(shù)據(jù)。
SPARQL是用于實現(xiàn)基于RDF的設(shè)計的語言,但在公共領(lǐng)域和大數(shù)據(jù)領(lǐng)域,這兩種語言都沒有得到充分利用。
Kurt Cagle和Bob DuCharme等作者預(yù)測,它將在未來幾年爆發(fā)。
企業(yè)也開始意識到互操作上下文的價值,Oracle Spatial和IBM的DB2在過去3年中已經(jīng)包含了RDF和SPARQL支持。
盡管沒有得到充分利用,但該領(lǐng)域的快速發(fā)展將使數(shù)據(jù)意識對Hadoop甚至SQL這樣的大數(shù)據(jù)產(chǎn)生影響。
其中一些方面已經(jīng)開始應(yīng)用于人工智能、自然語言處理等領(lǐng)域,具有巨大的發(fā)展空間。
數(shù)據(jù)處理與分析
數(shù)據(jù)處理主要有三個目標:確定所收集的數(shù)據(jù)是否具有內(nèi)部一致性;使用他們能夠理解的隱喻或類比,使數(shù)據(jù)對其他系統(tǒng)或用戶有意義;并且(許多人認為是最重要的)基于過去的數(shù)據(jù)和趨勢提供對未來事件和行為的預(yù)測。
這是一個非常廣闊的領(lǐng)域,技術(shù)日新月異,本節(jié)主要關(guān)注數(shù)據(jù)分析中最常用的技術(shù)。
為了進行有效的處理,數(shù)據(jù)分析需要滿足四個主要條件:快速、數(shù)據(jù)加載、快速查詢處理、有效利用存儲和適應(yīng)動態(tài)工作負載模式。
通常與滿足這一標準以及大數(shù)據(jù)相關(guān)的分析模型是MapReduce。
MapReduce是一種通用的并行編程概念,源于函數(shù)式編程語言的“Map”和“Reduce”,特別適合大數(shù)據(jù)操作。
它是Hadoop的核心,并在其他大數(shù)據(jù)系統(tǒng)中執(zhí)行數(shù)據(jù)處理和分析功能。
MapReduce通過將任務(wù)分解為多個步驟并在多個系統(tǒng)中并行執(zhí)行這些步驟來操作。
這樣做有兩個好處,一是縮短了完成任務(wù)所需的時間,二是減少了執(zhí)行任務(wù)所花費的精力和精力。
該模型非常適合大數(shù)據(jù)操作所需的大數(shù)據(jù)集和快速響應(yīng)時間。
還有其他一些更小眾的模型和算法(如LinkedIn使用的Voldemort項目),它們也被用于大數(shù)據(jù)。
數(shù)據(jù)治理
數(shù)據(jù)治理是對原始大數(shù)據(jù)以及大數(shù)據(jù)產(chǎn)生的經(jīng)過處理的信息進行管理,以滿足法律、法規(guī)和企業(yè)強加的要求。
雖然數(shù)據(jù)治理沒有標準化的格式,但各部門(尤其是醫(yī)療保健部門)越來越多地呼吁創(chuàng)建這種格式,以確保全面可靠、安全和一致地使用大數(shù)據(jù)。
以下策略和技術(shù)已被應(yīng)用或建議用于數(shù)據(jù)治理,并取得了不同程度的成功:
零知識系統(tǒng)(Zero-knowledge systems):該技術(shù)建議對底層數(shù)據(jù)保持保密性,同時允許對加密數(shù)據(jù)進行某些高層抽象的檢查。
為了使系統(tǒng)為零知識,客戶機的系統(tǒng)必須加密數(shù)據(jù)并將其發(fā)送給存儲提供程序。
因此,提供程序以加密格式存儲數(shù)據(jù),除非擁有將數(shù)據(jù)解密為明文的密鑰,否則無法對其進行相同的解密。
這允許個人向存儲提供程序存儲數(shù)據(jù),同時保持包含在此類信息中的詳細信息的匿名性。然而,這些目前只是開始在簡單的情況下使用。
到目前為止,它們還不能擴展到非結(jié)構(gòu)化和復(fù)雜的情況下,在用于研究和數(shù)據(jù)挖掘目的之前,必須對它們進行少量的開發(fā)。
同態(tài)加密:同態(tài)加密是一種隱私保護技術(shù),它對加密的數(shù)據(jù)執(zhí)行搜索和其他計算,同時保護個人隱私。
然而,在大數(shù)據(jù)時代保護隱私的背景下,這一技術(shù)一直被認為是不切實際的,并且被認為是近期不太可能的政策選擇。
多方計算:在這種技術(shù)中,計算是在加密的分布式數(shù)據(jù)存儲上進行的。
這種機制與同態(tài)加密密切相關(guān),在同態(tài)加密中,使用稱為“collusion-robust”的加密算法將單個數(shù)據(jù)保持私有,而用同樣的算法計算統(tǒng)計數(shù)據(jù)。
涉及到的各方都知道一些私有數(shù)據(jù),并且他們每個人都使用一個協(xié)議,該協(xié)議根據(jù)他們知道的和不知道的信息產(chǎn)生結(jié)果,而不揭示他們不知道的數(shù)據(jù)。
因此,多方計算有助于在不損害個人隱私的情況下生成用于統(tǒng)計和研究目的的有用數(shù)據(jù)。
差別隱私:盡管這項技術(shù)的發(fā)展與加密有關(guān),但它遵循的是一種不同的技術(shù)。
差別隱私的目的是最大限度地提高計算和數(shù)據(jù)庫查詢的精度,同時降低數(shù)據(jù)庫中有記錄的數(shù)據(jù)所有者的可識別性,通常通過混淆查詢結(jié)果來實現(xiàn)。
這在今天大數(shù)據(jù)的存在中得到了廣泛的應(yīng)用,以保證隱私的保護,同時試圖獲得大規(guī)模數(shù)據(jù)收集的好處。
可搜索加密:通過這種機制,數(shù)據(jù)主體可以在最小化暴露和最大化隱私的同時確保某些數(shù)據(jù)可搜索。
數(shù)據(jù)所有者可以通過搜索引擎以加密格式提供數(shù)據(jù),但通過添加由某些關(guān)鍵字組成的標簽(這些關(guān)鍵字可以被搜索引擎破譯),從而使其信息可用。
當使用這些特定的關(guān)鍵字進行搜索時,這些加密數(shù)據(jù)會顯示在搜索結(jié)果中,但是只有當用戶擁有解密信息所需的密鑰時才能讀取這些數(shù)據(jù)。
這種加密技術(shù)為個人數(shù)據(jù)提供了最大的安全性,并盡可能地保護隱私。
K-匿名性:為了保護隱私,避免重新識別,目前正在應(yīng)用k-匿名性的特性。
如果個體特定的數(shù)據(jù)可以被發(fā)布并用于各種目的而不會被重新識別,某一數(shù)據(jù)集被認為具有K-匿名性。
對數(shù)據(jù)的分析應(yīng)在不將數(shù)據(jù)歸于數(shù)據(jù)所屬的個人的情況下進行,并應(yīng)對此提供科學(xué)保證。
身份管理系統(tǒng):這些系統(tǒng)使個人能夠建立和保護自己的身份,利用屬性來解釋這些身份,跟蹤他們的身份活動,如果他們愿意,還可以刪除他們的身份。
在分析數(shù)據(jù)之前,它使用加密方案和協(xié)議對個人的身份和證書進行匿名或假名化處理。
隱私保護數(shù)據(jù)發(fā)布(PPDP):這是一種向分析人員提供個人信息的方法,這種方法能夠從數(shù)據(jù)庫中解碼特定的信息,同時防止推斷可能導(dǎo)致侵犯隱私的某些其他信息。
分析所必需的數(shù)據(jù)將提供給處理者,而敏感數(shù)據(jù)將不予以披露。這個工具主要關(guān)注微數(shù)據(jù)。
隱私保護數(shù)據(jù)挖掘(PPDM):該機制使用擾動方法和隨機化以及加密技術(shù),以便允許對不包含任何形式敏感信息的過濾版本的數(shù)據(jù)進行數(shù)據(jù)挖掘。
與PPDP不同,PPDM側(cè)重于數(shù)據(jù)挖掘結(jié)果。
結(jié)論
目前,盡管88.32%的被調(diào)查者認為大數(shù)據(jù)“殺熟”現(xiàn)象普遍或很普遍,但消費者發(fā)現(xiàn)被大數(shù)據(jù)“殺熟”后,由于其存在復(fù)雜性和隱蔽性,維權(quán)舉證確實存在困難。
理解大數(shù)據(jù)背后的復(fù)雜技術(shù)和原理,有助于讓大數(shù)據(jù)應(yīng)用的過程更加透明,并對大數(shù)據(jù)技術(shù)可能造成的危害進行預(yù)防和監(jiān)管。