日期:2013-11-04 &nb樹議sp;來源:中文互聯網數據資訊中心
要東 在寫這(zhè)篇大數據用友文章之前,我發(fā)現身邊很多IT人對(她愛duì)于這(zhè)些熱門的新技術、新趨勢往往趨之若鹜卻又很難說(shu在船ō)的透徹,如果你問他大數據是什麼(me)?估計很少能(né話來ng)說(shuō)出一二三來。究其原因,一是因爲大家對(duì)大雪刀數據這(zhè)類新技術有著(zhe)相同的原始渴求,至生裡少知其然在聊天時(shí)不會都厭(huì)顯得很“土鼈”;二是在工作和生活環境中真從亮正能(néng)參與實踐大數據的案例實在太行土少了,所以大家沒(méi)有必要花時(s錯學hí)間去知其所以然。
我希望有些不一樣(yàng),所以對(熱樹duì)該如何去認識大數據進(jìn)行了一番思索,包括查閱了資白上料,翻閱了最新的專業書籍,但我并不想把那些零散的照是資料碎片或不同理解論述簡單規整并堆積起(qǐ)來形成人愛(chéng)毫無價值的轉述或評論,我很真誠務東的希望進(jìn)入事(shì)物探尋本質。
如果你說(shuō)大數據就(jiù)是數據大,或者侃侃而談4個V,也許器來很有深度的談到BI或預測的價值,又或者拿Google和Amazon低舞舉例,技術流可能(néng)會(huì)聊起話個(qǐ)hadoop和Cloud Co綠愛mputing,不管對(duì)錯,紅技隻是無法勾勒對(duì)大數據的整體認國市識,不說(shuō)是片面(miàn),但至少有些些錢管窺蠡測、隔衣瘙癢了。……也許,“解構”是最好(hǎ錯業o)的方法。
怎樣(yàng)結構大數據?
首先,我認爲大數據就(jiù)是互聯網發(fā)展到現今階段什和的一種(zhǒng)表象或特征而已,沒(méi)有靜睡必要神話它或對(duì)它保持敬畏之心,在以雲計外事算爲代表的技術創新大幕的襯托下,這(zhè)些原本很難收集和使用的數算人據開(kāi)始容易被(bèi)利用起(qǐ)來鐘用了,通過(guò)各行各業的不斷創新,大數據會(huì)逐步大哥爲人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面(mi窗開àn)而細緻的分解它,我著(zhe)手從三個層面(miàn)來展開(我務kāi):
第一層面(miàn)是理論,理論是認知的必經(jīng)途徑,也是間能被(bèi)廣泛認同和傳播的基線。我會(huì)從大們農數據的特征定義理解行業對(duì)大數據的整體描繪和定性;從對(du師路ì)大數據價值的探讨來深入解析大數據的珍貴所在;從對(duì)大數據的現在和不生未來去洞悉大數據的發(fā)展趨勢;從大數據隐私這(zh下來è)個特别而重要的視角審視人和數據之間的長(cháng)久博弈。
第二層面(miàn)是技術,技術是大數據價值答動體現的手段和前進(jìn)的基石。我將(jiā兵日ng)分别從雲計算、分布式處理技服理術、存儲技術和感知技術的發(fā)展她藍來說(shuō)明大數據從采集、處理、存儲到形成(chén章了g)結果的整個過(guò)程。
第三層面(miàn)是實踐,實踐是花妹大數據的最終價值體現。我將(jiāng)分别從互聯網的大數據,政府風大的大數據,企業的大數據和個人的大數據四個方懂舊面(miàn)來描繪大數據已經腦些(jīng)展現的美好(hǎo)景象及即將(jiāng)實現的慢我藍圖。
和大數據相關的理論
特征定義
最早提出大數據時(shí)代到來的是麥的森肯錫:“數據,已經(jīng)滲透到當今每一個行業和業務職能(néng)領草山域,成(chéng)爲重要的生産因素。人們對(duì)于海見的量數據的挖掘和運用,預示著(zhe)新一波生産率煙信增長(cháng)和消費者盈餘浪潮的到來。”
業界(IBM 最早定義)將(jiāng)大數據的特術能征歸納爲4個“V”(量Volume,多多會樣(yàng)Variety,價值Value,速Velocity),或者這農說(shuō)特點有四個層面(miàn):第一,數據體量巨大。暗花大數據的起(qǐ)始計量單位至少是P(1000個T)、E(100萬個T)或Z窗得(10億個T);第二,數據類型繁多。中的比如,網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,費們商業價值高。第四,處理速度快。最後(hòu)這(zhè)一點也是和傳統畫員的數據挖掘技術有著(zhe)本質的不同。
其實這(zhè)些V并不能(néng)真正說(shuō)清楚大數議音據的所有特征,下面(miàn)這(z鐘懂hè)張圖對(duì)大數據的一些相關特性做出了有效的說(shu農我ō)明。
古語雲:三分技術,七分數據,得數據者得天下。先不論誰說(shuō)的笑書,但是這(zhè)句話的正确性已經(jīng)不用從大去論證了。維克托·服現;邁爾-舍恩伯格在《大數據時(shí)代》一書中舉學子了百般例證,都(dōu)是爲了說(shuō)明一個道化嗎(dào)理:在大數據時(shí)代已經(jīng)到來的時(shí)候們內要用大數據思維去發(fā)掘大數據的潛在價值。書微見中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數身刀據二次利用價值,比如預測某地流感理還爆發(fā)的趨勢;Amazon如何利用用戶的購買和浏覽曆史數據進(jìn)請分行有針對(duì)性的書籍購買推薦,以此有效文機提升銷售量;Farecast如何利用過(guò)去十年所有的航線機票價格打折制城數據,來預測用戶購買機票的時(shí)機是否合适。
那麼(me),什麼(me)是大數據思維?維克托&光大middot;邁爾-舍恩伯格認爲,1-需要全部數據樣(自男yàng)本而不是抽樣(yàng);2-關注效率而不是精确度;3音和-關注相關性而不是因果關系。
阿裡(lǐ)巴巴的王堅對(duì)于大數據也有老謝一些獨特的見解,比如,
“今天的數據不是大,真正有意思的是數員白據變得在線了,這(zhè)個恰恰是互聯網的特點下飛。”
“非互聯網時(shí)期的産品,功能(né視厭ng)一定是它的價值,今天互聯網的生人産品,數據一定是它的價值。”
“你千萬不要想著(zhe)拿數據去改進(jìn)一個業務,這(zhè)數綠不是大數據。你一定是去做了一件以前做不了的事(shì)情。”
特别是最後(hòu)一點,我是非常認同的,大數據的真正厭著價值在于創造,在于填補無數個還(hái)未實現過(guò)的空白農還。
有人把數據比喻爲蘊藏能(néng火公)量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、答書貧煤等分類,而露天煤礦、深山煤礦的挖掘成(ch我能éng)本又不一樣(yàng)。訊畫與此類似,大數據并不在“大”,而在于“有用”。價值含量、挖飛音掘成(chéng)本比數量更爲重要。
價值探讨
大數據是什麼(me)?投資者眼裡(lǐ)是金光還請閃閃的兩(liǎng)個字:資産。比如,Facebook上市時雜離(shí),評估機構評定的有效資産中大部人用分都(dōu)是其社交網站上的數據。
如果把大數據比作一種(zhǒng)産業,那麼(me)這(zhè)種(zhǒ鐘聽ng)産業實現盈利的關鍵,在于提高對(duì)數據的“舊習加工能(néng)力”,通過(guò)“加工”實現數據的“增值雜銀”。
Target 超市以20多票分種(zhǒng)懷孕期間孕婦可能(néng)會(huì)購買的商品音車爲基礎,將(jiāng)所有用好看戶的購買記錄作爲數據來源,通過(guò)構建模型分析購買者的行爲相關性,能(東內néng)準确的推斷出孕婦的具體臨盆時(shí)間,這(zhè)樣(yàn船她g)Target的銷售部門就(jiù)可以有針對(duì)的在每數作個懷孕顧客的不同階段寄送相應的産影輛品優惠卷。
Target的例子是一個很典型的案例,這(zhè)樣(yàng)空樹印證了維克托·邁爾-舍恩伯謝輛格提過(guò)的一個很有指導意義的觀點:通過(guò)腦從找出一個關聯物并監控它,就(jiù)可以預測未來。Target通過坐冷(guò)監測購買者購買商品的時(兵唱shí)間和品種(zhǒng)來準确預測顧客的孕期,這(zhè們一)就(jiù)是對(duì)數據的二次利用的典型案例。如能哥果,我們通過(guò)采集駕駛員手機的低們GPS數據,就(jiù)可以分析出當事線前哪些道(dào)路正在堵車,并可以及時(shí)發(fā)布道(dào)路到匠交通提醒;通過(guò)采集汽做友車的GPS位置數據,就(jiù)可金小以分析城市的哪些區域停車較多,這(zhè)也代表該答國區域有著(zhe)較爲活躍的人群,這(zhè)些分析數習一據适合賣給廣告投放商。
不管大數據的核心價值是不是預測,能說但是基于大數據形成(chéng)決策的模式已經(jīng)爲不少的企業樹海帶來了盈利和聲譽。
從大數據的價值鏈條來分析,存在三種(zhǒng)模從冷式:
1- 手握大數據,但是沒(méi就河)有利用好(hǎo);比較典型的是金融機構,電信行業,政府機構等。
2- 沒(méi)有數據,但是兒書知道(dào)如何幫助有數據的人利用它;比較典型的是IT咨樂為詢和服務企業,比如,埃森哲,IBM,Oracle等。
3- 既有數據,又有大數據內坐思維;比較典型的是Google,Amazon好為,Mastercard等。
未來在大數據領域最具有價值的是兩(liǎng著我)種(zhǒng)事(shì)物:1-擁有大數據思維的人,這(醫海zhè)種(zhǒng)人可以將分美(jiāng)大數據的潛在價值轉化爲實際利益;2-還(hái)未有被(b謝務èi)大數據觸及過(guò)的業務領域雨去。這(zhè)些是還(hái)筆自未被(bèi)挖掘的油井,金礦,是所謂的藍海。
Wal-Mart作爲零售行業的巨頭,他們的分析人員會(兒船huì)對(duì)每個階段的銷售記舊路錄進(jìn)行了全面(miàn)的分析,有一次他們無意中發(fā)日能現雖不相關但很有價值的數據,在美國(guó)的飓風來臨季節,超市的蛋撻和放子抵禦飓風物品竟然銷量都(dōu山得)有大幅增加,于是他們做了一個明智決策,就(jiù)是將美讀(jiāng)蛋撻的銷售位置移到了飓風物品銷售區域旁木白邊,看起(qǐ)來是爲了方便用戶挑選,但是沒(méi)有想到蛋撻的銷通討量因此又提高了很多。
還(hái)有一個有趣的例子,1948年遼沈視遠戰役期間,司令員林彪要求每天要進(jìn)行例常的“每日軍情冷拍彙報”,由值班參謀讀出下屬各個他聽縱隊、師、團用電台報告的當日戰況和繳獲情況。那幾乎是重複著(z工朋he)千篇一律枯燥無味的數據:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛快又多少,槍支、物資多少……有一天,參謀照例彙報當日是離的戰況,林彪突然打斷他:“剛才念的在胡家窩棚那個戰鬥的繳獲,你們聽到了嗎?”化東大家都(dōu)很茫然,因爲如此戰鬥每讀聽天都(dōu)有幾十起(qǐ),不都(dōu)是差不多一道信模一樣(yàng)的枯燥數字嗎?林彪掃視一周,見無人回秒腦答,便接連問了三句:“爲什麼(me)那裡(lǐ)繳獲的短槍與長(chá綠就ng)槍的比例比其它戰鬥略高?”“爲什麼(me)那裡(lǐ)繳舞校獲和擊毀的小車與大車的比例比其它戰鬥略高?”“爲什麼(me)在那歌得裡(lǐ)俘虜和擊斃的軍官與士兵的比例比其它戰鬥工化略高?”林彪司令員大步走向(xiàng)挂滿軍用地圖的牆壁,指著很有(zhe)地圖上的那個點說(shu科舞ō):“我猜想,不,我斷定!敵人的指揮所就(ji一舊ù)在這(zhè)裡(lǐ)!”果然,說了部隊很快就(jiù)抓住了敵方的指揮官廖耀湘,并取得這(zh現民è)場重要戰役的勝利。
這(zhè)些例子真實的反映火土在各行各業,探求數據價值取決于把握數據的人,關鍵是人的數哥風據思維;與其說(shuō)是大數據創造了價值,不如說(shuō)是大數據物費思維觸發(fā)了新的價值增長(chán師大g)。
現在和未來
我們先看看大數據在當下有怎樣(yàng)的傑出表現:
大數據幫助政府實現市場經(jīng)濟調控、公共衛生安船要全防範、災難預警、社會(huì)輿論監督;
大數據幫助城市預防犯罪,實現智新女慧交通,提升緊急應急能(néng)力;
大數據幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫藥企業提升藥品的臨床銀什使用效果,幫助艾滋病研究機構爲患者提供定制的藥物;
大數據幫助航空公司節省運營成(chéng)本,幫助電信企西紙業實現售後(hòu)服務質量提升子機,幫助保險企業識别欺詐騙保行爲,幫助快遞公司監測分析運輸車輛的故障險情以湖校提前預警維修,幫助電力公司有效識别舞村預警即將(jiāng)發(fā)生故障的設備;
大數據幫助電商公司向(xiàng)用戶推薦商品和服務,幫助旅遊網站爲旅弟聽遊者提供心儀的旅遊路線,幫助二手市場的買賣雙方找弟你到最合适的交易目标,幫助用戶找到最合适的商品購買時(在拿shí)期、商家和最優惠價格;
大數據幫助企業提升營銷的針對(duì)性,降低物流和庫存的農還成(chéng)本,減少投資的風險,以及幫助企業開空提升廣告投放精準度;
大數據幫助娛樂行業預測歌手,歌曲,電影,電去去視劇的受歡迎程度,并爲投資者分析評估拍一部電影需要投入多少錢才最合适,否則就相坐(jiù)有可能(néng)收不回成(chéng)本;
大數據幫助社交網站提供更準确的好(是下hǎo)友推薦,爲用戶提供更精準的企業招聘信息,向(xiàng)用戶推短那薦可能(néng)喜歡的遊戲以及适合購買的商品。
其實,這(zhè)些還(hái)遠遠不夠,未來大數據的身影應物綠該無處不在,就(jiù)算無法準确預測大他學數據終會(huì)將(jiāng)人類社會(huì)帶往到哪種(zhǒng長街)最終形态,但我相信隻要發(fā)展腳步在繼續,因大數據而産生的變革浪潮將關一(jiāng)很快淹沒(méi)地球的每一個角落。
比如,Amazon的最終期望是:“最成(ch可微éng)功的書籍推薦應該隻有一本書,就(ji問友ù)是用戶要買的下一本書。”
Google也希望當用戶在搜索時(shí),最好(hǎo)的體驗房拿是搜索結果隻包含用戶所需要的内容,而這(zhè)并不需要用戶給予Google計電太多的提示。
而當物聯網發(fā)展到達一定規模時門我(shí),借助條形碼、二維碼、RFID等能(néng)夠唯一務做标識産品,傳感器、可穿戴設備、智能(néng兵習)感知、視頻采集、增強現實等技術可實現實學說時(shí)的信息采集和分析,這(zhè)些數據能(美外néng)夠支撐智慧城市,智慧交通,智慧能(néng)源,智慧醫療,木笑智慧環保的理念需要,這(zhè)嗎身些都(dōu)所謂的智慧將(jiāng)是大數據的采集數雜窗據來源和服務範圍。
未來的大數據除了將(jiāng)更好(hǎo)的解決社會(hu花匠ì)問題,商業營銷問題,科學(xué)技術問題,還(hái)有一個可預見黑樂的趨勢是以人爲本的大數據方針。人才是地球的主宰,大部分的頻姐數據都(dōu)與人類有關,要通過(guò)大數據解決人的問題綠日。
比如,建立個人的數據中心,將(jiāng)每個人的日醫厭常生活習慣,身體體征,社會(huì)網絡,知識能(上這néng)力,愛好(hǎo)性情,疾船見病嗜好(hǎo),情緒波動……換言之就(j明照iù)是記錄人從出生那一刻起(qǐ)的每一分每一秒,將(jiāng)除了思維外光科的一切都(dōu)儲存下來,這(zhè)些數據業件可以被(bèi)充分的利用:
醫療機構將(jiāng)實時(shí)的監又民測用戶的身體健康狀況;
教育機構更有針對(duì)的制定用戶喜歡的教育培訓計劃;
服務行業爲用戶提供即時(shí男科)健康的符合用戶生活習慣的食物和其它服務;
社交網絡能(néng)爲你提供合适的交友對(duì)象,并爲志同道(歌東dào)合的人群組織各種(zhǒng)聚會(huì)活動;
政府能(néng)在用戶的心理健康出現問題舞件時(shí)有效的幹預,防範自殺,刑事(shì)案件的發(fā)生;
金融機構能(néng)幫助用戶進(jìn)行草雪有效的理财管理,爲用戶的資金提分看供更有效的使用建議和規劃;
道(dào)路交通、汽車租賃及運輸行業可以爲用戶煙風提供更合适的出行線路和路途服務安排;
……
當然,上面(miàn)的一切看起(qǐ)來都(dōu)很美好(hǎo),用秒但是否是以犧牲了用戶的自由爲前有月提呢?隻能(néng)說(shuō)當子動新鮮事(shì)物帶來了革新的同時(shí)也同樣(y說到àng)帶來了“病菌”。比如,在手機未普及前,大家喜男著歡聚在一起(qǐ)聊天,自從手機普及後(hòu)特别是有了互聯網,大家不上工用聚在一起(qǐ)也可以随時(shí)随地的聊天,隻是“病菌”滋還又生了另外一種(zhǒng)情形,大家慢慢習慣了和手機共渡時(sh車新í)光,人與人之間情感交流仿佛永遠隔著(zhe)一張“熱秒網”。
大數據隐私
你或許并不敏感,當你在不同的網站上注冊了個人信息後(hòu),可能拿討(néng)這(zhè)些信息已經(jīng)被(bèi)擴散出去哥話了,當你莫名其妙的接到各種(zhǒng)郵件,電話,短信的滋擾時(s土懂hí),你不會(huì)想到自己的電話号碼,郵箱,生日,購買外雜記錄,收入水平,家庭住址,親朋好(hǎo)友等私人信息早就(j月得iù)被(bèi)各種(zhǒng)商業機構非法存儲或賤賣給玩冷其它任何有需要的企業或個人了。
更可怕的是,這(zhè)些信息你永遠無法删除,它們永遠新雜存在于互聯網的某些你不知道(dào)的角落。除非雨吧你更換掉自己的所有信息,但是這(zhè)代價太大了。
用戶隐私問題一直是大數據應用難以繞開(行數kāi)的一個問題,如被(bèi)央視曝光過(guò)機理的分衆無線、羅維鄧白氏以及網易郵箱都(dōu)涉及侵犯用戶隐私理中。目前,中國(guó)并沒(m子業éi)有專門的法律法規來界定用戶隐私,處理相關問題時(shí)歌聽多采用其他相關法規條例來解釋。但随著(zhe)民衆隐私意識的美厭日益增強,合法合規地獲取數據、分析數據和應用數據,間女是進(jìn)行大數據分析時(shí)必須遵循的原則。
說(shuō)到隐私被(bè媽物i)侵犯,愛德華?斯諾登應該占據一席之地,這(zhè)位前美國(guó小錯)中央情報局(CIA)雇員一手引爆了美國(河銀guó)“棱鏡計劃”(PRISM)的内關長幕消息。“棱鏡”項目是一項由美國(guó)國(guó藍唱)家安全局(NSA)自2007年起(qǐ)開(城黃kāi)始實施的絕密電子監聽計劃,年耗資近2000站知億美元,用于監聽全美電話通話記錄,據稱還(hái)可以使情報人員通過(gu看音ò)“後(hòu)門”進(jìn)入9家主要科技公司的服務器,包括微軟、雅虎美聽、谷歌、Facebook、PalTalk、美國(guó)在路下線、Skype、YouTube、蘋果。這(zhè)個事(shì算外)件引發(fā)了人們對(duì)政府使用大數據時(shí)對影歌(duì)公民隐私侵犯的擔心。
再看看我們身邊,當微博,微信,QQ空間這(zhè)些社交平台肆意的吞生光噬著(zhe)數億用戶的各種(zhǒng)信討的息時(shí),你就(jiù)不要指望你還(hái)有隐私權了,就(j什了iù)算你在某個地方删除了,但也許這(zhè)機街些信息已經(jīng)被(bèi)其他現河人轉載或保存了,更有可能(néng)已經(少路jīng)被(bèi)百度或Googl從有e存爲快照,早就(jiù)提供給任意用戶搜索了。
因此在大數據的背景下,很多人都(dōu)在積極的抵制無底線就火的數字化,這(zhè)種(zhǒng)但嗎大數據和個體之間的博弈還(hái)會(huì)一直繼高房續下去……
專家給予了我們一些如何有效保護大月月數據背景下隐私權的建議:1-減少信息的數字化;舊購2-隐私權立法;3-數字隐私權基礎設施(類似DRM數字版權管理);坐服4-人類改變認知(接受忽略過(guò)去);5-創造良性的信息生态是鄉;6-語境化。
但是這(zhè)些都(dōu)很難立即見效或者有實質性的改善。
比如,現在有一種(zhǒng)職業叫(jià做窗o)删帖人,專門負責幫人到各大得遠網站删帖,删除評論。其實這(zhè)些人就(jiù)是通過(guò)黑客技術電雪侵入各大網站,破獲管理員的密碼然後(hòu)進(jìn)行手工定向(xiàn話醫g)删除。隻不過(guò)他們保護的不是客戶的隐私,而大多是用報醜聞。還(hái)有一種(zhǒng)職業叫錯哥(jiào)人肉專家,他們負責從互聯網上找到一個與他們鄉拿根本就(jiù)無關系用戶的任意信醫人息。這(zhè)是很可怕的事(shì)情,也就(jiù)是說可服(shuō),如果有人想找到你,隻需要音視兩(liǎng)個條件:1-你上過(guò)網,留下過(年制guò)痕迹;2-你的親朋好(hǎo)友或僅僅是認識你的人上過(gu費刀ò)網,留下過(guò)你的痕迹。這(zhè)兩(liǎng區大)個條件滿足其一,人肉專家就(jiù)可以很輕松的找到你,可能(n慢跳éng)還(hái)知道(dào)你現在正在某個餐廳和誰一起(qǐ)共進(議開jìn)晚餐。
當很多互聯網企業意識到隐私對(d靜鐘uì)于用戶的重要性時(shí),爲了繼續得到用戶的信短輛任,他們采取了很多辦法,比如google承諾僅保留用戶的搜索記錄少去9個月,浏覽器廠商提供了無痕沖浪模式,社交網弟們站拒絕公共搜索引擎的爬蟲進(jìn)入,并將(ji土跳āng)提供出去的數據全部采取匿名方式處理等。
在這(zhè)種(zhǒng)複雜的環境裡(lǐ)面(miàn飛如),很多人依然沒(méi)有建立對(duì員短)于信息隐私的保護意識,讓自己一直處于被(b在家èi)滋擾,被(bèi)精心設計,被(bèi)利用,被地光(bèi)監視的處境中。可是,我們能(néng)做的幾乎微乎其鄉行微,因爲個人隐私數據已經(jī歌議ng)無法由我們自己掌控了,就(jiù)像一首詩裡(煙醫lǐ)說(shuō)到的:“如果你現在繼續麻木,那就(jiù秒暗)别指望這(zhè)麻木能(néng)抵擋得住被(bèi)”扒光”姐視那一刻的驚恐和絕望……”
和大數據相關的技術
雲技術
大數據常和雲計算聯系到一起就票(qǐ),因爲實時(shí)的大型數據集分析需要分布式處理框架來向路有(xiàng)數十、數百或甚至數萬的電腦分配工作。可以說(shuō少人),雲計算充當了工業革命時(shí)期的發(術場fā)動機的角色,而大數據則是電。
雲計算思想的起(qǐ)源是麥卡錫在上世紀6家唱0年代提出的:把計算能(néng)力作爲一種(zhǒng)像水和線友電一樣(yàng)的公用事(shì)業提供給用戶。
如今,在Google、Amazon、Facebook等一批互聯土放網企業引領下,一種(zhǒng)行之姐醫有效的模式出現了:雲計算提供基礎架構平台,大人男數據應用運行在這(zhè)個平台上。
業内是這(zhè)麼(me)形容兩(liǎng)者購知的關系:沒(méi)有大數據的信息積澱,則雲計算的計算能(內問néng)力再強大,也難以找到用武之地;沒(m窗匠éi)有雲計算的處理能(néng土日)力,則大數據的信息積澱再豐富,也終究隻是鏡花水月。
那麼(me)大數據到底需要哪些雲放新計算技術呢?
這(zhè)裡(lǐ)暫且列舉一些說風,比如虛拟化技術,分布式處理技術,海量數據的存儲和管理技術,NoSQL、實時一區(shí)流數據處理、智能(néng)時喝分析技術(類似模式識别以及自然語言理解)等。
雲計算和大數據之間的關系可以用下面(mi雨熱àn)的一張圖來說(shuō)明,兩(liǎng)者之間結合後(hòu說道)會(huì)産生如下效應:可以提供更多基于海量業務數據的創新型服務;通過(g兒理uò)雲計算技術的不斷發(fā)展降低大數據業務的創新成(chéng)本。文電
如果將(jiāng)雲計算與大數據進(jìn)劇工行一些比較,最明顯的區分在兩(liǎng)個方面(mià制樂n):
第一,在概念上兩(liǎng)者有所不同,雲計算改變計司了IT,而大數據則改變了業務。然而大數據必須有雲作爲時音基礎架構,才能(néng)得以順暢機那運營。
第二,大數據和雲計算的目标受衆不同,雲計算道現是CIO等關心的技術層,是一個進(jìn)階的IT解決方案。而大數頻自據是CEO關注的、是業務層的産品,而大數據的決策者是業務層。
分布式處理技術
分布式處理系統可以將(jiāng)不同草們地點的或具有不同功能(néng)的或擁有不同數據的多台計算機用通信他問網絡連接起(qǐ)來,在控制系統的統一管理控秒她制下,協調地完成(chéng)信息處理任務—這(zhè)就(jiù)是分布行學式處理系統的定義。
以Hadoop(Yahoo)爲例進(jìn)理志行說(shuō)明,Hadoop是一個議爸實現了MapReduce模式的能(néng)夠對(duì)大著技量數據進(jìn)行分布式處理的軟件框架小內,是以一種(zhǒng)可靠、高效、可伸縮的方式進(下作jìn)行處理的。
而MapReduce是Googl吧可e提出的一種(zhǒng)雲計算的核心計算模式,是一種(zhǒng)分布式運他購算技術,也是簡化的分布式編程模式,MapReduce模式的主分風要思想是將(jiāng)自動分割要執行的問題(例長些如程序)拆解成(chéng)map(映射)和reduce(化簡)的方式,房校 在數據被(bèi)分割後(hòu)通過(guò)Ma睡光p 函數的程序將(jiāng)數據映射成(chéng)不同的區塊,分配給計算機說信機群處理達到分布式運算的效果,在通過(guò)Reduc算子e 函數的程序將(jiāng)結果彙整,笑了從而輸出開(kāi)發(fā)者需要的結果。
再來看看Hadoop的特性,第一,它是可外多靠的,因爲它假設計算元素和存儲外內會(huì)失敗,因此它維護多個工作數大亮據副本,确保能(néng)夠針對(duì通可)失敗的節點重新分布處理。其次,Hadoop 是高效的,因爲它以并行的方式工務少作,通過(guò)并行處理加快處理速度。Hadoop 還(hái)窗票是可伸縮的,能(néng)夠處理 PB 懂鐘級數據。此外,Hadoop 依賴于社區服務器,因此它的成(ché厭化ng)本比較低,任何人都(dōu)可以使用機店。
你也可以這(zhè)麼(me)理解Hadoop的構成(ch老喝éng),Hadoop=HDFS(些但文件系統,數據存儲技術相關)+HBase(數據庫)+M慢路apReduce(數據處理)+錯身……Others
Hadoop用到的一些技術有:
HDFS: Hadoop分布式文件系統(Distributed File又腦 System) - HDFS (Hadoop少車Distributed File S亮雨ystem)
MapReduce:并行計算框架
HBase: 類似Google BigTable的分布式NoS黃就QL列數據庫。
Hive:數據倉庫工具,由Fa公冷cebook貢獻。
Zookeeper:分布式鎖設施,提供類似Google物兵 Chubby的功能(néng),由Facebook學區貢獻。
Avro:新的數據序列化格式與傳輸工具,將(jiāng)逐步取動小代Hadoop原有的IPC機制。
Pig:大數據分析平台,爲用戶提供多種(zhǒng)放相接口。
Ambari:Hadoop管理工具,可以快捷的監控、部署、管理知物集群。
Sqoop:用于在Hadoop與傳統的數村器據庫間進(jìn)行數據的傳遞。
說(shuō)了這(zhè)麼(me)多,舉個實際白銀的例子,雖然這(zhè)個例子有些陳舊,但是淘寶的海小東量數據技術架構還(hái)是有助于我們理解對(du錢文ì)于大數據的運作處理機制:
淘寶大數據
如上圖所示,淘寶的海量數據産照吧品技術架構分爲五個層次,從上至下來看它們分别是:數據源,計算司窗層,存儲層,查詢層和産品層。
數據來源層。存放著(zhe)淘寶各他市店的交易數據。在數據源層産生的數據,通過舞行(guò)DataX,DbSync和Timetunel準不但實時(shí)的傳輸到下面(mi地弟àn)第2點所述的“雲梯”。
計算層。在這(zhè)個計算層内,淘寶采用的是Hadoop集也用群,這(zhè)個集群,我們暫且稱之爲雲梯,是計算層那知的主要組成(chéng)部分。在雲梯上,系統每天會(huì)對(duì)數據産多地品進(jìn)行不同的MapReduce計算。
存儲層。在這(zhè)一層,淘寶采用了兩(liǎng)個東西,一舊些個使MyFox,一個是Prom。議技MyFox是基于MySQL的分布式關系型數據庫的集群,Prom是基區村于Hadoop Hbase技術的一個NoSQL的存儲集群。
查詢層。在這(zhè)一層中,Glider是以HTTP協議對(duì)外湖音提供restful方式的接口。數據産品通過(guò)一個唯一的UR體喝L來獲取到它想要的數據。同時(shí),數據查詢即是通過(guò)MyFox吃舞來查詢的。
最後(hòu)一層是産品層,這(zhè)個路上就(jiù)不用解釋了。
存儲技術
大數據可以抽象的分爲大數據存儲和大數據分析,這(zhè)兩(liǎng)唱們者的關系是:大數據存儲的目的是支撐大微不數據分析。到目前爲止,還(hái)是兩(liǎng)種(司電zhǒng)截然不同的計算機技術領域:大數據存儲緻力于研發麗知(fā)可以擴展至PB甚至EB級别森聽的數據存儲平台;大數據分析關注在最短時姐兵(shí)間内處理大量不同類型的數據集。
提到存儲,有一個著名的摩爾定律相信大家都(兵子dōu)聽過(guò):18個月集成(chén信海g)電路的複雜性就(jiù)增加一鐘老倍。所以,存儲器的成(chéng)本大約每18-24個月就(jiù)下降一半有下。成(chéng)本的不斷下降也造就(ji議北ù)了大數據的可存儲性。
比如,Google大約管理著(zhe)超過(guò)50萬台服習跳務器和100萬塊硬盤,而且Google還(hái)在不斷的擴大自器計算能(néng)力和存儲能(néng)力,其中很為學多的擴展都(dōu)是基于在廉價服務器和普通存儲硬盤的基礎上進(j會兒ìn)行的,這(zhè)大大降低了其服務成(chéng)廠高本,因此可以將(jiāng)更多的資金投入到技術的研發(fā)當冷男中。
以Amazon舉例,Amazo錯樂n S3 是一種(zhǒng)面(miàn)向身雪(xiàng) Internet 的存儲服務。該服務旨在讓開(kāi)發(f船上ā)人員能(néng)更輕松的進(jìn)行網絡規模計算。Amazo師司n S3 提供一個簡明的 Web 服務界面(miàn),用戶可通過(guò也相)它随時(shí)在 Web 上的任何位置存儲和檢索的任吃市意大小的數據。 此服務讓所有開(kāi)發(地得fā)人員都(dōu)能(néng)訪問同一個具備高擴展性國些、可靠性、安全性和快速價廉的基礎設施,Amazon 這外用它來運行其全球的網站網絡。再看看S3的設計指标:在特舊醫定年度内爲數據元提供 99.999999999% 靜國的耐久性和 99.99% 的可用性,并能(nén店聽g)夠承受兩(liǎng)個設施中的得錯數據同時(shí)丢失。
S3很成(chéng)功也确實明子卓有成(chéng)效,S3雲的存儲對(duì)象已達服人到萬億級别,而且性能(néng)表現相當良好(hǎo)。S3雲已經(技樹jīng)擁萬億跨地域存儲對(duì)象,同時(s店睡hí)AWS的對(duì)象執行請求也達到空動百萬的峰值數量。目前全球範圍内已經(jīng)有數以十萬厭森計的企業在通過(guò)AWS運行自己的全部或者部分日常業務。這(zhè)睡道些企業用戶遍布190多個國(guó)家,幾乎世界上跳文的每個角落都(dōu)有Amazon用戶的身影很林。
此外,雲創大數據的cStor雲存儲系統采從日用了先進(jìn)的雲計算技術、朋房網絡通信技術以及分布式文件系統技術,將(jiāng)硬件存儲節點組織管少嗎理起(qǐ)來,以提供高性能(néng)、商制高可靠的存儲。基于此,cStor A8000老訊雲存儲系統一體機集中供電、集中散熱,每個玩雨機架最大可搭載總存儲容量高達3.8PB,但整體功厭媽耗卻比傳統方式節省10倍,全面(miàn)展議好現了新一代高密度雲存儲産品的高容量、高性能(néng)以及節能(néng)環保樂藍的綠色魅力,已經(jīng)廣泛用于電信、平安城市等多個領域的線關海量數據存儲與處理。
感知技術
大數據的采集和感知技術的發(fā)展是緊密聯系的。以傳感器技術,指紋我山識别技術,RFID技術,坐标定位技術等爲基礎的感知做費能(néng)力提升同樣(yàng)是物聯網發(fā)展的基石。全世界的票分工業設備、汽車、電表上有著(zhe)無數的數碼傳感器自道,随時(shí)測量和傳遞著(懂志zhe)有關位置、運動、震動、溫度、濕度乃至通長空氣中化學(xué)物質的變化,都(dōu)會(huì)産生海量的數據信息。
而随著(zhe)智能(néng)手機的事如普及,感知技術可謂迎來了發(fā)展的高峰期,除了地理位置信息被(bèi)廣泛北哥的應用外,一些新的感知手段也開(kāi)始登上舞台,比如,最新這懂的”iPhone 5S”在home鍵内嵌訊學指紋傳感器,新型手機可通過(guò)呼氣直接檢測燃燒脂肪量,用于手機又司的嗅覺傳感器面(miàn)世可以監測從中校空氣污染到危險的化學(xué)藥品,微軟正在研發(fā)可感知用戶西農當前心情智能(néng)手機技術,谷歌眼船書鏡InSight新技術可通過(g討務uò)衣著(zhe)進(jìn)行人物識别。
除此之外,還(hái)有很多與感路討知相關的技術革新讓我們耳目一新:比如,牙齒傳感器要個實時(shí)監控口腔活動及飲食狀況,嬰兒穿戴設備可用大數據去養育寶寶,I花女ntel正研發(fā)3D筆記本攝像頭可追區看蹤眼球讀懂情緒,日本公司開(kāi)發(fā)還子新型可監控用戶心率的紡織材料,業界正在嘗金討試將(jiāng)生物測定技術引入支付領域歌火等。
其實,這(zhè)些感知被又美(bèi)逐漸捕獲的過(guò)程就(jiù)是就(jiù)世界被(b妹資èi)數據化的過(guò)程,一旦世界被(bèi)照村完全數據化了,那麼(me)世界的本質也就(jiù)是信息了。
就(jiù)像一句名言所說(shuō),“人類以前延從村續的是文明,現在傳承的是信息。”
大數據的實踐
互聯網的大數據
互聯網上的數據每年增長(c爸些háng)50%,每兩(liǎng)年便將(jiāng)翻紅購一番,而目前世界上90%以上的數據是最近幾年才産生的。據IDC預測,議得到2020年全球將(jiāng)總共擁有35ZB的數據量。互聯網校化是大數據發(fā)展的前哨陣地,随著(zhe)WEB2.0時(s關這hí)代的發(fā)展,人們似乎都(dōu)習慣了將紙年(jiāng)自己的生活通過(guò)網絡進(jìn)行小兒數據化,方便分享以及記錄并回憶。
互聯網上的大數據很難清晰的界定分類界限道跳,我們先看看BAT的大數據:
百度擁有兩(liǎng)種(zhǒng)類海長型的大數據:用戶搜索表征的需求數據;爬蟲和阿拉丁獲短花取的公共web數據。搜索巨頭百度圍繞數據而生都通。它對(duì)網頁數據的爬取、網頁内容的來員組織和解析,通過(guò)語義分析對(duì)搜索需求的精準理解進(jìn)務數而從海量數據中找準結果,以及精準的搜索引擎關鍵字廣唱兒告,實質上就(jiù)是一個數據的獲取、組織、分析和挖掘的過(guò)化時程。搜索引擎在大數據時(shí)代面可有(miàn)臨的挑戰有:更多的暗網數據;更多的WEB化但是沒(méi)有女光結構化的數據;更多的WEB化、結構化但是封閉的數據。
阿裡(lǐ)巴巴擁有交易數據和信用數據。這(zhè)兩(liǎng)種(z話黑hǒng)數據更容易變現,挖掘出商業價值。除她樹此之外阿裡(lǐ)巴巴還(hái)通過(guò)投子照資等方式掌握了部分社交數據、移動數據。如微博和高德。店呢
騰訊擁有用戶關系數據和基于此産生的社交數據。這都男(zhè)些數據可以分析人們的生活和行爲,從裡(lǐ)面(miàn)挖都場掘出政治、社會(huì)、文化、商業、健康等領域的信息他電,甚至預測未來。
在信息技術更爲發(fā)達的美國(guó),錢照除了行業知名的類似Google,Facebook外,已經(鐘校jīng)湧現了很多大數據類型的公司不綠,它們專門經(jīng)營數據産品,比如:
Metamarkets:這(zhè)家公司對(duì)Twitter、支麗的付、簽到和一些與互聯網相關的問題進(jìn)行了分析,爲客們她戶提供了很好(hǎo)的數據分析支持。
Tableau:他們的精力主要集中于將(jiāng)海量分他數據以可視化的方式展現出來。Tableau爲數呢不字媒體提供了一個新的展示數據的方式。他們提供了鐵們一個免費工具,任何人在沒(méi)有編程知識背景的情況下都(d分為ōu)能(néng)制造出數據專用圖表。這(zhè)個軟件還(hái)能(n唱女éng)對(duì)數據進(jìn)行分析,并提供有價值的建議。
ParAccel:他們向(xiàng)美國(guó)術她執法機構提供了數據分析,比如對(duì)紅他15000個有犯罪前科的人進(jìn)行得雨跟蹤,從而向(xiàng)執法機構提供了參考性較高的犯罪預測。他們是犯罪的預腦妹言者。
QlikTech:QlikTech旗下的Qlikview是一個商業智能(n錯鐵éng)領域的自主服務工具,能(néng)夠應用于科學(雪到xué)研究和藝術等領域。爲了幫助開(kāi)發(fā亮雜)者對(duì)這(zhè)些數據進(jìn)行分析,QlikTech提供你畫了對(duì)原始數據進(jìn)行可視化處民慢理等功能(néng)的工具。
GoodData:GoodData希望幫助客戶從數據中挖掘财開器富。這(zhè)家創業公司主要面(miàn)向(xià畫數ng)商業用戶和IT企業高管,提供數據存現章儲、性能(néng)報告、數據分算裡析等工具。
TellApart:TellApart輛腦和電商公司進(jìn)行合作,他們會(huì)根據用戶的浏覽行爲等數據錢綠進(jìn)行分析,通過(guò)鎖定潛在買家方式提高電商企業的收門花入。
DataSift:DataS廠體ift主要收集并分析社交網絡媒體上的數據,并幫助品牌拍對公司掌握突發(fā)新聞的輿論點,并制定有針對(duì)請高性的營銷方案。這(zhè)家公司還(hái)和Twitter有合亮山作協議,使得自己變成(chéng)了行業中爲紙資數不多可以分析早期tweet的創業公舊家司。
Datahero:公司的目标是將(jiāng)複雨冷雜的數據變得更加簡單明了,方便普通人去理解和想象。
舉了很多例子,這(zhè)裡(l對數ǐ)簡要歸納一下,在互聯網大數據的典型代表性包括:
1-用戶行爲數據(精準廣告投放、内容推薦、行爲習慣和喜好(hǎo)分析電兵、産品優化等)
2-用戶消費數據(精準營銷、信用記錄分析、活動促銷、理财等)
3-用戶地理位置數據(O2O推廣,商家推薦,交友推薦等)
4-互聯網金融數據(P2P,小額貸款,支付,信用,供應鏈金融等)
5-用戶社交等UGC數據(趨勢分析、流行元素綠人分析、受歡迎程度分析、輿論監控分析、社會(huì)問題分析等)
同時(shí),提供數據托管服務的大數據平台也應運而生,比如萬物身媽雲與環境雲。其中,作爲智能(néng)硬件大數據免費托管平台們低,萬物雲(http://www.wanwuyun.com)可無限承載海量的物聯網和智能(néng)頻風設備數據。通過(guò)使用多種(zhǒn答章g)協議,各種(zhǒng)智能(néng)設備將(我匠jiāng)安全地向(xiàng)萬物雲提交産生的設資訊備數據,在服務平台上進(jìn)行存儲和處理,并通過(guò影都)數據應用編程接口向(xiàng)各種(zhǒng)物聯網應用亮兒提供可靠的跨平台的數據查詢和調用服務。萬物雲在大幅度降低物聯網數據應用的技還日術門檻及運營成(chéng)本的同時(shí),也匠呢滿足了物聯網産品原型開(kāi)發(fā)、商業運營和規模發(fā關道)展各階段需求。目前,萬物雲的注冊用戶達到1605,入庫數據超過船年(guò)55億條。
環境雲(http://www.envicloud.吧章cn)則是一個全面(miàn)而便捷的了著綜合環境大數據開(kāi)放平台,收錄權威數據源(中央氣象台、國事喝(guó)家環保部數據中心、美國(guó答門)全球地震信息中心等)所發(fā)布的各類舞見環境數據,接收雲創自主布建的全國(guó)各類環境監控傳但在感器網絡(包括空氣質量指标,土壤環境質量指标檢測網絡)所采集的數兵友據,并結合相關數據預測模型生成(chéng)的預報數兒公據,依托數據托管服務平台萬物雲所提供的數據存儲嗎業服務,推出了一系列功能(néng)豐富國司、便捷易用的綜合環境數據REST AP日北I,配合詳盡的接口使用幫助,爲環境應用開(kāi)發(fā)者提供豐富可靠近知的氣象、環境、災害以及地理數據服務。此外,環輛北境雲還(hái)爲環境研究人員提供了自定義數據報表生成(chéng)些森和下載功能(néng),并向(xiàng)公衆展示環境實況。目西好前,環境雲的入庫數據已經(jīng)超過(guò)6億條。
政府的大數據
近期,奧巴馬政府宣布投資2億美元拉動大數據相關産業發習訊(fā)展,將(jiāng)“少什大數據戰略”上升爲國(guó)家意學媽志。奧巴馬政府將(jiāng)數據定義爲“購還未來的新石油”,并表示一個國(g錯媽uó)家擁有數據的規模、活性及解釋運用的能(néng)力將請坐(jiāng)成(chéng)爲綜合國(guó)力的重路師要組成(chéng)部分,未來,對(duì)數據的占有和控看物制甚至將(jiāng)成(chéng)爲陸權、又錯海權、空權之外的另一種(zhǒng)國(guó)家核心資産。
在國(guó)内,政府各個部門都(dōu)握有構成(chén工來g)社會(huì)基礎的原始數生知據,比如,氣象數據,金融數據,信用數據,電力數據,煤氣數據,廠來自來水數據,道(dào)路交通數據,客運數據飛鐘,安全刑事(shì)案件數據,住房數據,海關數據,出入境數據,旅遊數據,醫花又療數據,教育數據,環保數據等等。這(zhè)些數據在每個政府部門裡(l妹風ǐ)面(miàn)看起(qǐ)來是單一的,靜态的。但是,如果政府可以將(ji東金āng)這(zhè)些數據關聯起(qǐ)來,并對(duì)這(zhè)務下些數據進(jìn)行有效的關聯分析和統一管如音理,這(zhè)些數據必定將(jiāng)獲得新生,其價值是無法估量的。
具體來說(shuō),現在城市都(dōu)在走向(xià窗機ng)智能(néng)和智慧,比如,智能(n年算éng)電網、智慧交通、智慧醫療、智慧環保、智慧城市光近,這(zhè)些都(dōu)依托于大數據,可以說(shuō)大數據上愛是智慧的核心能(néng)源。從國(guó)樂暗内整體投資規模來看,到2012年底全笑內國(guó)開(kāi)建智慧城市的城市數超過(guò)180金那個,通信網絡和數據平台等基礎設施建設投資規模接近5000億元。“十二五話嗎”期間智慧城市建設拉動的設備投資規模將著議(jiāng)達1萬億元人民币。大數據爲智慧城市的各個領域提供決策支持。在媽身城市規劃方面(miàn),通過(guò)對(duì)城市地理、氣象等兵從自然信息和經(jīng)濟、社會(huì)、文化、人口等人文社會是間(huì)信息的挖掘,可以爲城市規劃提供決策,強化城市管理服慢理務的科學(xué)性和前瞻性。在交通管理方面(miàn),為術通過(guò)對(duì)道(dào工熱)路交通信息的實時(shí)挖掘,能(néng)有效緩解交通擁堵,并快速響應亮這突發(fā)狀況,爲城市交通的良性運轉提供科學(xué)的決策依據。在雨鐘輿情監控方面(miàn),通過(guò)網絡關鍵詞搜索及語義智能(n和呢éng)分析,能(néng)提高輿情分析的及時(s歌下hí)性、全面(miàn)性,全面(有日miàn)掌握社情民意,提高公共服務能林下(néng)力,應對(duì)網絡突發(f不去ā)的公共事(shì)件,打擊違科我法犯罪。在安防與防災領域,通過(guò)大數據嗎街的挖掘,可以及時(shí)發(fā)現人爲或自然災害、恐怖事(shì)件,員商提高應急處理能(néng)力和安全防街窗範能(néng)力。
另外,作爲國(guó)家的管理者,政府那章應該有勇氣將(jiāng)手中的數朋視據逐步開(kāi)放,供給更多西朋有能(néng)力的機構組織或個人來分析并輛拍加以利用,以加速造福人類。比如,美國(guó)政府就錢訊(jiù)籌建了一個data.gov網站,這(z話銀hè)是奧巴馬任期内的一個重要舉措:要求政府公開(kāi)透明,而核心就(放暗jiù)是實現政府機構的數據公開(kāi)。截止目前,已經(jīng)開唱飛(kāi)放了有91054 個datasets;349輛生citizen-developed apps;137 mobile ap近遠ps;175 agencies and s醫體ubagencies;87 g懂錯alleries;295 Gove女公rnment APIs。
企業的大數據
企業的CXO們最關注的還(hái)劇師是報表曲線的背後(hòu)能(néng)有怎樣(yàng)的信息弟月,他該做怎樣(yàng)的決策,其實這(喝畫zhè)一切都(dōu)需要通過(guò)數據來傳遞和支撐。在理制國想的世界中,大數據是巨大的杠杆,可議森以改變公司的影響力,帶來競争差異、節省金錢、增加利潤、愉文可悅買家、獎賞忠誠用戶、將(jiāng)潛在客戶轉化爲客戶、增加吸引力、打敗報要競争對(duì)手、開(kāi)拓用戶群并創造市場。
那麼(me),哪些傳統企業最需要大數據服務筆區呢?抛磚引玉,先舉幾個例子:1) 對錢裡(duì)大量消費者提供産品或服務的企業(外我精準營銷);2) 做小而美模式的中長(chán報電g)尾企業(服務轉型);3) 面(miàn)臨互聯網壓力之下必須轉型的習冷傳統企業(生死存亡)。
對(duì)于企業的大數據,還(hái)有一種(zhǒn能業g)預測:随著(zhe)數據逐漸成城如(chéng)爲企業的一種(zhǒng)資生些産,數據産業會(huì)向(xiàng)傳統企業的供應鏈模式發(fā)展,農生最終形成(chéng)“數據供應鏈”。這(zhè)裡(lǐ)尤其有兩(l讀道iǎng)個明顯的現象:1) 外部數據的重要性日益超過(guò)内部數據。在服空互聯互通的互聯網時(shí)代,單一企業的山為内部數據與整個互聯網數據比較起(qǐ)來隻是滄海一粟;2) 能(街街néng)提供包括數據供應、數據整合與加工、數據應用等器器多環節服務的公司會(huì)有明顯的綜合競争優勢。
對(duì)于提供大數據服務的企業來說(shuō),他們等待的是舞水合作機會(huì),就(jiù)像微軟兵議史密斯說(shuō)的:“給我提供一些數據,我就(jiù)能(néng)做一些熱短改變。如果給我提供所有數據,我近廠就(jiù)能(néng)拯救世界。”
然而,一直做企業服務的巨頭將兵嗎(jiāng)優勢不在,不得不眼看低熱新興互聯網企業加入戰局,開(kāi)啓殘酷競争模式女志。爲何會(huì)出現這(zhè校廠)種(zhǒng)局面(miàn)?從電刀 IT 産業的發(fā)展來看,第一代 IT 巨頭大多是 ToB 的,腦科比如 IBM、Microsoft、Oracle、SAP兵路、HP這(zhè)類傳統 IT 企業;第二代 IT 巨頭大場麗多是ToC 的,比如 Yahoo、Googl如很e、Amazon、Facebook 這(zhè)類互聯網企業。大數據到來內雨前,這(zhè)兩(liǎng)類公司彼此之間基本是井水不犯河水;但不算在當前這(zhè)個大數據時(shí)代,這(zhè)兩(li鄉海ǎng)類公司已經(jīng)開(媽開kāi)始直接競争。比如 Am鐘舞azon 已經(jīng)開(kāi)始提供雲模式的數據倉庫服務,學醫直接搶占 IBM、Oracle 的市場。個為這(zhè)個現象出現的本質原因是來事:在互聯網巨頭的帶動下,傳統 IT 巨頭的客戶普遍業爸開(kāi)始從事(shì)電子商務業年子務,正是由于客戶進(jìn)入了互聯網,所以傳統 IT 巨頭們不情願地被(bè多能i)拖入了互聯網領域。如果他們不進(jìn)入互聯網,他們業務必輛白將(jiāng)萎縮。在進(jìn)入互聯網後(hòu),他們又必須將(ji討物āng)雲技術,大數據等互聯網最具有優勢的技術通過(guò)封秒街裝打造成(chéng)自己的産品再提會車供給企業。
以IBM舉例,上一個十年,他們抛棄了PC,成(ch吃算éng)功轉向(xiàng)了軟件和服務,而這(zhè)次將(jiāng工器)遠離服務與咨詢,更多地專注于因看你大數據分析軟件而帶來的全新業務增長(cháng)點。IBM執行總裁低喝羅睿蘭認爲,“數據將(jiāng)成(chén放睡g)爲一切行業當中決定勝負的根本因素,最終數據將(ji好黑āng)成(chéng)爲人類至關重畫煙要的自然資源。”IBM積極的提出了“大數據平台能為”架構。該平台的四大核心能(néng)力包括Hadoop系統、流計算電刀(StreamComputing)、數據倉庫(Data W外來arehouse)和信息整合與治理(Information Integrat但人ion and Governance)
IBM大數據
另外一家亟待通過(guò)雲店可和大數據戰略而複蘇的巨頭公司HP也推出了慢關自己的産品:HAVEn,一個可以自由擴展伸縮的大數據解決方案。這(zhè下飛)個解決方案由HP Autonom小車y、HP Vertica、HP ArcSight 司子和惠普運營管理(HP OperationsManagement)四大技術組熱綠成(chéng)。還(hái)支持Had對煙oop這(zhè)樣(yàng)通用的技術。HAVE著知n不是一個軟件平台,而是一個生态環境。四大組成(chéng)部分滿足不同的慢南應用場景需要,Autonomy解決音視頻識别的電哥重要解決方案;Vertica解決數據處理的速度和效率的方案;ArcSight解數城決機器的記錄信息處理,幫助企業獲得更高外就安全級别的管理;運營管理解決的不僅僅拿科是外部數據的處理,而是包括了IT基礎設施産生的數據。
個人的大數據
個人的大數據這(zhè)個概念街厭很少有人提及,簡單來說(shuō),就(jiù)是與個人相從男關聯的各種(zhǒng)有價值數據信息被(文火bèi)有效采集後(hòu),可由本人授權提供第三方進(事新jìn)行處理和使用,并獲得第三方提供的數據服務。
舉個例子來說(shuō)明會(huì)更清晰一些:樂分
未來,每個用戶可以在互聯網上注冊個人的數據中心,以存儲說愛個人的大數據信息。用戶可确定哪些個人數據可被木視(bèi)采集,并通過(guò醫弟)可穿戴設備或植入芯片等感知技我紙術來采集捕獲個人的大數據,比如,牙齒監控數據,心工錯率數據,體溫數據,視力數據,記憶能(néng)力,地理位置信息,社會(huì跳慢)關系數據,運動數據,飲食數據,分但購物數據等等。用戶可以將(jiāng)其中的牙齒監測爸紙數據授權給XX牙科診所使用,由他們監控和員信使用這(zhè)些數據,進(jìn)而爲用科要戶制定有效的牙齒防治和維護計劃;也可以將(ji件技āng)個人的運動數據授權提供給某運動健身機構,由他們監測自己的身體運理信動機能(néng),并有針對(duì)的制定和調整個人的運動街服計劃;還(hái)可以將(jiāng)個人的消費數據授權給金融理财就子機構,由他們幫你制定合理的理财計劃并對(duì)收益進(jìn)行村我預測。當然,其中有一部分個人數據是無需個弟答人授權即可提供給國(guó)家相關部門進(jìn)行實時(s區道hí)監控的,比如罪案預防監控中女工心可以實時(shí)的監控本地區每個人的情緒和心理狀态,以預防自殺和犯罪的有數發(fā)生。
以個人爲中心的大數據有這(z人信hè)麼(me)一些特性:
1- 數據僅留存在個人中心,其它第三方機構隻被(b紅近èi)授權使用(數據有一定的使用期限),且必須接受用後(h時輛òu)即焚的監管。
2- 采集個人數據應該明确分類,除了國(guó)家立法明确要求司就接受監控的數據外,其它類型數據都(dōu)由用戶自己決定是否被(b鐵行èi)采集。
3- 數據的使用將(jiāng)隻能(néng)由用戶進(jì章服n)行授權,數據中心可幫助監控下微個人數據的整個生命周期。
展望過(guò)于美好(hǎo),為算也許實現個人數據中心將(jiāng)遙遙刀村無期,也許這(zhè)還(hái)不是解決個人數據隐都件私的最好(hǎo)方法,也許業界對(duì)大數據的無限渴商冷求會(huì)阻止數據個人中心的實現,但是随著(zhe)數據越來越多,在木愛缺乏監管之後(hòu),必然會(huì)有件動一場激烈的博弈:到底是數據重要還(hái)是話得隐私重要;是以商業爲中心還(hái文司)是以個人爲中心。