《大數(shù)據(jù)基本介紹》由會員分享,可在線閱讀,更多相關《大數(shù)據(jù)基本介紹(27頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,#,大數(shù)據(jù),大數(shù)據(jù)引領我們走向數(shù)據(jù)智能化時代,Big Data,目錄,大數(shù)據(jù)的定義理解,相關技術與應用,機遇與挑戰(zhàn),大數(shù)據(jù)的定義理解,一,什么是,大數(shù)據(jù),Dada,大,大數(shù)據(jù)的構成,1,2,3,大數(shù)據(jù)的定義理解,大數(shù)據(jù)的“,4V”,特征,大數(shù)據(jù)時代的背景,大數(shù)據(jù)時代的背景,facebook,社交網(wǎng)絡,淘寶、,ebuy,電子商務,微博、,Apps,移動互聯(lián),21,世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡、電子商務等極大拓展了互聯(lián)網(wǎng)的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。,互聯(lián)網(wǎng)(社交、搜索、電商)、移
2、動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、,GPS,、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。,“,大數(shù)據(jù)”的誕生:,半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念,*,。如今,這個概念幾乎應用到了所有人類智力與發(fā)展的領域中。,20,世紀,90,年代,數(shù)據(jù)倉庫之父的,Bill Inmon,就經(jīng)常提及,Big Data,2011年5 月,,在,“云計算相遇大數(shù)據(jù)”,為主題的,EMC
3、 World 2011,會議中,,EMC 拋出了Big Data概念,Big Data,名詞由來,全球每秒鐘發(fā)送,2.9,百萬,封,電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀,5.5,年,每天會有,2.88,萬,個小時,的視頻上傳到,Youtube,,足夠一個人晝夜不息的觀看,3.3,年,推特上每天發(fā)布,5,千萬,條,消息,假設,10,秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽,16,年,每天亞馬遜上將產(chǎn)生,6.3,百萬,筆,訂單,每個月網(wǎng)民在,Facebook,上要花費,7,千億,分鐘,,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達,1.3EB,Google,上每天需要處理,24P
4、B,的數(shù)據(jù),新的時代,人們從信息的被動接受者變成了主動創(chuàng)造者,大數(shù)據(jù)時代到來,TB,PB,ZB,EB,大量新數(shù)據(jù)源的出現(xiàn)則導致了非結構化、半結構化數(shù)據(jù)爆發(fā)式的增長,根據(jù),IDC,監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在,2020,年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量,數(shù)據(jù)量增加,數(shù)據(jù)結構日趨復雜,這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇,大數(shù)據(jù)時代正在來臨,.,大數(shù)據(jù)時代到來,大數(shù)據(jù)的,4V,特征,“大量化,(Volume),、多樣化,(Variety),、快速化,(Velocity)
5、,、價值密度低(,Value,)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。,體量,Volume,多樣性,Variety,價值密度,Value,速度,Velocity,非結構化數(shù)據(jù),的超大規(guī)模和增長,總數(shù)據(jù)量的,8090%,比結構化數(shù)據(jù)增長快,10,倍到,50,倍,是傳統(tǒng)數(shù)據(jù)倉庫的,10,倍到,50,倍,大數(shù)據(jù)的異構和多樣性,很多不同形式(文本、圖像、視頻、機器數(shù)據(jù)),無模式或者模式不明顯,不連貫的語法或句義,大量的不相關信息,對未來趨勢與模式的可預測分析,深度復雜分析(機器學習、人工智能,Vs,傳統(tǒng)商務智能,(,咨詢、報告等),實時分析,而非批量式分析,數(shù)據(jù)輸入、
6、處理與丟棄,立竿見影而非事后見效,大數(shù)據(jù)的構成,大數(shù)據(jù),=,海量數(shù)據(jù),+,復雜類型的數(shù)據(jù),海量交易數(shù)據(jù):,企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結構化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。,大數(shù)據(jù)包括:,交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,海量交互數(shù)據(jù):,源于,Facebook,、,Twitter,、,LinkedIn,及其他來源的社交媒體數(shù)據(jù)構成。它包括了呼叫詳細記錄,CDR,、設備和傳感器信息、,GPS,和地理定位映射數(shù)據(jù)、通過管理文件傳輸,Manage File Transfer,協(xié)議傳送的海量圖像文件、,Web
7、,文本和點擊流數(shù)據(jù)、科學信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。,海量數(shù)據(jù)處理:,大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設計用于數(shù)據(jù)密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的,Apache Hadoop,。,大數(shù)據(jù)要解決的問題,Volume,海量的數(shù)據(jù)規(guī)模,Variety,多樣的數(shù)據(jù)類型,Streams,Real time,Near time,Batch,TB,PB,EB,Structured,Unstructured,Semi-structured,All the above,Value,Velocity,快速的數(shù)據(jù)流轉(zhuǎn),巨大的數(shù)據(jù)價值,相關技術與應用,二,大數(shù)據(jù)怎么用,大數(shù)據(jù)時代的
8、背景,相關技術,云計算與大數(shù)據(jù),大數(shù)據(jù)領的應用,1,2,3,相關技術,相關技術,大數(shù)據(jù)技術將被設計用于在成本可承受(,economically,)的條件下,通過非??焖伲?velocity,)的采集、發(fā)現(xiàn)和分析,從大量化(,volumes,)、多類別(,variety,)的數(shù)據(jù)中提取價值(,value,),,,將是IT 領域新一代的技術與架構,企業(yè)用以分析的數(shù)據(jù)越全面,分析的結果就越接近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務的各個細節(jié)相融合,什么是,Big Data,技術,分析技術:,數(shù)據(jù)處理:自然語言處理技術,統(tǒng)計和分析:,A/B test;top
9、N,排行榜;地域占比;文本情感分析,數(shù)據(jù)挖掘:關聯(lián)規(guī)則分析;分類;聚類,模型預測:預測模型;機器學習;建模仿真,大數(shù)據(jù)技術:,數(shù)據(jù)采集:,ETL,工具,數(shù)據(jù)存?。宏P系數(shù)據(jù)庫;,NoSQL,;,SQL,等,基礎架構支持:云存儲;分布式文件系統(tǒng)等,計算結果展現(xiàn):云計算;標簽云;關系圖等,一些相關技術,存儲,結構化數(shù)據(jù):,海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低,非結構化數(shù)據(jù),圖片、視頻、,word,、,pdf,、,ppt,等文件存儲,不利于檢索、查詢和存儲,半結構化數(shù)據(jù),轉(zhuǎn)換為結構化存儲,按照非結構化存儲,解決方案:,Hadoop,(,MapReduce,技術),流計算(,twitter,的,sto
10、rm,和,yahoo,!的,S4,),數(shù)據(jù)采集,數(shù)據(jù)儲存,數(shù)據(jù)管理,數(shù)據(jù)分析與挖掘,技術領域的挑戰(zhàn),1,、對現(xiàn)有數(shù)據(jù)庫管理技術的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)庫部署不能處理數(shù),TB,級別的數(shù)據(jù),也不能很好的支持高級別的數(shù)據(jù)分析。急速膨脹的數(shù)據(jù)體量即將超越傳統(tǒng)數(shù)據(jù)庫的管理能力。,如何構建全球級的分布式數(shù)據(jù)庫,(Globally-Distributed Database),,可以擴展到數(shù)百萬的機器,數(shù)已百計的數(shù)據(jù)中心,上萬億的行數(shù)據(jù)。,2,、經(jīng)典數(shù)據(jù)庫技術并沒有考慮數(shù)據(jù)的多類別(,variety,),SQL,(結構化數(shù)據(jù)查詢語言),在設計的一開始是沒有考慮非結構化數(shù)據(jù)的。,3,、實時性的技術挑戰(zhàn):,一般而言,像
11、數(shù)據(jù)倉庫系統(tǒng)、,BI,應用,對處理時間的要求并不高。因此這類應用往往運行,1,、,2,天獲得結果依然可行的。但實時處理的要求,是區(qū)別大數(shù)據(jù)應用和傳統(tǒng)數(shù)據(jù)倉庫技術、,BI,技術的關鍵差別之一。,網(wǎng)絡架構、數(shù)據(jù)中心、運維的挑戰(zhàn):,技術架構的挑戰(zhàn):,人們每天創(chuàng)建的數(shù)據(jù)量正呈爆炸式增長,但就數(shù)據(jù)保存來說,我們的技術改進不大,而數(shù)據(jù)丟失的可能性卻不斷增加。,如此龐大的數(shù)據(jù)量首先在存儲上就會是一個非常嚴重的問題,硬件的更新速度將是大數(shù)據(jù)發(fā)展的基石。,大數(shù)據(jù)與云計算,云計算的模式是業(yè)務模式,本質(zhì)是數(shù)據(jù)處理技術。,數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲、訪問和計算。,當前云計算更偏重海量存儲和計算,以及提供的云服務
12、,運行云應用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價值性信息和預測性分析,為國家、企業(yè)、個人提供決策和服務,是大數(shù)據(jù)核心議題,也是云計算的最終方向。,白云下面數(shù)據(jù)跑,藍藍的天上白云飄,如果數(shù)據(jù)是財富,那么大數(shù)據(jù)就是寶藏,而云計算就是挖掘和利用寶藏的利器!沒有強大的計算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的積淀,云計算也只能是殺雞用的宰牛刀!,大數(shù)據(jù)與云計算,2012,云計算,,2013,大數(shù)據(jù)?,美國:,美國政府在,2012,年,3,月,29,日宣布投資兩億美元拉動大數(shù)據(jù)相關產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家意志。,中國:,中國商業(yè)聯(lián)合會:副會長劉建滬介紹說,隨著互聯(lián)網(wǎng)的快速發(fā)展,中國的電子商
13、務企業(yè)紛紛組建了數(shù)據(jù)分析部門。,2011,年,10,月,工信部確認京滬深杭等,5,城市為“云計算中心”試點城市。而真正的問題或許不在于怎樣建設“云計算中心”。國家信息中心常務副主任杜平直言不諱:“應對大數(shù)據(jù)的到來,需要不斷建基礎設施,但是建了干什么,有些數(shù)據(jù)需要存儲,也有很多數(shù)據(jù)可能不需要儲存?!?大數(shù)據(jù)的市場有多大?中央財經(jīng)大學中國經(jīng)濟管理研究院博士張永力說,國外大數(shù)據(jù)行業(yè)約有,1000,億美元的市場,而且每年都以,10%,的速度在增長,增速是軟件行業(yè)的兩倍。,行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:,大數(shù)據(jù)的應用,企業(yè)在投入,IBM,:,IBM,大數(shù)據(jù)提供的服務包括數(shù)據(jù)分析,文本分析,藍色云杉(混
14、搭供電合作的網(wǎng)絡平臺),;,業(yè)務事件處理;,IBM Mashup Center,的計量,監(jiān)測,和商業(yè)化服務(,MMMS,),IBM,的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的,InfoSphere bigInsights,,基于,Apache Hadoop,。,該產(chǎn)品組合包括:,打包的,Apache Hadoop,的軟件和服務,代號是,bigInsights,核心,用于開始大數(shù)據(jù)分析,軟件被稱為,bigsheet,,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關信息,為金融,風險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案,微軟:,2011,年,1,月與惠普(具體而言是,HP,數(shù)據(jù)庫綜合應
15、用部門)合作目標是開發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設備。,EMC,:,EMC,斬獲了紐交所和,Nasdaq,;,大數(shù)據(jù)解決方案已包括,40,多個產(chǎn)品。,Oracle,:,Oracle,大數(shù)據(jù)機與,Oracle Exalogic,中間件云服務器、,Oracle Exadata,數(shù)據(jù)庫云服務器以及,Oracle Exalytics,商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。,政府職能變革,重視應用大數(shù)據(jù)技術,盤活各地云計算中心資產(chǎn):把原來大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績工程,改造成智慧工程;,在安防領域,應用大數(shù)據(jù)技術,提高應急處置能力和安全防范能力;,在民生領
16、域,應用大數(shù)據(jù)技術,提升服務能力和運作效率,以及個性化的服務,比如醫(yī)療、衛(wèi)生、教育等部門;,解決在金融,電信領域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數(shù)型數(shù)據(jù)的統(tǒng)計分析;,政府投入將形成示范效應,大大推動大數(shù)據(jù)的發(fā)展。,大數(shù)據(jù)的應用,政府,“智慧大腦”,智能感知,互聯(lián)互通,智能運營,協(xié)同共享,大數(shù)據(jù)的應用,熱點:智慧城市,美國奧巴馬政府在白宮網(wǎng)站發(fā)布,大數(shù)據(jù)研究和發(fā)展倡議,,提出“通過收集、處理龐大而復雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創(chuàng)新步伐,強化美國國土安全,轉(zhuǎn)變教育和學習模式”;,中國工程院院士鄔賀銓說道,“智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯(lián)和有效,隨著智慧城市的建設,社會將步入“大數(shù)據(jù)”時代?!?難點:,1,、在最初就合理規(guī)劃智慧城市(深度思考哪些領域能夠運用);,2,、在城市發(fā)展基礎設施和“云產(chǎn)業(yè)”的同時,更多重視“數(shù)據(jù)”的價值;,3,、在大數(shù)據(jù)處理領域的核心技術不足,需要政府更大的投入。,大數(shù)據(jù)的應用,未來,改變一切,數(shù)據(jù)的再利用:,由于在信息價值鏈中的特殊