歡迎來到魔據教育大數據學院,專注大數據工程師培養!
當前位置:首頁 > 新聞動態 > 行業資訊 > 《Hadoop權威指南》---相關框架

《Hadoop權威指南》---相關框架

時間:2019-04-12 14:07:10作者:魔據大數據學院

        hadoop之所以能夠這么流行,主要是集成了很多其他優秀的框架,下面就來看看這些有用的框架。


  一、Pig

  MapReduce使作為程序員的你能夠自己定義一個map函數和reduce函數,但是你必須使你的數據處理過程與這一連續的map和reduce模式相匹配,很多時候,數據處理多個MapReduce過程才能夠實現,從而使得數據處理過程與該模式匹配可能很困難,但是有了Pig,就能夠使用更加豐富的數據結構,這些數據結構往往都是多值和嵌套的,并且還提供了一套更加強大的數據變換操作,包括MapReduce中忽視的連接(join)操作。

  Pig為大型數據集的處理提供了更高層次的抽象,主要包括兩大部分:

  1. 用于描述數據流的語言,稱為Pig Latin

  2. 用于運行Pig Latin程序的執行環境。當前有兩個環境:單JVM中的本地環境和hadoop集群上的分布式執行環境

  Pig Latin程序由一些列的‘操作’或者‘變換’組成,每個操作或者變換對輸入進行數據處理,并產生輸出結果,從整體上看,這些操作描述了一個數據流。Pig執行環境把數據流翻譯成可執行的內部表示并運行它,在Pig內部,這些變換操作被轉換成一系列MapReduce作業,但是作為程序員,你多數情況下并不需要知道這些轉換是如何進行的,這樣一來,你便可以將精力集中在數據上,而非執行細節上。


  二、Hive

  Hive是一個構建在hadoop上的數據倉庫框架,是應Facebook每天產生的海量新興社會網絡數據進行管理和(機器)學習的需求而產生和發展的,在嘗試了不同系統之后,團隊選擇hadoop來存儲和處理數據,因為hadoop的性價比高,同時還可以滿足他們的可伸縮性要求。

  Hive的設計目的是讓SQL技能(但是java編程技能相對較弱)的分析師能夠對Facebook存放的HDFS中的大規模數據集執行查詢。現在的Hive已經是一個成功的apache項目,很多組織把它作為一個通用的、可伸縮性的數據處理平臺。


  三、HBase

  HBase是一個HDFS上開發的面向列的分布式數據庫。如果需要實時的隨機訪問超大規模的數據集,就可以使用HBase這一hadoop應用。

  雖然數據庫存儲和檢索的實現可以選擇很多不同的策略,但是絕大部分的辦法(特別是關系型數據庫技術的變種)不是為大規模可伸縮性的分布處理設計的,很多廠商提供了復制和分區的解決方案,讓數據庫能夠從單個節點上擴展出去,但是這些附加的技術大都是屬于“事后”的解決辦法,而且非常的難以安裝和維護。并且這些解決辦法常常要犧牲一些重要的RDBMS(關系型數據庫關系系統)特性。在一個“擴展的”RDBMS上,連接、復雜查詢、觸發器、試圖以及外鍵約束這些功能功能要么運行開銷大,要么無法用。

  HBase從另外體格方向來解決可伸縮性的問題。它自底向上地進行構建、能夠簡單的通過增加節點來達到線性擴展。HBase并不是關系熊數據庫,它不支持SQL,但是在特定的問題空間里,它能夠做RDBMS不能做的事:在臉頰硬件構成的集群上管理著超大規模的稀疏表。

  HBase的一個典型的應用就是webtable,一個以網頁URL為主鍵的表,其中包含爬取的頁面和頁面的屬性。webtable非常大,行數可以達到十億級別。在webtable上連續運行用于批處理分析和解析的MapReduce作業,能夠獲取相關的統計信息,增加驗證的MIME類型列以及供搜索引擎進行索引的解析后的文本內容,同時表格還會被以不同運行速度的“爬取器”速記訪問并隨機更新其中的列,在用戶點擊網站的緩存頁面時,需要實時地將這些被隨機訪問的頁面提供給他們。


更多大數據相關資訊敬請關注魔據教育,為您分享最及時的大數據資訊。
學習大數據敬請關注魔據教育微信二維碼。
魔據教育微信二維碼

【版權與免責聲明】如發現內容存在版權問題,煩請提供相關信息發郵件至[email protected],我們將及時溝通與處理。本站內容除非來源注明魔據教育,否則均為網友轉載,涉及言論、版權與本站無關。

全國咨詢熱線:18501996998,值班手機:18501996998(7*24小時)

在線咨詢:張老師QQ 320169340

企業合作服務專線:010-82340234-821, 院校合作洽談專線:010-82340234

Copyright 2001-2019 魔據教育 - 北京華育興業科技有限公司 版權所有,京ICP備17018991號-2

免費在線咨詢立即咨詢

免費索取技術資料立即索取

大數據技術交流QQ:226594285

電話咨詢010-82340234

【看图找生肖】免费