Apache Hive - Ítarleg kennsla

Efnisyfirlit[Fela][Sýna]

Apache Hadoop
Hvað er Apache Hive?+-
- Saga
Hvernig virkar Apache Hive?+-
Helstu eiginleikar
Hagur
Takmarkanir
Að byrja með Apache Hive+-
- 1. Uppsetning Hive frá stöðugri útgáfu
- 2. Running Hive
Niðurstaða

Hive er mikið notað Big Data Analytics tól í bransanum og það er frábær staður til að byrja ef þú ert nýr í Big Data. Þessi Apache Hive lexía fer í gegnum grundvallaratriði Apache Hive, hvers vegna býflugnabú er nauðsynlegt, eiginleika þess og allt annað sem þú ættir að vita.

Við skulum fyrst skilja Hadoop rammann sem Apache Hive er byggður á.

Apache Hadoop

Apache Hadoop er ókeypis og opinn-uppspretta vettvangur til að geyma og vinna úr stórum gagnasöfnum, allt frá gígabætum til petabæta. Hadoop gerir kleift að hópa fjölda tölvur til að greina gríðarstór gagnasöfn samhliða, frekar en að þurfa eina stóra tölvu til að geyma og greina gögnin.

MapReduce og Hadoop Distributed File System eru tveir af íhlutunum:

MapReduce – MapReduce er samhliða forritunartækni til að meðhöndla gríðarstór magn af skipulögðum, hálfuppbyggðum og óskipulögðum gögnum um vörubúnaðarþyrpingar.
HDFS – HDFS (Hadoop Distributed File System) er Hadoop rammahluti sem geymir og vinnur úr gögnum. Það er bilunarþolið skráarkerfi sem keyrir á venjulegum vélbúnaði

Mismunandi undirverkefni (verkfæri) í Hadoop vistkerfinu, þar á meðal Sqoop, Pig og Hive, eru notuð til að aðstoða Hadoop einingar.

Hive – Hive er rammi til að skrifa SQL-stíl forskriftir sem framkvæma MapReduce útreikninga.
Svín – Svín er málsmeðferðarforritunarmál sem hægt er að nota til að búa til handrit fyrir MapReduce ferla.
Skúff - Sqoop er tæki til að flytja inn og flytja út gögn á milli HDFS og RDBMS.

Hvað er Apache Hive?

Apache Hive er opinn uppspretta gagnageymsla forrit til að lesa, skrifa og stjórna risastórum gagnasöfnum sem eru geymd beint í Apache Hadoop Distributed File System (HDFS) eða öðrum gagnageymslukerfum eins og Apache HBase.

SQL forritarar geta notað Hive til að búa til Hive Query Language (HQL) staðhæfingar fyrir gagnafyrirspurnir og greiningu sem eru sambærilegar við venjulegar SQL staðhæfingar. Það var búið til til að gera MapReduce forritun auðveldari með því að útiloka þörfina á að læra og skrifa langan Java kóða. Í staðinn geturðu skrifað fyrirspurnir þínar í HQL og Hive mun byggja kortið og draga úr aðgerðunum fyrir þig.

SQL-líkt viðmót Apache Hive hefur orðið gullstaðallinn til að framkvæma sérstakar leitir, draga saman og greina Hadoop gögn. Þegar það er innifalið í skýinu tölvunet, þessi lausn er sérstaklega hagkvæm og stigstærð, þess vegna halda mörg fyrirtæki, þar á meðal Netflix og Amazon, áfram að þróa og bæta Apache Hive.

Apache

Saga

Á meðan þeir voru á Facebook, bjuggu Joydeep Sen Sarma og Ashish Thusoo til Apache Hive. Þeir viðurkenndu báðir að til að fá sem mest út úr Hadoop þyrftu þeir að búa til frekar flókin Java Map-Reduce verkefni. Þeir viðurkenndu að þeir myndu ekki geta frætt ört stækkandi verkfræði- og greiningarteymi sín um þá hæfileika sem þeir þyrftu til að nýta Hadoop um allt fyrirtækið. Verkfræðingar og sérfræðingar notuðu SQL oft sem notendaviðmót.

Þó að SQL gæti mætt meirihluta greiningarþarfa, ætluðu verktaki einnig að fella inn forritanleika Hadoop. Apache Hive spratt upp frá þessum tveimur markmiðum: SQL byggt yfirlýsingartungumál sem gerði forriturum einnig kleift að koma með eigin forskriftir og forrit þegar SQL var ekki nóg.

Það var einnig þróað til að halda miðlægum lýsigögnum (Hadoop-undirstaða) um öll gagnasöfn fyrirtækisins til að auðvelda byggingu gagnastýrðra stofnana.

Hvernig virkar Apache Hive?

Í hnotskurn breytir Apache Hive innsláttarforriti skrifað á HiveQL (SQL-líkt) tungumáli í eitt eða fleiri Java MapReduce, Tez eða Spark verkefni. (Allar þessar keyrsluvélar eru samhæfðar Hadoop YARN.) Eftir það raðar Apache Hive gögnunum í töflur fyrir Hadoop dreifða skráarkerfið HDFS) og framkvæmir verkefnin á klasa til að fá svar.

Gögn

Apache Hive töflunum er raðað á sama hátt og töflur í venslagagnagrunni eru skipulagðar, með gagnaeiningar á bilinu stærri til smærri. Gagnagrunnar eru samsettir úr töflum sem skiptast í deildir sem skiptast frekar í fötu. HiveQL (Hive Query Language) er notað til að fá aðgang að gögnunum, sem hægt er að breyta eða bæta við. Töflugögn eru sett í röð innan hvers gagnagrunns og hver tafla hefur sína eigin HDFS skrá.

arkitektúr

Nú munum við tala um mikilvægasta þátt Hive Architecture. Íhlutir Apache Hive eru sem hér segir:

Metastore — Það heldur utan um upplýsingar um hverja töflu, svo sem uppbyggingu hennar og staðsetningu. Lýsigögn skiptingarinnar eru sömuleiðis innifalin í Hive. Þetta gerir ökumanni kleift að fylgjast með framvindu mismunandi gagnasetta sem dreifast um þyrpinguna. Gögnin eru geymd á hefðbundnu RDBMS sniði. Hive lýsigögn eru afar mikilvæg fyrir ökumann til að halda utan um gögnin. Afritunarþjónninn afritar gögn reglulega svo hægt sé að endurheimta þau ef gögn tapast.

Bílstjóri – HiveQL yfirlýsingar berast af ökumanni, sem virkar sem stjórnandi. Með því að koma á fundum byrjar ökumaðurinn framkvæmd yfirlýsingarinnar. Það fylgist með líftíma og framvindu framkvæmdastjórans. Meðan á framkvæmd HiveQL yfirlýsingu stendur vistar ökumaðurinn nauðsynleg lýsigögn. Það þjónar einnig sem söfnunarstaður fyrir gögn eða niðurstöður fyrirspurna í kjölfar Reduce ferlisins.

þýðanda – Það keyrir HiveQL fyrirspurnarsamsetninguna. Fyrirspurninni er nú breytt í framkvæmdaráætlun. Verkefnin eru talin upp í áætluninni. Það felur einnig í sér skrefin sem MapReduce verður að taka til að fá niðurstöðuna eins og hún er þýdd af fyrirspurninni. Fyrirspurninni er breytt í abstrakt setningafræðitré af þýðanda Hive (AST). Breytir AST í stýrt ósýklískt graf eftir að hafa athugað hvort samhæfni og samsetningartímavillur (DAG) séu gerðar.

Fínstillingu – Það hagræðir DAG með því að framkvæma mismunandi breytingar á framkvæmdaráætluninni. Það sameinar umbreytingar til að auka skilvirkni, eins og að breyta leiðslu af liðum í eina samskeyti. Til að bæta hraða gæti fínstillingin skipt aðgerðum, svo sem að beita umbreytingu á gögn áður en minnkunaraðgerð er framkvæmd.

Framkvæmdastjóri – Framkvæmdastjóri keyrir verkefnin þegar samantekt og hagræðingu er lokið. Verkin eru flutt af framkvæmdastjóra.

CLI, UI og Thrift Server – Skipanalínuviðmótið (CLI) er notendaviðmót sem gerir utanaðkomandi notanda kleift að eiga samskipti við Hive. Sparnaðarþjónn Hive, svipað og JDBC eða ODBC samskiptareglur, gerir ytri viðskiptavinum kleift að eiga samskipti við Hive í gegnum netkerfi.

Öryggi

Apache Hive er samþætt Hadoop öryggi, sem notar Kerberos fyrir gagnkvæma auðkenningu biðlara og netþjóns. HDFS kveður á um heimildir fyrir nýbúnar skrár í Apache Hive, sem gerir þér kleift að samþykkja af notanda, hópi og öðrum.

Helstu eiginleikar

Hive styður ytri töflur, sem gera þér kleift að vinna úr gögnum án þess að geyma þau í HDFS.
Það gerir einnig skiptingu gagna á borðstigi kleift að auka hraðann.
Apache Hive uppfyllir framúrskarandi viðmótsþörf Hadoop á lágu stigi.
Hive gerir samantekt gagna, fyrirspurnir og greiningu auðveldari.
HiveQL krefst ekki forritunarkunnáttu; Einfaldur skilningur á SQL fyrirspurnum er nægjanlegur.
Við getum líka notað Hive til að framkvæma sérstakar fyrirspurnir fyrir gagnagreiningu.
Það er skalanlegt, kunnuglegt og aðlögunarhæft.
HiveQL krefst ekki forritunarkunnáttu; Einfaldur skilningur á SQL fyrirspurnum er nægjanlegur.

Hagur

Apache Hive gerir ráð fyrir skýrslum í lok dags, daglegu viðskiptamati, sértækri leit og gagnagreiningu. Alhliða innsýn sem Apache Hive veitir gefur verulega samkeppnisforskot og auðveldar þér að bregðast við kröfum markaðarins.

Hér eru nokkrir kostir þess að hafa slíkar upplýsingar aðgengilegar:

Auðvelt í notkun - Með SQL-líku tungumáli er auðvelt að skilja fyrirspurnir um gögn.
Hröðun gagnainnsetningar — Vegna þess að Apache Hive les skemað án þess að staðfesta töflugerðina eða skemaskilgreininguna, þarf ekki að lesa gögn, flokka þau og raðgreina á disk á innra sniði gagnagrunnsins. Aftur á móti, í hefðbundnum gagnagrunni, verður að staðfesta gögn í hvert skipti sem þeim er bætt við.
Frábær sveigjanleiki, sveigjanleiki og hagkvæmni - Vegna þess að gögn eru geymd í HDFS getur Apache Hive geymt 100 þúsund petabæta af gögnum, sem gerir það að miklu skalanlegra valkosti en dæmigerður gagnagrunnur. Apache Hive, sem skýjabundin Hadoop þjónusta, gerir viðskiptavinum kleift að snúa upp og niður sýndarþjóna hratt til að mæta breyttu vinnuálagi.
Mikil starfsgeta - Stór gagnasöfn geta séð um allt að 100,000 fyrirspurnir á klukkustund.

Takmarkanir

Almennt séð hafa Apache Hive fyrirspurnir mjög mikla leynd.
Stuðningur undirfyrirspurna er takmarkaður.
Rauntímafyrirspurnir og breytingar á röðum eru ekki tiltækar í Apache Hive.
Það er enginn stuðningur við raunhæfar skoðanir.
Í hive eru uppfærslu- og eyðingaraðgerðir ekki studdar.
Ekki ætlað fyrir OLTP (aðlögunarferli á netinu).

Að byrja með Apache Hive

Apache Hive er sterkur Hadoop samstarfsaðili sem einfaldar og hagræðir vinnuflæði þitt. Til að fá sem mest út úr Apache Hive er óaðfinnanlegur samþætting nauðsynleg. Fyrsta skrefið er að fara í vefsíðu..

1. Uppsetning Hive frá stöðugri útgáfu

Byrjaðu á því að hlaða niður nýjustu stöðugu útgáfunni af Hive frá einum af Apache niðurhalsspeglunum (sjá Hive útgáfur). Síðan þarf að pakka niður tjörnunni. Þetta mun búa til undirmöppu sem kallast hive-xyz (þar sem xyz er útgáfunúmerið):

Stilltu umhverfisbreytuna HIVE_HOME til að benda á uppsetningarskrána:

2 1

Að lokum skaltu bæta $HIVE_HOME/bin við þinn PATH:

2. Running Hive

Hive notar Hadoop, svo:

þú verður að hafa Hadoop á vegi þínum EÐA

3. DLL aðgerð

Að búa til Hive töflu

býr til töflu sem heitir pokes með tveimur dálkum, sá fyrsti er heiltala og sá síðari er strengur.

Flett í gegnum töflur

Listi yfir allar töflurnar

Breyta og sleppa töflum

Hægt er að breyta töfluheitum og bæta við dálkum eða skipta út:

Rétt er að taka fram að REPLACE DÁLUM kemur í stað allra núverandi dálka en breytir aðeins uppbyggingu töflunnar en ekki gögnunum. Nota verður innfæddan SerDe í töflunni. Skipta út dálkum er einnig hægt að nota til að fjarlægja dálka úr skema töflu:

Sleppa töflum

Það eru margar viðbótaraðgerðir og eiginleikar í Apache Hive sem þú gætir lært um með því að fara á opinberu vefsíðuna.

Niðurstaða

Hive definition er gagnaforritsviðmót fyrir fyrirspurnir og greiningu fyrir risastór gagnasöfn sem eru byggð ofan á Apache Hadoop. Fagmenn velja það fram yfir önnur forrit, verkfæri og hugbúnað þar sem það er aðallega hannað fyrir Hive víðtæk gögn og er einfalt í notkun.

Vona að þessi kennsla hjálpi þér að byrja með Apache Hive og gera verkflæði þitt skilvirkara. Láttu okkur vita í athugasemdum.

Apache Hive – Ítarleg kennsla

Apache Hadoop

Hvað er Apache Hive?

Saga

Hvernig virkar Apache Hive?