Uirlis Anailísíochta Sonraí Móra a úsáidtear go forleathan sa ghnó is ea Hive, agus is áit iontach é le tosú mura bhfuil tú ag tosú le Big Data. Téann an ceacht Apache Hive seo trí bhunghnéithe Apache Hive, cén fáth go bhfuil gá le hive, a ghnéithe, agus gach rud eile ar cheart duit a bheith ar eolas agat.
Tuigfimid ar dtús creat Hadoop ar a bhfuil Apache Hive tógtha.
Cluiche Apache Hadoop
Tá Apache Hadoop saor in aisce agus foinse oscailte ardán chun tacair shonraí mhóra a stóráil agus a phróiseáil ó ghigibheart go petabytes. Ligeann Hadoop roinnt ríomhairí a bhraisliú chun bunachair shonraí ollmhóra a anailísiú go comhthreomhar, seachas a bheith ag teastáil ó ríomhaire mór amháin chun na sonraí a stóráil agus a anailísiú.
Is dhá cheann de na comhpháirteanna iad MapReduce agus Córas Comhad Dáilte Hadoop:
- MapLaghdaigh – Is teicníc ríomhchláraithe chomhthreomhar é MapReduce chun líon ollmhór sonraí eagraithe, leath-struchtúrtha agus neamhstruchtúrtha ar bhraislí crua-earraí tráchtearraí a láimhseáil.
- HDFS – Is comhpháirt de chreat Hadoop é HDFS (Córas Comhaid Dáilte Hadoop) a stórálann agus a phróiseálann sonraí. Is córas comhaid locht-fhulangach é a ritheann ar chrua-earraí caighdeánacha
Úsáidtear fothionscadail (uirlisí) éagsúla in éiceachóras Hadoop, lena n-áirítear Sqoop, Pig, agus Hive, chun cabhrú le modúil Hadoop.
- Hive – Is creatlach é Hive chun scripteanna ar stíl SQL a scríobh a dhéanann ríomhanna MapReduce.
- Muc – Is teanga ríomhchlárúcháin nós imeachta í Muc is féidir a úsáid chun script a chruthú do phróisis MapReduce.
- Scuop – Is uirlis é Sqoop chun sonraí a allmhairiú agus a onnmhairiú idir HDFS agus RDBMS.
Cad é Hive Apache?
Is foinse oscailte é Apache Hive stóras sonraí clár le haghaidh léamh, scríobh, agus bainistiú tacair sonraí ollmhóra atá stóráilte go díreach i gCóras Comhad Dáilte Apache Hadoop (HDFS) nó córais stórála sonraí eile cosúil le Apache HBase.
Féadfaidh forbróirí SQL Hive a úsáid chun ráitis Hive Query Language (HQL) a chruthú le haghaidh fiosrúcháin agus anailíse sonraí atá inchomparáide le ráitis SQL rialta. Cruthaíodh é chun ríomhchlárú MapReduce a dhéanamh níos éasca trí dheireadh a chur leis an ngá atá le cód fada Java a fhoghlaim agus a scríobh. Ina áit sin, féadfaidh tú do cheisteanna a scríobh i HQL, agus tógfaidh Hive an léarscáil agus laghdóidh sé na feidhmeanna duit.
Tá comhéadan SQL cosúil le Apache Hive tagtha chun bheith ina Chaighdeán Óir chun cuardaigh ad-hoc a dhéanamh, chun achoimre a dhéanamh agus chun anailís a dhéanamh ar shonraí Hadoop. Nuair a bheidh san áireamh i scamall líonraí ríomhaireachta, tá an réiteach seo go háirithe éifeachtach ó thaobh costais agus inscálaithe, agus is é sin an fáth go leanann go leor gnólachtaí, lena n-áirítear Netflix agus Amazon, ag forbairt agus ag feabhsú Apache Hive.
Stair
Le linn a gcuid ama ag Facebook, chomhchruthaigh Joydeep Sen Sarma agus Ashish Thusoo Apache Hive. D'aithin an bheirt acu go gcaithfeadh siad roinnt tascanna Java Map-Laghdaigh casta a chruthú chun an leas is fearr a bhaint as Hadoop. D’aithin siad nach mbeadh siad in ann oideachas a chur ar a bhfoirne innealtóireachta agus anailíse atá ag méadú go tapa ar na scileanna a bheadh de dhíth orthu chun Hadoop a úsáid ar fud na cuideachta. Bhain innealtóirí agus anailísithe úsáid as SQL go minic mar chomhéadan úsáideora.
Cé go bhféadfadh SQL freastal ar fhormhór na riachtanas anailíse, bhí sé ar intinn ag na forbróirí freisin in-ríomhchláraitheacht Hadoop a ionchorprú. D’eascair Apache Hive as an dá chuspóir seo: teanga dhearbhaithe bunaithe ar SQL a chuir ar chumas na bhforbróirí a gcuid scripteanna agus a gcláir féin a thabhairt isteach nuair nár leor SQL.
Forbraíodh é freisin chun meiteashonraí láraithe (Hadoop-bhunaithe) a choinneáil faoi na tacair sonraí go léir sa chuideachta chun tógáil eagraíochtaí atá bunaithe ar shonraí a éascú.
Conas a oibríonn Apache Hive?
Go hachomair, athraíonn Apache Hive clár ionchuir atá scríofa sa teanga HiveQL (cosúil le SQL) go ceann amháin nó níos mó de thasc Java MapReduce, Tez, nó Spark. (Tá na hinnill fhorghníomhaithe seo go léir ag luí le Hadoop YARN.) Ina dhiaidh sin, socraíonn Apache Hive na sonraí ina dtáblaí don Hadoop Distributed File System HDFS) agus déanann sé na tascanna ar bhraisle chun freagra a fháil.
Dáta
Socraítear táblaí Apache Hive ar an mbealach céanna agus a eagraítear táblaí i mbunachar sonraí coibhneasta, le haonaid sonraí ag dul i méid ó níos mó go dtí níos lú. Tá bunachair shonraí comhdhéanta de tháblaí atá roinnte ina rannáin, a roinntear tuilleadh ina bhuicéid. Úsáidtear HiveQL (Hive Query Language) chun rochtain a fháil ar na sonraí, ar féidir iad a athrú nó a chur i gceangal leis. Tá sonraí tábla sraitheach laistigh de gach bunachar sonraí, agus tá a eolaire HDFS féin ag gach tábla.
ailtireacht
Anois beimid ag caint faoin ngné is tábhachtaí d'Ailtireacht Hive. Is iad seo a leanas comhpháirteanna Apache Hive:
Metastore — Coimeádann sé eolas faoi gach tábla, amhail a struchtúr agus a shuíomh. Tá na meiteashonraí deighilte san áireamh freisin in Hive. Ligeann sé seo don tiománaí súil a choinneáil ar dhul chun cinn tacair sonraí éagsúla scaipthe ar fud an bhraisle. Stóráiltear na sonraí i bhformáid traidisiúnta RDBMS. Tá meiteashonraí hive thar a bheith tábhachtach don tiománaí chun súil a choinneáil ar na sonraí. Déanann an freastalaí cúltaca sonraí a dhúbláil ar bhonn rialta ionas gur féidir é a aisghabháil i gcás caillteanas sonraí.
Tiománaí – Faigheann tiománaí, a fheidhmíonn mar rialtóir, ráitis HiveQL. Trí sheisiúin a bhunú, cuireann an tiománaí tús le forghníomhú an ráitis. Coinníonn sé súil ar shaolré agus ar dhul chun cinn an fheidhmeannaigh. Le linn ráiteas HiveQL a chur i gcrích, sábhálann an tiománaí na meiteashonraí riachtanacha. Feidhmíonn sé freisin mar phointe bailithe sonraí nó torthaí ceiste tar éis an phróisis Laghdaigh.
Tiomsaitheoir – Déanann sé tiomsú fiosrúcháin HiveQL. Tá an cheist athraithe anois go plean forghníomhaithe. Tá na tascanna liostaithe sa phlean. Áiríonn sé freisin na céimeanna nach mór do MapReduce a ghlacadh chun an toradh a fháil mar atá aistrithe ag an gceist. Tiontaíonn tiomsaitheoir Hive (AST) an cheist go Crann Comhréire Teibí. Tiontaíonn sé an AST go Graf Aicimileach faoi Threoir tar éis seiceáil le haghaidh comhoiriúnachta agus lochtanna ama tiomsaithe (DAG).
Optimizer – Déanann sé DAG a bharrfheabhsú trí athruithe éagsúla a dhéanamh ar an bplean forghníomhaithe. Nascann sé claochluithe le haghaidh éifeachtúlachta feabhsaithe, mar shampla píblíne nasc a thiontú ina cheangal amháin. Chun luas a fheabhsú, d'fhéadfadh an t-uasmhéadaitheoir gníomhaíochtaí a roinnt, amhail claochlú a chur i bhfeidhm ar shonraí roimh oibríocht laghdaithe a dhéanamh.
Seiceadóir – Déanann an seiceadóir na tascanna a rith nuair a bheidh an tiomsú agus an leas iomlán a bhaint críochnaithe. Tá na poist á bpíblíne ag an Seiceadóir.
CLI, UI, agus Freastalaí rabhán – Is comhéadan úsáideora é an comhéadan líne ordaithe (CLI) a ligeann d’úsáideoir seachtrach cumarsáid a dhéanamh le Hive. Ligeann freastalaí rabhán Hive, cosúil le prótacail JDBC nó ODBC, do chliaint seachtracha cumarsáid a dhéanamh le Hive trí líonra.
Slándáil
Tá Apache Hive comhtháite le slándáil Hadoop, a úsáideann Kerberos le haghaidh fíordheimhnithe frithpháirteach cliant-freastalaí. Ordaíonn an HDFS ceadanna do chomhaid nuaghinte in Apache Hive, rud a ligeann duit an t-úsáideoir, an grúpa agus daoine eile a cheadú.
Príomhghnéithe
- Tacaíonn Hive le táblaí seachtracha, a ligeann duit sonraí a phróiseáil gan iad a stóráil i HDFS.
- Cuireann sé ar chumas freisin deighilt sonraí ag leibhéal an tábla chun luas a mhéadú.
- Freastalaíonn Apache Hive go sármhaith ar riachtanas comhéadain ísealleibhéil Hadoop.
- Déanann Hive achoimriú sonraí, iad a cheistiú agus a anailísiú níos éasca.
- Ní éilíonn HiveQL aon scileanna ríomhchlárúcháin; is leor tuiscint shimplí ar cheisteanna SQL.
- Is féidir linn Hive a úsáid freisin chun fiosrúcháin ad hoc a dhéanamh le haghaidh anailíse sonraí.
- Tá sé inscálaithe, eolach agus inoiriúnaithe.
- Ní éilíonn HiveQL aon scileanna ríomhchlárúcháin; is leor tuiscint shimplí ar cheisteanna SQL.
Sochair
Ceadaíonn Apache Hive tuairiscí deireadh lae, meastóireachtaí idirbheart laethúil, cuardaigh ad hoc, agus anailís sonraí. Tugann na léargais chuimsitheacha a sholáthraíonn Apache Hive buntáistí suntasacha iomaíocha agus é a dhéanamh níos éasca duit freagairt d'éilimh an mhargaidh.
Seo cuid de na buntáistí a bhaineann le faisnéis den sórt sin a bheith ar fáil go héasca:
- Éasca le húsáid – Leis an teanga atá cosúil le SQL, tá sé simplí sonraí a fhiosrú.
- Ionchur sonraí luathaithe — Toisc go léann Apache Hive an scéimre gan an cineál tábla nó an sainmhíniú scéimre a fhíorú, ní gá sonraí a léamh, a pharsáil agus a shraithiú go diosca i bhformáid inmheánach an bhunachair shonraí. I gcodarsnacht leis sin, i mbunachar sonraí traidisiúnta, ní mór sonraí a bhailíochtú gach uair a chuirtear leis.
- Inscalability Superior, solúbthacht, agus cost-éifeachtúlacht – Toisc go bhfuil sonraí stóráilte san HDFS, is féidir le Apache Hive 100s de petabytes sonraí a choinneáil, rud a fhágann gur rogha i bhfad níos inscálaithe é ná gnáthbhunachar sonraí. Ligeann Apache Hive, mar sheirbhís Hadoop scamall-bhunaithe, do chustaiméirí casadh suas agus síos go tapa ar fhreastalaithe fíorúla chun freastal ar ualaí oibre athraitheacha.
- Cumas oibre fairsing – Féadfaidh tacair sonraí móra suas le 100,000 fiosrúchán in aghaidh na huaire a láimhseáil.
Teorainneacha
- Go ginearálta, tá latency an-ard ag ceisteanna Apache Hive.
- Tá tacaíocht subquery teoranta.
- Níl fiosrúcháin fíor-ama agus athruithe ar leibhéil rónna ar fáil in Apache Hive.
- Níl aon tacaíocht ann do radharcanna ábhartha.
- Sa choirceog, ní thacaítear le gníomhartha a nuashonrú agus a scriosadh.
- Níl sé beartaithe do OLTP (próiseas idirthréimhseach ar líne).
Tús a chur le Apache Hive
Is comhpháirtí Hadoop láidir é Apache Hive a shimplíonn agus a shruthaíonn do shreafaí oibre. Chun an leas is fearr a bhaint as Apache Hive, tá comhtháthú gan uaim riachtanach. Is é an chéad chéim chun dul go dtí an láithreán gréasáin.
1. Suiteáil Hive ó Scaoileadh Cobhsaí
Tosaigh tríd an scaoileadh cobhsaí is déanaí de Hive a íoslódáil ó cheann de na scátháin íoslódála Apache (féach Scaoileadh Hive). Ní mór an tarball a dhíphacáil ansin. Cruthóidh sé seo fofhillteán ar a dtugtar hive-xyz (áit arb é xyz an uimhir eisithe):
Socraigh an athróg timpeallachta HIVE_HOME chun pointe a chur chuig an eolaire suiteála:
Ar deireadh, cuir $HIVE_HOME/bin le do PATH
:
2. Rith Hive
Úsáideann Hive Hadoop, mar sin:
- caithfidh Hadoop a bheith agat i do chosán NÓ
3. Oibríocht dll
Tábla Hive á Chruthú
gineann tábla darb ainm pokes le dhá cholún, ar slánuimhir an chéad cheann díobh agus ar sreang é an dara ceann díobh.
Brabhsáil trí Táblaí
Ag Liostáil na Táblaí go léir
Táblaí a Athrú agus a Dhéanamh
Is féidir ainmneacha táblaí a athrú agus colúin a chur leis nó a athsholáthar:
Is fiú a thabhairt faoi deara go gcuireann REPLACE COLUMNS ionad na gcolún go léir atá ann cheana féin agus nach n-athraítear ach struchtúr an tábla agus ní na sonraí. Ní mór SerDe dúchasach a úsáid sa tábla. Is féidir COLÚNAÍ ATHSHOLAITHE a úsáid freisin chun colúin a bhaint as scéimre an tábla:
Táblaí Dropping
Tá go leor oibríochtaí agus gnéithe breise in Apache Hive ar féidir leat foghlaim faoi ach cuairt a thabhairt ar an láithreán gréasáin oifigiúil.
Conclúid
Comhéadan clár sonraí is ea sainmhíniú Hive chun ceisteanna agus anailís a dhéanamh ar thacair shonraí ollmhóra a thógtar ar bharr Apache Hadoop. Roghnaíonn gairmithe é thar chláir, uirlisí agus bogearraí eile toisc go bhfuil sé deartha go príomha le haghaidh sonraí fairsinge Hive agus go bhfuil sé simplí le húsáid.
Tá súil agam go gcabhraíonn an teagasc seo leat tús a chur le Apache Hive agus do shreafaí oibre a dhéanamh níos éifeachtaí. Cuir in iúl dúinn sna tuairimí.
Leave a Reply