Apache Hive - Oideachadh domhainn

Clàr-innse[Falaich][Seall]

Apache Hadoop
Dè a th’ ann an Apache Hive?+-
- eachdraidh
Ciamar a tha Apache Hive ag obair?+-
Prìomh fheartan
buannachdan
Crìochan
A 'tòiseachadh le Apache Hive+-
- 1. Stàladh Hive bho Stable Release
- 2. A' ruith Hive
Co-dhùnadh

Tha Hive na inneal Big Data Analytics a tha air a chleachdadh gu farsaing anns a’ ghnìomhachas, agus tha e na àite math airson tòiseachadh ma tha thu ùr do Big Data. Bidh an leasan Apache Hive seo a’ dol tro bhun-stèidh Apache Hive, carson a tha feum air bothan, na feartan aige, agus a h-uile càil eile air am bu chòir fios a bhith agad.

Tuigidh sinn an-toiseach frèam Hadoop air a bheil Apache Hive air a thogail.

Apache Hadoop

Apache Hadoop saor an asgaidh Open-an tùs àrd-ùrlar airson stòran-dàta mòra a stòradh agus a làimhseachadh ann am meud bho gigabytes gu petabytes. Tha Hadoop a’ ceadachadh grunn choimpiutairean a chruinneachadh gus dàta fìor mhòr a sgrùdadh aig an aon àm, seach a bhith ag iarraidh air aon choimpiutair mòr airson an dàta a stòradh agus a sgrùdadh.

Tha MapReduce agus siostam faidhle Hadoop Distributed mar dhà de na pàirtean:

Mapa Lùghdaich - Tha MapReduce na dhòigh prògramadh co-shìnte airson a bhith a’ làimhseachadh meudan mòra de dhàta eagraichte, leth-structaraichte agus neo-structaraichte air cruinneachaidhean bathar-cruaidh bathar.
HDFS - Tha HDFS (Siostam faidhle air a chuairteachadh Hadoop) na phàirt frèam Hadoop a bhios a’ stòradh agus a’ giullachd dàta. Is e siostam faidhle a tha fulang le lochdan a th’ ann a tha a’ ruith air bathar-cruaidh àbhaisteach

Tha diofar fo-phròiseactan (innealan) ann an eag-shiostam Hadoop, a’ gabhail a-steach Sqoop, Pig, agus Hive, air an cleachdadh gus modalan Hadoop a chuideachadh.

bheachair - Tha Hive na fhrèam airson sgriobtaichean ann an stoidhle SQL a sgrìobhadh a bhios a’ coileanadh àireamhachadh MapReduce.
Muc - Is e cànan prògramadh modh-obrach a th’ ann am Muc a dh’ fhaodar a chleachdadh gus sgriobt a chruthachadh airson pròiseasan MapReduce.
Sgòp - Tha Sqoop na inneal airson dàta a thoirt a-steach agus às-mhalairt eadar HDFS agus RDBMS.

Na th’ann Apache Hive?

Tha Apache Hive na stòr fosgailte stòr dàta prògram airson a bhith a’ leughadh, a’ sgrìobhadh, agus a’ riaghladh sheataichean dàta mòra air an stòradh gu dìreach ann an Siostam faidhle Sgaoilte Apache Hadoop (HDFS) no siostaman stòraidh dàta eile leithid Apache HBase.

Faodaidh luchd-leasachaidh SQL Hive a chleachdadh gus aithrisean Hive Query Language (HQL) a chruthachadh airson ceist dàta agus mion-sgrùdadh a tha coltach ri aithrisean SQL cunbhalach. Chaidh a chruthachadh gus prògramadh MapReduce a dhèanamh nas fhasa le bhith a’ cur às don fheum air còd fada Java ionnsachadh agus a sgrìobhadh. An àite sin, faodaidh tu na ceistean agad a sgrìobhadh ann an HQL, agus togaidh Hive am mapa agus lughdaichidh tu na gnìomhan dhut.

Tha an eadar-aghaidh coltach ri SQL de Apache Hive air a thighinn gu bhith na inbhe òir airson a bhith a’ dèanamh rannsachaidhean ad-hoc, a’ toirt geàrr-chunntas agus a’ mion-sgrùdadh dàta Hadoop. Nuair a thèid a thoirt a-steach don sgòth lìonraidhean coimpiutaireachd, tha am fuasgladh seo gu sònraichte èifeachdach a thaobh cosgais agus so-ruigsinneach, agus is e sin as coireach gu bheil mòran chompanaidhean, Netflix agus Amazon nam measg, a’ leantainn air adhart a’ leasachadh agus a’ leasachadh Apache Hive.

Apache

eachdraidh

Rè an ùine aig Facebook, cho-chruthaich Joydeep Sen Sarma agus Ashish Thusoo Apache Hive. Dh’ aithnich iad le chèile gum feumadh iad gnìomhan Java Map-Reduce caran toinnte a chruthachadh airson a’ chuid as fheàrr fhaighinn à Hadoop. Dh’aithnich iad nach biodh e comasach dhaibh na sgiobaidhean innleadaireachd is anailis aca oideachadh mu na sgilean a dh’ fheumadh iad gus Hadoop a luathachadh air feadh a’ chompanaidh. Bhiodh innleadairean agus sgrùdairean gu tric a’ cleachdadh SQL mar eadar-aghaidh cleachdaiche.

Ged a b’ urrainn do SQL coinneachadh ris a’ mhòr-chuid de fheumalachdan anailis, bha an luchd-leasachaidh cuideachd an dùil comas prògramachaidh Hadoop a thoirt a-steach. Dh’ èirich Apache Hive bhon dà amas seo: cànan dearbhaidh stèidhichte air SQL a leig le luchd-leasachaidh na sgriobtaichean agus na prògraman aca fhèin a thoirt a-steach nuair nach robh SQL gu leòr.

Chaidh a leasachadh cuideachd gus meata-dàta meadhanaichte (stèidhichte air Hadoop) a chumail mu na stòran-dàta gu lèir sa chompanaidh gus togail bhuidhnean stèidhichte air dàta a dhèanamh nas fhasa.

Ciamar a tha Apache Hive ag obair?

Ann an ùine ghoirid, bidh Apache Hive ag atharrachadh prògram cuir a-steach sgrìobhte sa chànan HiveQL (coltach ri SQL) gu aon no barrachd ghnìomhan Java MapReduce, Tez, no Spark. (Tha na h-einnseanan cur gu bàs sin uile co-chòrdail ri Hadoop YARN.) Às deidh sin, bidh Apache Hive a’ rèiteachadh an dàta gu clàran airson an Hadoop Distributed File System HDFS) agus a’ coileanadh nan gnìomhan air brabhsair gus freagairt fhaighinn.

Dàta

Tha clàran Apache Hive air an rèiteachadh san aon dòigh ri clàran ann an stòr-dàta dàimheach air an eagrachadh, le aonadan dàta ann am meud bho nas motha gu nas lugha. Tha stòran-dàta air an dèanamh suas de chlàran a tha air an roinn ann an roinnean, a tha air an roinn nas fhaide ann am bucaidean. Bithear a’ cleachdadh HiveQL (Hive Query Language) gus cothrom fhaighinn air an dàta, a ghabhas atharrachadh no a chur ris. Tha dàta clàir air a chur ann an sreath taobh a-staigh gach stòr-dàta, agus tha a chlàr HDFS fhèin aig gach clàr.

Architecture

A-nis bruidhnidh sinn mun taobh as cudromaiche de Hive Architecture. Tha na pàirtean de Apache Hive mar a leanas:

Metastore - Bidh e a’ cumail sùil air fiosrachadh mu gach clàr, leithid a structar agus a shuidheachadh. Tha meata-dàta an sgaradh cuideachd air a thoirt a-steach do Hive. Leigidh seo leis an draibhear sùil a chumail air adhartas diofar sheataichean dàta air feadh a’ chnuasaich. Tha an dàta air a stòradh ann an cruth àbhaisteach RDBMS. Tha meata-dàta hive air leth cudromach airson gum bi an draibhear a’ cumail sùil air an dàta. Bidh an frithealaiche cùl-taic a’ dùblachadh dàta gu cunbhalach gus am faighear air ais e ma thèid dàta a chall.

Driver - Bidh draibhear a’ faighinn aithrisean HiveQL, a bhios ag obair mar rianadair. Le bhith a 'stèidheachadh seiseanan, bidh an dràibhear a' tòiseachadh air an aithris a chur an gnìomh. Bidh e a’ cumail sùil air beatha agus adhartas an sgioba-gnìomha. Nuair a thèid aithris HiveQL a chuir an gnìomh, sàbhalaidh an draibhear am meata-dàta a tha a dhìth. Bidh e cuideachd na phuing cruinneachaidh toradh dàta no ceist às deidh a’ phròiseas Lùghdaich.

Tiomnadh - Bidh e a’ cur ri chèile cruinneachadh ceist HiveQL. Tha a’ cheist a-nis air atharrachadh gu plana cur gu bàs. Tha na gnìomhan air an liostadh sa phlana. Tha e cuideachd a’ toirt a-steach na ceumannan a dh’ fheumas MapReduce a ghabhail gus an toradh fhaighinn mar a chaidh eadar-theangachadh leis a’ cheist. Tha a’ cheist air a thionndadh gu Abstract Syntax Tree le neach-cruinneachaidh Hive (AST). Ag atharrachadh an AST gu Graf Acyclic Stiùirichte às deidh sgrùdadh a dhèanamh airson co-chòrdalachd agus sgàinidhean ùine cruinneachaidh (DAG).

Optimizer - Bidh e a’ dèanamh an fheum as fheàrr de DAG le bhith a’ coileanadh diofar atharrachaidhean air a’ phlana gnìomh. Bidh e a’ cothlamadh cruth-atharrachaidhean airson èifeachdas nas fheàrr, leithid tionndadh loidhne-phìoban gu bhith na aon cheangal. Gus astar a leasachadh, dh’ fhaodadh an optimizer gnìomhan a roinn, leithid cruth-atharrachadh a chuir an sàs ann an dàta mus dèan e gnìomhachd lughdachadh.

Gnìomhaiche - Bidh an neach-tiomnaidh a’ ruith na gnìomhan nuair a bhios an cruinneachadh agus an optimization deiseil. Tha na h-obraichean air an cur air dòigh leis an Neach-tiomnaidh.

CLI, UI, agus Thrift Server - Tha an eadar-aghaidh loidhne-àithne (CLI) na eadar-aghaidh cleachdaiche a leigeas le neach-cleachdaidh bhon taobh a-muigh conaltradh le Hive. Tha frithealaiche tart Hive, coltach ri protocolaidhean JDBC no ODBC, a’ leigeil le teachdaichean bhon taobh a-muigh conaltradh le Hive tro lìonra.

tèarainteachd

Tha Apache Hive amalaichte le tèarainteachd Hadoop, a bhios a’ cleachdadh Kerberos airson dearbhadh dha chèile frithealaiche teachdaiche. Bidh an HDFS ag òrdachadh ceadan airson faidhlichean a chaidh an cruthachadh às ùr ann an Apache Hive, a’ toirt cothrom dhut cead fhaighinn bhon neach-cleachdaidh, buidheann, agus feadhainn eile.

Prìomh fheartan

Bidh Hive a’ toirt taic do chlàran bhon taobh a-muigh, a leigeas leat dàta a phròiseasadh gun a bhith ga stòradh ann an HDFS.
Bidh e cuideachd a’ comasachadh sgaradh dàta aig ìre clàr gus astar àrdachadh.
Tha Apache Hive gu sàr-mhath a’ coinneachadh ri feum eadar-aghaidh ìre ìosal Hadoop.
Bidh Hive a’ dèanamh geàrr-chunntas dàta, ceasnachadh agus mion-sgrùdadh nas fhasa.
Chan fheum HiveQL sgilean prògramaidh sam bith; tha tuigse shìmplidh air ceistean SQL gu leòr.
Faodaidh sinn cuideachd Hive a chleachdadh gus ceistean ad-hoc a dhèanamh airson mion-sgrùdadh dàta.
Tha e scalable, eòlach, agus sùbailte.
Chan fheum HiveQL sgilean prògramaidh sam bith; tha tuigse shìmplidh air ceistean SQL gu leòr.

buannachdan

Tha Apache Hive a’ ceadachadh aithisgean deireadh-latha, measaidhean malairt làitheil, rannsachaidhean ad-hoc, agus mion-sgrùdadh dàta. Tha na seallaidhean farsaing a thug Apache Hive seachad a’ toirt buannachdan farpaiseach cudromach agus ga dhèanamh nas fhasa dhut freagairt ri iarrtasan a’ mhargaidh.

Seo cuid de na buannachdan bho bhith a’ faighinn fiosrachadh mar seo gu furasta:

A dhèanamh nas fhasa a chleachdadh - Leis a’ chànan coltach ri SQL aige, tha e furasta a thuigsinn dàta ceasnachaidh.
Cuir a-steach dàta luathaichte - Leis gu bheil Apache Hive a’ leughadh an sgeama gun a bhith a’ dearbhadh an seòrsa clàr no mìneachadh sgeama, chan fheum dàta a bhith air a leughadh, air a pharsadh, agus air a sheòladh gu diosc ann an cruth a-staigh an stòr-dàta. An coimeas ri sin, ann an stòr-dàta àbhaisteach, feumar dàta a dhearbhadh gach uair a thèid a chur ris.
Superior scalability, sùbailteachd, agus cosg-èifeachdas - Leis gu bheil dàta air a stòradh anns an HDFS, faodaidh Apache Hive 100s de phetabytes de dhàta a chumail, ga fhàgail na roghainn fada nas so-ruigsinneach na stòr-dàta àbhaisteach. Tha Apache Hive, mar sheirbheis Hadoop stèidhichte air sgòthan, a’ leigeil le luchd-ceannach a bhith a’ snìomh gu sgiobalta suas is sìos frithealaichean brìgheil gus coinneachadh ri eallach obrach caochlaideach.
Comas obrach farsaing - Faodaidh dàta mòr suas ri 100,000 ceist san uair a làimhseachadh.

Crìochan

San fharsaingeachd, tha latency fìor àrd aig ceistean Apache Hive.
Tha taic subquery cuingealaichte.
Chan eil ceistean fìor-ùine agus atharrachaidhean ìre-sreath rim faighinn ann an Apache Hive.
Chan eil taic sam bith ann airson seallaidhean dearbhte.
Anns an hive, chan eil taic ri gnìomhan ùrachadh is cuir às.
Chan eilear an dùil airson OLTP (pròiseas eadar-ghluasaid air-loidhne).

A 'tòiseachadh le Apache Hive

Tha Apache Hive na chom-pàirtiche làidir Hadoop a bhios a’ sìmpleachadh agus a’ sgioblachadh do shruth-obrach. Gus a’ chuid as fheàrr fhaighinn à Apache Hive, tha amalachadh fuaigheil riatanach. Is e a’ chiad cheum a dhol chun an Bidh.

1. Stàladh Hive bho Stable Release

Tòisich le bhith a ’luchdachadh sìos an sgaoileadh seasmhach as ùire de Hive bho aon de na sgàthan luchdachadh sìos Apache (faic Sgaoilidhean Hive). Feumaidh an tarball an uairsin a bhith air a dhì-phapadh. Cruthaichidh seo fo-phasgan ris an canar hive-xyz (far a bheil xyz mar an àireamh fuasglaidh):

Suidhich caochladair na h-àrainneachd HIVE_HOME gus an seòladh stàlaidh a chomharrachadh:

2 1

Mu dheireadh, cuir $HIVE_HOME/bin ri do chuid PATH:

2. A' ruith Hive

Bidh Hive a’ cleachdadh Hadoop, mar sin:

feumaidh Hadoop a bhith agad nad shlighe NO

3. DLL Obrachaidh

Cruthachadh Clàr Hive

a’ gineadh clàr leis an t-ainm pokes le dà cholbh, a’ chiad fhear dhiubh na shlànaighear agus an dàrna fear na shreang.

A’ brobhsadh tro Chlàran

A 'clàradh a h-uile clàr

Ag atharrachadh agus a 'leigeil sìos clàran

Faodar ainmean bùird atharrachadh agus faodar colbhan a chur ris no a chur nan àite:

'S fhiach toirt fa-near gu bheil REPLACE COLUMNS a' dol an àite nan colbhan a th' ann mar-thà fhad 's nach eil iad ag atharrachadh ach structar a' chlàir agus chan e an dàta. Feumar SerDe dùthchasach a chleachdadh sa chlàr. Faodar COLUMNS REplace a chleachdadh cuideachd gus colbhan a thoirt air falbh bho sgeama clàir:

A 'leigeil sìos bùird

Tha mòran obrachaidhean agus feartan a bharrachd ann an Apache Hive as urrainn dhut ionnsachadh mu dheidhinn le bhith a’ tadhal air an làrach-lìn oifigeil.

Co-dhùnadh

Tha Hive Definition na eadar-aghaidh prògram dàta airson ceasnachadh agus mion-sgrùdadh airson stòran-dàta mòra a tha air an togail air mullach Apache Hadoop. Bidh proifeiseantaich ga thaghadh thairis air prògraman, innealan agus bathar-bog eile leis gu bheil e air a dhealbhadh gu sònraichte airson dàta farsaing Hive agus gu bheil e sìmplidh a chleachdadh.

An dòchas gun cuidich an oideachadh seo thu gus tòiseachadh le Apache Hive agus na sruthan-obrach agad a dhèanamh nas èifeachdaiche. Leig fios dhuinn anns na beachdan.

Apache Hive - Oideachadh domhainn

Apache Hadoop