Ile Agbon jẹ ohun elo Itupalẹ Data Nla ti a lo lọpọlọpọ ninu iṣowo naa, ati pe o jẹ aaye ikọja lati bẹrẹ ti o ba jẹ tuntun si Data Nla. Ẹkọ Apache Hive yii lọ nipasẹ awọn ipilẹ ti Apache Hive, kilode ti Ile Agbon kan ṣe pataki, awọn ẹya rẹ, ati ohun gbogbo miiran ti o yẹ ki o mọ.
Jẹ ki a kọkọ loye ilana Hadoop lori eyiti a ṣe agbekalẹ Apache Hive lori.
Hadoup Afun
Apache Hadoop jẹ ọfẹ ati ìmọ-orisun Syeed fun titoju ati sisẹ awọn ipilẹ data nla ti o wa ni iwọn lati gigabytes si awọn petabytes. Hadoop ngbanilaaye ikojọpọ awọn kọnputa lọpọlọpọ lati ṣe itupalẹ awọn ipilẹ data nla ni afiwe, dipo ki o nilo kọnputa nla kan lati fipamọ ati itupalẹ data naa.
MapReduce ati Eto Faili Pipin Hadoop jẹ meji ninu awọn paati:
- MapDinku - MapReduce jẹ ilana siseto ti o jọra fun mimu awọn iwọn nla ti ṣeto, ti eleto, ati data ti a ko ṣeto lori awọn iṣupọ ohun elo eru.
- HDFS – HDFS (Eto Faili Pipin Hadoop) jẹ paati ilana Hadoop ti o tọju ati ṣiṣe data. O jẹ eto faili ọlọdun-ẹbi ti o nṣiṣẹ lori ohun elo boṣewa
Awọn oriṣiriṣi awọn iṣẹ akanṣe (awọn irinṣẹ) ni ilolupo ilolupo Hadoop, pẹlu Sqoop, Ẹlẹdẹ, ati Ile Agbon, ni a lo lati ṣe iranlọwọ fun awọn modulu Hadoop.
- Agbon - Ile Agbon jẹ ilana fun kikọ awọn iwe afọwọkọ ara SQL ti o ṣe awọn iṣiro MapReduce.
- Ẹlẹdẹ - Ẹlẹdẹ jẹ ede siseto ilana ti o le ṣee lo lati ṣẹda iwe afọwọkọ kan fun awọn ilana MapReduce.
- Sqoop - Sqoop jẹ ohun elo fun gbigbe wọle ati okeere data laarin HDFS ati RDBMS.
ohun ti o jẹ Ile Agbon Apache?
Apache Ile Agbon jẹ orisun-ìmọ ile-iṣẹ data eto fun kika, kikọ, ati iṣakoso awọn eto data nla ti o fipamọ taara ni Apache Hadoop Distributed File System (HDFS) tabi awọn eto ipamọ data miiran bii Apache HBase.
Awọn olupilẹṣẹ SQL le lo Ile-ẹkọ Hive lati ṣẹda awọn alaye Ibeere Hive (HQL) fun ibeere data ati itupalẹ ti o jẹ afiwera si awọn alaye SQL deede. A ṣẹda rẹ lati jẹ ki siseto MapReduce rọrun nipasẹ imukuro iwulo lati kọ ẹkọ ati kọ koodu Java gigun. Dipo, o le kọ awọn ibeere rẹ ni HQL, ati Hive yoo kọ maapu naa yoo dinku awọn iṣẹ fun ọ.
Ni wiwo ti o dabi SQL ti Apache Hive ti di Iwọn goolu fun ṣiṣe awọn iwadii ad-hoc, akopọ, ati itupalẹ data Hadoop. Nigba ti o wa ninu awọsanma awọn nẹtiwọki iširo, Ojutu yii jẹ paapaa iye owo-doko ati iwọn, eyiti o jẹ idi ti ọpọlọpọ awọn ile-iṣẹ, pẹlu Netflix ati Amazon, tẹsiwaju lati ṣe idagbasoke ati ilọsiwaju Apache Hive.
itan
Lakoko akoko wọn ni Facebook, Joydeep Sen Sarma ati Ashish Sooo ṣe ajọpọ Apache Hive. Awọn mejeeji mọ pe lati ni anfani pupọ julọ ninu Hadoop, wọn yoo ni lati ṣẹda diẹ ninu awọn iṣẹ-ṣiṣe Java Map-Dinku idiju. Wọn mọ pe wọn kii yoo ni anfani lati kọ ẹkọ imọ-ẹrọ ti o pọ si ni iyara ati awọn ẹgbẹ atupale lori awọn ọgbọn ti wọn yoo nilo lati mu Hadoop ṣiṣẹ kọja ile-iṣẹ naa. Awọn onimọ-ẹrọ ati awọn atunnkanka nigbagbogbo nlo SQL gẹgẹbi wiwo olumulo.
Lakoko ti SQL le pade pupọ julọ awọn iwulo atupale, awọn olupilẹṣẹ tun pinnu lati ṣafikun eto Hadoop. Apache Hive dide lati awọn ibi-afẹde meji wọnyi: ede asọye ti o da lori SQL ti o tun fun awọn olupolowo lọwọ lati mu awọn iwe afọwọkọ ati awọn eto tiwọn wa nigbati SQL ko to.
O tun ti ni idagbasoke lati mu metadata ti aarin (orisun Hadoop) nipa gbogbo awọn datasets ninu ile-iṣẹ lati jẹ ki ikole ti awọn ẹgbẹ ti n ṣakoso data rọrun.
Bawo ni Apache Hive ṣe n ṣiṣẹ?
Ni kukuru, Apache Hive ṣe iyipada eto igbewọle ti a kọ sinu ede HiveQL (SQL-like) si ọkan tabi diẹ sii Java MapReduce, Tez, tabi awọn iṣẹ-ṣiṣe Spark. (Gbogbo awọn ẹrọ ipaniyan wọnyi ni ibamu pẹlu Hadoop YARN.) Lẹhin iyẹn, Apache Hive ṣeto data sinu awọn tabili fun Eto Faili Pipin Hadoop HDFS) ati ṣe awọn iṣẹ ṣiṣe lori iṣupọ kan lati gba idahun.
data
Awọn tabili Apache Hive ti wa ni idayatọ ni ọna kanna bi awọn tabili ninu aaye data ibatan ti ṣeto, pẹlu awọn ẹya data ti o wa ni iwọn lati tobi si kere. Awọn apoti isura infomesonu jẹ awọn tabili ti o pin si awọn ipin, eyiti o pin siwaju si awọn garawa. HiveQL (Ede ibeere ibeere Hive) ni a lo lati wọle si data naa, eyiti o le yipada tabi fi kun. Tabili data ti wa ni serialized laarin kọọkan database, ati kọọkan tabili ni o ni awọn oniwe-ara HDFS liana.
faaji
Bayi a yoo sọrọ nipa abala pataki julọ ti Ile-iṣẹ Hive Architecture. Awọn paati ti Apache Hive jẹ bi atẹle:
Metastore - O tọju abala alaye nipa tabili kọọkan, gẹgẹbi eto ati ipo rẹ. Awọn metadata ipin naa tun wa ninu Ile Agbon. Eyi n gba awakọ laaye lati tọju abala ilọsiwaju ti awọn eto data oriṣiriṣi ti o tan kaakiri iṣupọ naa. Awọn data ti wa ni fipamọ ni a mora RDBMS kika. Metadata Hive jẹ pataki pupọ fun awakọ lati ṣetọju abala data naa. Olupin afẹyinti ṣe ẹda data ni igbagbogbo ki o le gba pada ni iṣẹlẹ ti pipadanu data.
iwakọ - Awọn alaye HiveQL gba nipasẹ awakọ kan, eyiti o ṣiṣẹ bi oludari. Nipa iṣeto awọn akoko, awakọ naa bẹrẹ ipaniyan ti alaye naa. O tọju abala igbesi aye alaṣẹ ati ilọsiwaju. Lakoko ipaniyan ti alaye HiveQL kan, awakọ naa fipamọ awọn metadata ti o nilo. O tun ṣe iranṣẹ bi data tabi aaye gbigba abajade ibeere ni atẹle ilana Dinku.
Idije – O ṣiṣẹ akojọpọ ibeere HiveQL. Ibeere naa ti yipada ni bayi si ero ipaniyan. Awọn iṣẹ-ṣiṣe ti wa ni akojọ si ni eto. O tun pẹlu awọn igbesẹ ti MapReduce gbọdọ ṣe lati gba abajade bi a ti tumọ nipasẹ ibeere naa. Ibeere naa ti yipada si Igi Sintasi Abstract nipasẹ alakojọ Hive's (AST). Ṣe iyipada AST si Aworan Acyclic Ti o Dari lẹhin ṣiṣe ayẹwo fun ibaramu ati awọn aṣiṣe akoko-akojọ (DAG).
Optimizer - O mu DAG ṣiṣẹ nipasẹ ṣiṣe awọn ayipada oriṣiriṣi lori ero ipaniyan. O daapọ awọn iyipada fun imudara imudara, gẹgẹbi titan opo gigun ti epo sinu iṣọpọ kan. Lati mu iyara pọ si, oluṣapejuwe le pin awọn iṣẹ ṣiṣe, gẹgẹbi lilo iyipada si data ṣaaju ṣiṣe iṣẹ idinku.
Alaṣẹ - Oluṣẹṣẹ nṣiṣẹ awọn iṣẹ-ṣiṣe nigbati akopọ ati iṣapeye ti pari. Awọn iṣẹ ti wa ni pipelin nipasẹ awọn Executor.
CLI, UI, ati olupin Thrift - Ni wiwo laini aṣẹ (CLI) jẹ wiwo olumulo ti o fun laaye olumulo ita lati ṣe ibaraẹnisọrọ pẹlu Ile Agbon. olupin thrift ti Hive, ti o jọra si JDBC tabi awọn ilana ODBC, ngbanilaaye awọn alabara ita lati ṣe ibasọrọ pẹlu Hive nipasẹ nẹtiwọọki kan.
aabo
Apache Hive ti ṣepọ pẹlu aabo Hadoop, eyiti o nlo Kerberos fun ijẹrisi ibaraṣepọ olupin-olupin. HDFS n ṣalaye awọn igbanilaaye fun awọn faili tuntun ti ipilẹṣẹ ni Apache Hive, gbigba ọ laaye lati fọwọsi nipasẹ olumulo, ẹgbẹ, ati awọn miiran.
Key awọn ẹya ara ẹrọ
- Ile Agbon ṣe atilẹyin awọn tabili ita, eyiti o jẹ ki o ṣe ilana data laisi fifipamọ sinu HDFS.
- O tun jẹ ki ipin data ni ipele tabili lati mu iyara pọ si.
- Ile Afun Apache ni pipe ni ibamu pẹlu iwulo wiwo ipele kekere ti Hadoop.
- Ile Agbon jẹ ki akopọ data, ibeere, ati itupalẹ rọrun.
- HiveQL ko nilo awọn ọgbọn siseto; oye ti o rọrun ti awọn ibeere SQL ti to.
- A tun le lo Hive lati ṣe awọn ibeere ad-hoc fun itupalẹ data.
- O jẹ iwọn, faramọ, ati iyipada.
- HiveQL ko nilo awọn ọgbọn siseto; oye ti o rọrun ti awọn ibeere SQL ti to.
anfani
Apache Hive ngbanilaaye fun awọn ijabọ ipari-ọjọ, awọn igbelewọn idunadura ojoojumọ, awọn wiwa ad-hoc, ati itupalẹ data. Awọn oye okeerẹ ti a pese nipasẹ Apache Hive fun awọn anfani ifigagbaga pataki ati jẹ ki o rọrun fun ọ lati dahun si awọn ibeere ọja.
Eyi ni diẹ ninu awọn anfani ti nini iru alaye ni imurasilẹ:
- Iyatọ lilo - Pẹlu ede ti o dabi SQL, data ibeere rọrun lati loye.
- Isare data ifibọ - Nitoripe Apache Hive ka eto naa laisi ijẹrisi iru tabili tabi asọye ero, data ko ni lati ka, ṣe itupalẹ, ati serialized si disiki ni ọna kika inu data. Ni idakeji, ni ibi ipamọ data ti aṣa, data gbọdọ jẹ ifọwọsi ni igbakugba ti o ba wa ni afikun.
- Ilọju ti o ga julọ, irọrun, ati ṣiṣe iye owo - Nitori data ti wa ni ipamọ ni HDFS, Apache Hive le mu awọn 100s ti petabytes ti data mu, ti o jẹ ki o jẹ aṣayan ti iwọn diẹ sii ju aaye data aṣoju lọ. Apache Hive, gẹgẹbi iṣẹ Hadoop ti o da lori awọsanma, ngbanilaaye awọn alabara lati yara yiyi soke ati isalẹ awọn olupin foju lati pade awọn iṣẹ ṣiṣe iyipada.
- Sanlalu ṣiṣẹ agbara - Awọn ipilẹ data nla le mu to awọn ibeere 100,000 fun wakati kan.
idiwọn
- Ni gbogbogbo, awọn ibeere Apache Hive ni airi giga pupọ.
- Atilẹyin abẹlẹ ti lopin.
- Awọn ibeere akoko gidi ati awọn iyipada ipele-ila ko si ni Apache Hive.
- Ko si atilẹyin fun awọn iwo ohun elo.
- Ninu Ile Agbon, imudojuiwọn ati paarẹ awọn iṣe ko ni atilẹyin.
- Ko ṣe ipinnu fun OLTP (ilana iyipada ori ayelujara).
Bibẹrẹ pẹlu Apache Hive
Apache Hive jẹ alabaṣiṣẹpọ Hadoop ti o lagbara ti o rọrun ati ṣiṣalaye awọn ṣiṣan iṣẹ rẹ. Lati ni anfani pupọ julọ ninu Ile Agbon Apache, isọpọ ailopin jẹ pataki. Ni igba akọkọ ti Igbese ni lati lọ si awọn aaye ayelujara.
1. Fifi sori Ile Agbon lati kan Idurosinsin Tu
Bẹrẹ nipa gbasilẹ itusilẹ iduroṣinṣin to ṣẹṣẹ julọ ti Hive lati ọkan ninu awọn digi igbasilẹ Apache (wo Awọn idasilẹ Ile Agbon). Bọọlu tarbo naa gbọdọ jẹ ṣiṣi silẹ. Eyi yoo ṣẹda folda kekere ti a pe ni hive-xyz (nibiti xyz jẹ nọmba itusilẹ):
Ṣeto oniyipada ayika HIVE_HOME lati tọka si itọsọna fifi sori ẹrọ:
Nikẹhin, ṣafikun $HIVE_HOME/bin si tirẹ PATH
:
2. nṣiṣẹ Ile Agbon
Hive nlo Hadoop, nitorina:
- o gbọdọ ni Hadoop ni ọna rẹ OR
3. DLL isẹ
Ṣiṣẹda Ile Agbon Table
ṣe agbekalẹ tabili ti a npè ni pokes pẹlu awọn ọwọn meji, akọkọ eyiti o jẹ odidi ati ekeji eyiti o jẹ okun.
Lilọ kiri nipasẹ Awọn tabili
Kikojọ Gbogbo Awọn tabili
Yiyipada ati sisọ awọn tabili
Awọn orukọ tabili le yipada ati awọn ọwọn le ṣafikun tabi rọpo:
O ṣe akiyesi pe REPLACE COLUMNS rọpo gbogbo awọn ọwọn ti o wa lakoko ti o n yi eto tabili nikan pada kii ṣe data naa. SerDe abinibi gbọdọ ṣee lo ninu tabili. Rọpo awọn ọwọn tun le ṣee lo lati yọ awọn ọwọn kuro ni ero tabili kan:
Sisọ awọn tabili
Ọpọlọpọ awọn iṣẹ ṣiṣe ati awọn ẹya ni Apache Hive ti o le kọ ẹkọ nipa lilo si oju opo wẹẹbu osise.
ipari
Itumọ Ile Agbon jẹ wiwo eto data fun ibeere ati itupalẹ fun awọn ipilẹ data nla ti a kọ si oke Apache Hadoop. Awọn alamọdaju yan rẹ lori awọn eto miiran, awọn irinṣẹ, ati sọfitiwia nitori pe o jẹ apẹrẹ ni akọkọ fun data nla ti Hive ati pe o rọrun lati lo.
Ṣe ireti ikẹkọ yii ṣe iranlọwọ fun ọ lati bẹrẹ pẹlu Apache Hive ati jẹ ki awọn ṣiṣan iṣẹ rẹ ṣiṣẹ daradara siwaju sii. Jẹ ki a mọ ninu awọn asọye.
Fi a Reply