Hive ke sesebelisoa se sebelisoang haholo sa Big Data Analytics khoebong, 'me ke sebaka se setle sa ho qala haeba u sa tsoa qala ho Big Data. Thuto ena ea Apache Hive e feta metheong ea Apache Hive, hobaneng ha hive e hlokahala, likarolo tsa eona, le ntho e ngoe le e ngoe eo u lokelang ho e tseba.
Ha re utloisise pele moralo oa Hadoop oo Apache Hive e hahiloeng holim'a oona.
Apache Hadoop
Apache Hadoop ke mahala le Mohloli o bulehileng sethala sa ho boloka le ho sebetsana le li-database tse kholo ho tloha ka boholo ho tloha ho li-gigabyte ho isa ho li-petabyte. Hadoop e lumella ho kopanya likhomphutha tse ngata ho sekaseka datha tse kholo ka ho ts'oana, ho fapana le ho hloka komporo e le 'ngoe e kholo ho boloka le ho sekaseka data.
MapReduce le Hadoop Distributed File System ke likarolo tse peli:
- 'Mapa Fokotsa - MapReduce ke mokhoa o ts'oanang oa ho sebetsana le lintlha tse ngata tse hlophisitsoeng, tse hlophisitsoeng hantle, le tse sa hlophisoang mabapi le lihlopha tsa thepa ea thepa.
- HDFS - HDFS (Hadoop Distributed File System) ke karolo ea moralo oa Hadoop o bolokang le ho sebetsana le data. Ke sistimi e mamellang liphoso e sebetsang ho hardware e tloaelehileng
Merero e nyane e fapaneng (lisebelisoa) tikolohong ea Hadoop, ho kenyeletsoa Sqoop, Pig, le Hive, e sebelisetsoa ho thusa li-module tsa Hadoop.
- Hive Hive ke moralo oa ho ngola mangolo a mofuta oa SQL a etsang lipalo tsa MapReduce.
- Kolobe - Kolobe ke puo ea procedural programming e ka sebelisoang ho etsa script bakeng sa lits'ebetso tsa MapReduce.
- Sqoop - Sqoop ke sesebelisoa sa ho kenya le ho romela datha lipakeng tsa HDFS le RDBMS.
ke eng Hive ea Apache?
Apache Hive ke mohloli o bulehileng polokelo ea data Lenaneo la ho bala, ho ngola le ho laola lisebelisoa tse kholo tsa data tse bolokiloeng ka kotloloho ho Apache Hadoop Distributed File System (HDFS) kapa lisebelisoa tse ling tsa polokelo ea data joaloka Apache HBase.
Bahlahisi ba SQL ba ka sebelisa Hive ho theha lipolelo tsa Hive Query Language (HQL) bakeng sa potso le tlhahlobo ea data e ka bapisoang le lipolelo tse tloaelehileng tsa SQL. E bōpiloe ho etsa hore MapReduce programming e be bonolo ka ho felisa tlhoko ea ho ithuta le ho ngola khoutu e telele ea Java. Ho e-na le hoo, u ka ngola lipotso tsa hau ho HQL, 'me Hive e tla haha 'mapa le ho u fokotsa mesebetsi.
Sebopeho se kang SQL sa Apache Hive se fetohile Standard Standard bakeng sa ho etsa lipatlisiso tsa ad-hoc, ho akaretsa, le ho hlahloba lintlha tsa Hadoop. Ha e kenyelelitsoe lerung marangrang a khomphutha, tharollo ena ka ho khetheha e na le litšenyehelo tse ngata ebile e ka senyeha, ke ka lebaka leo lifeme tse ngata, ho akarelletsa le Netflix le Amazon, li tsoelang pele ho ntlafatsa le ho ntlafatsa Apache Hive.
History
Nakong eo ba neng ba le Facebook, Joydeep Sen Sarma le Ashish Thusoo ba ile ba qapa Apache Hive. Ka bobeli ba ile ba hlokomela hore ho fumana molemo o moholo ho Hadoop, ba tla tlameha ho etsa mesebetsi e rarahaneng ea Java Map-Reduce. Ba hlokometse hore ba ke ke ba khona ho ruta lihlopha tsa bona tsa boenjiniere tse ntseng li hola ka potlako mabapi le litsebo tseo ba tla li hloka ho matlafatsa Hadoop ho pholletsa le k'hamphani. Hangata baenjiniere le bahlahlobisisi ba ne ba sebelisa SQL joalo ka sebopeho sa mosebelisi.
Le hoja SQL e ne e ka finyella litlhoko tse ngata tsa analytics, bahlahisi ba ne ba rerile ho kenyelletsa lenaneo la Hadoop. Apache Hive e hlahile mererong ena e 'meli: puo ea phatlalatso e thehiloeng ho SQL e boetse e nolofaletsa batho ba ntlafatsang ho tlisa mangolo le mananeo a bona ha SQL e sa lekana.
E ile ea boela ea ntlafatsoa ho tšoara metadata e bohareng (Hadoop-based) mabapi le lisebelisoa tsohle tsa k'hamphani ho etsa hore kaho ea mekhatlo e tsamaisoang ke data e be bonolo.
Apache Hive e sebetsa joang?
Ka bokhutšoanyane, Apache Hive e fetolela lenaneo la ho kenya letsoho le ngotsoeng ka puo ea HiveQL (SQL-like) hore e be mosebetsi o le mong kapa ho feta oa Java MapReduce, Tez, kapa Spark. (Lienjiniere tsena kaofela tsa ho bolaoa li lumellana le Hadoop YARN.) Ka mor'a moo, Apache Hive e hlophisa lintlha ka litafole bakeng sa Hadoop Distributed File System HDFS) 'me e etsa mesebetsi ka sehlopha ho fumana karabo.
Lintlha
Litafole tsa Apache Hive li hlophisitsoe ka mokhoa o ts'oanang le litafole tse polokelong ea litaba tsa kamano li hlophisitsoe, ka likarolo tsa data ho tloha ho tse kholo ho isa ho tse nyane. Databases e entsoe ka litafole tse arotsoeng ka likarohano, tse arotsoeng hape ka libakete. HiveQL (Hive Query Language) e sebelisoa ho fihlella data, e ka fetoloang kapa ea eketsoa. Lintlha tsa tafole li hlophisitsoe ka har'a database ka 'ngoe,' me tafole ka 'ngoe e na le bukana ea eona ea HDFS.
Architecture
Joale re tla bua ka karolo ea bohlokoahali ea Hive Architecture. Likarolo tsa Apache Hive ke tse latelang:
Metastore - E boloka tlaleho ea tlhahisoleseling mabapi le tafole ka 'ngoe, joalo ka sebopeho le sebaka sa eona. Metadata ea karohano le eona e kenyellelitsoe ho Hive. Sena se lumella mokhanni ho boloka tlaleho ea tsoelo-pele ea lihlopha tse fapaneng tsa data tse hasane ho pholletsa le sehlopha. Lintlha li bolokiloe ka mokhoa o tloaelehileng oa RDBMS. Metadata ea Hive e bohlokoa haholo hore mokhanni a boloke tlaleho ea data. Seva ea "backup" e etsa likopi tsa data khafetsa e le hore e ka khutlisoa haeba data e lahlehile.
mokhanni - Lipolelo tsa HiveQL li amoheloa ke mokhanni, ea sebetsang e le molaoli. Ka ho theha liboka, mokhanni o qala ho phethahatsa polelo. E boloka tlaleho ea nako ea bophelo ea mookameli le tsoelo-pele. Nakong ea ho etsoa ha polelo ea HiveQL, mokhanni o boloka metadata e hlokahalang. E boetse e sebetsa e le sebaka sa pokello ea lintlha kapa lipotso kamora ts'ebetso ea Fokotsa.
Moqapi - E etsa pokello ea lipotso tsa HiveQL. Potso e se e fetotsoe ho moralo oa ts'ebetso. Mesebetsi e thathamisitsoe moralong. E boetse e kenyelletsa mehato eo MapReduce e tlamehang ho e nka ho fumana sephetho joalo ka ha se fetoleloa ke potso. Potso e fetoleloa ho Sefate sa Abstract Syntax ka Hive's compiler (AST). E fetolela AST ho Directed Acyclic Graph ka mor'a ho hlahloba ho lumellana le liphoso tsa nako ea ho bokella (DAG).
Optimizer - E ntlafatsa DAG ka ho etsa liphetoho tse fapaneng leanong la ts'ebetso. E kopanya liphetoho bakeng sa ts'ebetso e ntlafetseng, joalo ka ho fetola liphaephe tsa manonyeletso hore e be motsoako o le mong. Ho ntlafatsa lebelo, optimizer e ka arola mesebetsi, joalo ka ho sebelisa phetoho ho data pele e etsa ts'ebetso ea phokotso.
Moabi wa lefa - Moetsi oa tšebetso o tsamaisa mesebetsi ha ho bokelloa le ho ntlafatsa ho felile. Mesebetsi e etsoa ka liphaephe ke Moahloli.
CLI, UI, le Seva ea Thrift – Taelo-line segokanyimmediamentsi sa sebolokigolo (CLI) ke segokanyimmediamentsi sa sebolokigolo e lumellang mosebedisi ka ntle ho buisana le Hive. Seva ea Hive's thrift, e ts'oanang le liprothokholo tsa JDBC kapa ODBC, e lumella bareki ba kantle ho buisana le Hive ka marang-rang.
Security
Apache Hive e kopantsoe le ts'ireletso ea Hadoop, e sebelisang Kerberos bakeng sa netefatso ea bareki le seva. HDFS e laela tumello bakeng sa lifaele tse sa tsoa hlahisoa ho Apache Hive, e u lumellang hore u amoheloe ke mosebelisi, sehlopha le ba bang.
ditshebetso tse Key
- Hive e tšehetsa litafole tsa kantle, tse u lumellang hore u sebetse data ntle le ho e boloka ho HDFS.
- E boetse e nolofalletsa ho aroloa ha data boemong ba tafole ho eketsa lebelo.
- Apache Hive e kopana hantle le tlhoko ea boemo bo tlase ba Hadoop.
- Hive e nolofalletsa ho akaretsa, ho botsa le ho sekaseka lintlha.
- HiveQL ha e hloke tsebo ea ho etsa mananeo; kutloisiso e bonolo ea lipotso tsa SQL e lekane.
- Hape re ka sebelisa Hive ho botsa lipotso tsa ad-hoc bakeng sa tlhahlobo ea data.
- E ea scalable, e tloaelehile, 'me e fetoha le maemo.
- HiveQL ha e hloke tsebo ea ho etsa mananeo; kutloisiso e bonolo ea lipotso tsa SQL e lekane.
melemo e
Apache Hive e lumella litlaleho tsa bofelo ba letsatsi, litlhahlobo tsa transaction tsa letsatsi le letsatsi, lipatlisiso tsa ad-hoc, le tlhahlobo ea data. Litlhaloso tse felletseng tse fanoeng ke Apache Hive li fana ka melemo e mengata ea tlholisano mme li u nolofalletsa ho arabela litlhoko tsa mmaraka.
E meng ea melemo ea ho ba le boitsebiso bo joalo bo fumaneha habonolo ke ena:
- Khatholoha, tsa tšebeliso - Ka puo ea eona e kang SQL, ho botsa lintlha ho bonolo ho utloisisa.
- Ho kenya data ka potlako - Hobane Apache Hive e bala schema ntle le ho netefatsa mofuta oa tafole kapa tlhaloso ea schema, data ha ea tlameha ho baloa, ho aroloa le ho hlophisoa ho disc ka sebopeho sa kahare sa database. Ka lehlakoreng le leng, ho database e tloaelehileng, data e tlameha ho netefatsoa nako le nako ha e eketsoa.
- scalability e phahameng, ho tenyetseha, le ho boloka litšenyehelo - Hobane data e bolokiloe ho HDFS, Apache Hive e ka tšoara li-petabytes tse 100 tsa data, e etsa hore e be khetho e mpe haholo ho feta database e tloaelehileng. Apache Hive, joalo ka ts'ebeletso ea Hadoop e thehiloeng marung, e lumella bareki ho potlakela ho theosa le ho theosa le li-server tse fumanehang ho kopana le meroalo e fetohang ea mosebetsi.
- Matla a mangata a ho sebetsa - Li-database tse kholo li ka sebetsana le lipotso tse ka bang 100,000 ka hora.
sheba mefokolo ea
- Ka kakaretso, lipotso tsa Apache Hive li na le latency e phahameng haholo.
- Tšehetso ea subquery e lekanyelitsoe.
- Lipotso tsa nako ea 'nete le liphetoho tsa boemo ba mela ha li fumanehe ho Apache Hive.
- Ha ho na tšehetso bakeng sa maikutlo a bōpiloeng.
- Ka hive, apdeite le hlakola diketso ha ba tšehetsoa.
- Ha ea rereloa OLTP (mokhoa oa phetoho ea inthaneteng).
Ho qala ka Apache Hive
Apache Hive ke molekane ea matla oa Hadoop ea nolofatsang le ho nolofatsa mosebetsi oa hau. Ho fumana molemo ka ho fetisisa ho Apache Hive, kopanyo e se nang moeli e bohlokoa. Mohato oa pele ke ho ea ho websaeteng.
1. Tlhophiso Hive ho tloha Stable Release
Qala ka ho khoasolla tokollo e tsitsitseng ea morao-rao ea Hive ho e 'ngoe ea liipone tsa download tsa Apache (bona Liphatlalatso tsa Hive). Joale tarball e tlameha ho phuthoa. Sena se tla theha foldara e bitsoang hive-xyz (moo xyz e leng nomoro ea tokollo):
Beha sebopeho sa tikoloho HIVE_HOME ho supa bukana ea ho kenya:
Qetellong, kenya $HIVE_HOME/bin ho hau PATH
:
2. Matha Hive
Hive e sebelisa Hadoop, kahoo:
- o tlameha ho ba le Hadoop tseleng ea hau KAPA
3. Ts'ebetso ea DLL
Ho theha Tafole ea Hive
e hlahisa tafole e bitsoang pokes e nang le litšiea tse peli, ea pele e le palo e feletseng 'me ea bobeli e le khoele.
Ho bala ka Litafole
Ho thathamisa litafole Tsohle
Litafole tsa ho fetola le ho liha
Mabitso a litafole a ka fetoloa mme likholomo li ka eketsoa kapa tsa nkeloa sebaka:
Ke habohlokoa ho hlokomela hore REPLACE COLUMNS e nka sebaka sa likholomo tsohle tse teng ha e ntse e fetola sebopeho sa tafole eseng data. SerDe ea matsoalloa e tlameha ho sebelisoa tafoleng. REPLACE COLUMNS e ka boela ea sebelisoa ho tlosa likholomo ho schema ea tafole:
Ho Lahla Litafole
Ho na le lits'ebetso le likarolo tse ling ho Apache Hive tseo u ka ithutang tsona ka ho etela webosaete ea semmuso.
fihlela qeto e
Tlhaloso ea Hive ke sebopeho sa lenaneo la data bakeng sa ho botsa le ho hlahloba li-dataset tse kholo tse hahiloeng holim'a Apache Hadoop. Litsebi li e khetha ho feta mananeo a mang, lisebelisoa le software kaha e etselitsoe haholo data e pharalletseng ea Hive mme e bonolo ho e sebelisa.
Kea ts'epa hore thupelo ena e u thusa ho qala ka Apache Hive le ho etsa hore mosebetsi oa hau o sebetse hantle. Re tsebise litlhalosong.
Leave a Reply