Alveare est instrumentum in negotio Big Data Analytics late adhibitum, et locus phantasticus est ut committitur si nova magna Data es. Haec Apache Alvearia documenta fundamentalia Apache Alvearium percurrit, quare alvearium necessarium est, eius lineamenta, et omnia alia scire debes.
Primum intellegamus fabricam Hadoop super quo Apache Alvearium inaedificatur.
Apache Hadoop
Apache Hadoop est libera et aperta principium suggestum pro repono et dispensando magnas schedulas in magnitudine a gigabytis ad petabytas. Hadoop permittit globos numerosos glomerulosos ad datastas in parallelis enormes resolvere, potius quam unum magnum computatorium requirere ut notitias condere ac resolvere.
MapReduce et Hadoop Systema fasciculi distributum sunt duo componentium:
- MapReduce - MapReduce est ars programmandi parallela tractandi ingentia volumina constructa, semistructa, et informa notitia in racemis commoditatis ferratis.
- HDFS - HDFS (Hadoop Distributa Systema fasciculi) est compages Hadoop componentis quae thesauros et processus notitias habent. Est culpa patientis lima ratio quae decurrit ad vexillum hardware
Diversa sub-incepta (instrumenta) in ecosystem Hadoop, incluso Sqoop, Porco et Hive, modulis Hadoop adiuvandis adhibitae sunt.
- Def – Alveare est compage scribendi SQL scriptorum stilo qui computationes MapReduces conficere.
- Porcus - Porcus est programmatio processualis linguae quae adhiberi potest ad scripturam faciendam pro processibus MapReduce.
- Sqoop - Sqoop instrumentum est notitias importandi et educendi inter HDFS et RDBMS.
Quid est Def Apache?
Apache Alveare est aperta fons Data CELLA programmata legendi, scribendi, ingentes notitias componendi repositas in Apache Hadoop Distributa Systematis fasciculi (HDFS) vel alia systemata repositionis data sicut Apache HBase.
electronicae SQL uti possunt Hive ad linguam Query (HQL) creandam declarationibus interrogationis et analysi notae quae comparantur sententiis regularibus SQL. MapReduce programmandi facilius creatus est ut eliminando necessitatem discendi et scribendi diu codicem Javam constituat. Instead, in HQL interrogationes tuas scribere possis, et tabulam Hive construere et munera tibi reducere.
SQL-similis interfacies Apache Hive facta est in Aurum Standard ad inquisitiones ad hoc faciendas, perscrutandas et solvendas notitias Hadoop. Cum includitur in nube computatis retiaculaHaec solutio imprimis est cost-efficax et scalabilis, quam ob rem multae firmae, Netflix et Amazones inclusae, augere et emendare pergunt Apache Hive.
Historia
Per eorum tempus apud Facebook, Joydeep Sen Sarma et Ashish Thusoo Apache Hive cocreati sunt. Ambo cognoverunt se ut plus ex Hadoop obtinerent, operas quasdam creare magis implicatas Java Map-Reduce. Agnoverunt se non posse eos educare celeriter operas machinales et analyticas iunctiones in technicis elaborandis quas Hadoop trans societatem levere necesse erat. Machinatores et analystae saepe adhibentur SQL ut interface utentis.
Dum SQL pluribus necessitatibus analyticis occurrere potuit, tincidunt etiam programmabilitas Hadoop incorporare voluit. Apache Hive ex his duobus propositis orta est: SQL-fundatur lingua declarativa quae etiam permittit tincidunt ut in scriptis suis et programmatibus SQL afferendis satis non esset.
Etiam elaboratum est ut metadata centralised (Hadoop-based) de omnibus notitiis in comitatu teneretur ut faciliorem redderet constructionem Institutorum activitatis datarum.
Quomodo Apache Hive opus facit?
In nuce Apache Hive vertit programmata initus scripta in HiveQL (SQL-simile) linguam in unam vel plura Java MapReduce, Tez, vel Scintilla munia. (Omnes hae machinae executiones compatiuntur cum Hadoop YARN.) Post hoc Apache Hive data in tabulas disponit pro Hadoop Distributa Systema Tabellae HDFS) et officia in botro ut responsum peragit.
Data
Tabulae Apache Alvearia eodem modo dispositae sunt ac tabulae in datorum relativo ordinantur, cum data unitates in magnitudine a maioribus ad minores pervagantur. Database conficiuntur tabulae quae in partes dividuntur, quae adhuc in situlas divisa sunt. HiveQL (Hive Query Language) accedere ad notitias adhibetur, quae mutari vel apponi possunt. Mensa data in singulis database est serialista, et unaquaeque mensa suum HDFS presul habet.
Architecture
Nunc de alvearia architecturae parte maxima disputabimus. Partes Apache Hive sunt hae:
Metastore — Vestigia informationum circa singulas tabulas servat, qualis est structura et locus. Partitio metadata etiam in alveari comprehenditur. Hoc auriga permittit ut vestigia progressionis diversae notitiae per botrum pandentem ponat. Notitia reposita est in forma conventionali RDBMS. Alveare metadata magni momenti est ut auriga vestigia notitiarum retineat. Servo tergum duplicat data opportuna ratione ut in eventu notitiarum amissione recuperari possit.
Driver – HiveQL dicta ab exactore accipiuntur, quae tamquam moderatoris functiones sunt. Sessiones constituendo, auriga exsecutionem constitutionis inchoat. Vestigia servat vitae et progressus exsecutivi. In executione constitutionis HiveQL, agitator metadata inquisita servat. Etiam notitiae vel inquisitionis effectus colligendi punctum secundum reductionem processus inservit.
compiler - HiveQL interrogationem compilationem exequitur. Quaestio nunc ad consilium executioni convertitur. Officia in instituto recensentur. Etiam gradus includit quos MapReduce quaerendum est, ad effectum deducendum. Quaestio in Syntaxi Arboris Abstractae ab Hive compilator convertitur (AST). AST convertit ad Graph acyclicam directam retentatam convenientiam et vitia temporis compilativa (DAG).
Optimizer – DAG optimizes varias mutationes in consilio exsecutionis faciendo. Mutationes ad efficientiam emendatam coniungit, ut fistulam iunctorum in unum iunctum convertens. Ad celeritatem emendare, optimizer actiones dividere potest, sicut applicando transmutationem ad notitias antequam operationem reductionem perficias.
executor - Exsecutor munera decurrit cum compilatione et optimiizatione finitur. Officia ab Executore canebantur.
CLI, UI, et Frugalitatis Servo - Praeceptum-linea interfaciei (CLI) est interfaciei usoris qui permittit usorem externum communicare cum Hive. Alvearium parsimonia ministrans, JDBC vel ODBC protocolla similis, clientibus externis permittit communicare cum Hive per retis.
Security
Apache Hive integratur cum securitate Hadoop, qua Kerberos utitur ad mutuam authenticationem clientis sui. HDFS dictat permissiones pro files nuper genitis in Apache Hive, permittens te approbare ab usuario, coetu et aliis.
Key Features
- Alvearia mensas externas sustinet, quae datas processus non actarum in HDFS.
- Etiam datorum segmentationum ad mensam inaequalem celeritatem augere.
- Apache Hive opus instrumenti Hadoopi egregie occurrit.
- Alvearium notitiarum summarium, interrogatione et analysi faciliorem reddit.
- HiveQL nullas programmandi artes requirit; simplex intellectus SQL queries satis est.
- Hive etiam possumus uti quaestionibus ad hoc agendum ad analysin notatis.
- Scalabile, familiare, et accommodatum est.
- HiveQL nullas programmandi artes requirit; simplex intellectus SQL queries satis est.
Beneficium
Apache Hive permittit pro fine-of-dierum relationum, transactiones quotidianae aestimationes, inquisitiones ad hoc inquisitiones, et analysin notatae. Comprehensivae perceptiones ab Apache Hive paratae significantes utilitates competitive dant et quo facilius tibi respondeant ad mercatum postulata.
Hic sunt aliqua beneficia habentes talium informationum parabilia;
- Otium of Use – Cum suo SQL sermone, notitia interrogationis simplex est ad intellegendum.
- Acceleratus notitia insertio — Quia Apache Hive legit schema sine comprobatione schematis seu definitionis schematis, notitia non debet legi, parsed et serialized discendi in forma interna datorum. E contra, in datorum conventionali notitia valide convalescere debet quotiescumque additur.
- Scabilitas superior, flexibilitas et sumptus-efficacia - Quoniam notitia in HDFS reposita est, Apache Hive 100s petabytarum notitiarum tenere potest, eam faciens optionem longe scalabilem quam datorum typicorum. Apache Hive, sicut ministerium Hadoop nubis fundatum, clientes permittit ut velociter trahere et descendere virtualis servientibus ad mutandis laboribus obviam.
- Extensive operationem facultatem – Magnae datastae ad 100,000 quaesita per hora tractare possunt.
limitationes
- In genere, Apache Hive queries altissimam latentiam habent.
- Subquery subsidium circumscriptum est.
- Tempus reale inquisitionis et mutationes ordinis ordinis in Apache Hive non sunt praesto.
- Nulla subsidia sententiarum materialium.
- In alvum, renovatio et actus delere non sustinentur.
- Non destinatus pro OLTP (processus transeuntis online).
Questus coepi cum Apache Hive
Apache Hive particeps Hadoop fortis est quae simplificat et streamlines tuos workflows. Ut maxime ex Apache Hive, inconsutilem integrationem necessaria est. Primus gradus est ire ad website.
1. Alveare instruitur a Stabulo Release
Satus download recentissimus stabilis emissio alvearium ex uno ex speculis Apache download (see Alveare Releases). Tarball tunc esse oportet eo pacto. Hoc subfolder nomine alvearium xyz creabit (ubi numerus xyz est emissio);
HIVE_HOME variabilis ambitum constitue ut designet indicem institutionem:
Denique adde $HIVE_HOME/bin tuo PATH
:
2. Ave Alvearium
Hive utitur Hadoop, sic;
- debes habere Hadoop in viam tuam OR
3. DLL Operatio
Alveare mensam creando
generat mensam nominatam imitando duabus columnis, quarum prima est integer, et secunda est chorda.
Pasco per tabulas
Enumeratio Tabularum
Commutata et omissa tabularum
Tabula nomina mutari possunt et columnae adici vel reponi possunt;
Notatu dignum est reponere columnas columnas exsistentes omnes reponere dum modo structuram tabulae mutantes, non notitias. SerDe indigena uti debet in mensa. REPONERE COLUMNA potest etiam ad columnas e schemate mensae removendas;
Omissa tabulae
Multae praeterea operationes et lineamenta in Apache Hive sunt ut scire possis visitare rutrum.
Conclusio
Alvearia definitio est programmatis interfaciendii interrogationi et analysi pro ingentibus datasets quae super Apache Hadoop aedificatae sunt. Professiones eam eligere super alia programmata, instrumenta et programmata cum maxime ad Hive ampla notitias destinata et ad usum simplex est.
Spero hoc doceo adiuvat te calcitrare cum Apache Hive et fac opera tua efficaciora. Noveris in commentarios.
Leave a Reply