Apache Hive - Tutorial Mendalam

Bab lan Paragraf[Singidaken][Tampilake]

Apache Hadoop
Apa Apache Hive?+-
- Sajarah
Kepiye cara kerja Apache Hive?+-
fitur tombol
Wuku
watesan
Miwiti Apache Hive+-
- 1. Instalasi Hive saka Rilis Stabil
- 2. Mlaku Hive
kesimpulan

Hive minangka alat Big Data Analytics sing akeh digunakake ing bisnis, lan minangka papan sing apik kanggo miwiti yen sampeyan anyar karo Big Data. Pawulangan Apache Hive iki ngliwati dhasar Apache Hive, kenapa hive perlu, fitur, lan liya-liyane sing sampeyan kudu ngerti.

Ayo ngerti dhisik kerangka Hadoop sing dibangun ing Apache Hive.

Apache Hadoop

Apache Hadoop punika free lan Open-sumber platform kanggo nyimpen lan ngolah set data gedhe kanthi ukuran saka gigabyte nganti petabyte. Hadoop ngidini nglumpukake akeh komputer kanggo nganalisa set data sing gedhe banget kanthi paralel, tinimbang mbutuhake komputer gedhe kanggo nyimpen lan nganalisa data kasebut.

MapReduce lan Hadoop Distributed File System minangka rong komponen:

MapReduce - MapReduce minangka teknik pemrograman paralel kanggo nangani volume gedhe saka data terorganisir, semi-terstruktur, lan ora terstruktur ing kluster hardware komoditas.
HDFS - HDFS (Hadoop Distributed File System) minangka komponen kerangka Hadoop sing nyimpen lan ngolah data. Iku sistem file toleran fault sing mlaku ing hardware standar

Sub-proyek (alat) sing beda-beda ing ekosistem Hadoop, kalebu Sqoop, Pig, lan Hive, digunakake kanggo mbantu modul Hadoop.

Hive - Hive minangka kerangka kanggo nulis skrip gaya SQL sing nindakake komputasi MapReduce.
Babi – Babi minangka basa pamrograman prosedural sing bisa digunakake kanggo nggawe skrip kanggo proses MapReduce.
Sqoop - Sqoop minangka alat kanggo ngimpor lan ngekspor data ing antarane HDFS lan RDBMS.

apa Apache Hive?

Apache Hive minangka sumber terbuka data warehouse program kanggo maca, nulis, lan ngatur set data gedhe sing disimpen langsung ing Apache Hadoop Distributed File System (HDFS) utawa sistem panyimpenan data liyane kaya Apache HBase.

Pangembang SQL bisa nggunakake Hive kanggo nggawe statement Hive Query Language (HQL) kanggo pitakonan data lan analisis sing bisa dibandhingake karo statement SQL biasa. Iki digawe kanggo nggawe program MapReduce luwih gampang kanthi ngilangi kabutuhan sinau lan nulis kode Java sing dawa. Nanging, sampeyan bisa nulis pitakon ing HQL, lan Hive bakal nggawe peta lan nyuda fungsi kanggo sampeyan.

Antarmuka kaya SQL saka Apache Hive wis dadi Standar Emas kanggo nindakake panelusuran ad-hoc, ngringkes, lan nganalisa data Hadoop. Nalika kalebu ing awan jaringan komputerisasi, solusi iki utamané biaya-efektif lan keukur, kang kok akeh perusahaan, kalebu Netflix lan Amazon, terus kanggo berkembang lan nambah Apache Hive.

Apache

Sajarah

Sajrone wektu ing Facebook, Joydeep Sen Sarma lan Ashish Thusoo nggawe Apache Hive. Kalorone ngerti manawa kanggo ngoptimalake Hadoop, dheweke kudu nggawe sawetara tugas Java Map-Reduce sing rada rumit. Dheweke ngerti yen ora bakal bisa ngajari tim teknik lan analitik sing berkembang kanthi cepet babagan katrampilan sing dibutuhake kanggo nggunakake Hadoop ing saindenging perusahaan. Insinyur lan analis kerep nggunakake SQL minangka antarmuka panganggo.

Nalika SQL bisa nyukupi mayoritas kabutuhan analytics, para pangembang uga duwe tujuan kanggo nggabungake kemampuan program Hadoop. Apache Hive muncul saka rong tujuan kasebut: basa deklaratif basis SQL sing uga ngidini pangembang nggawa skrip lan program dhewe nalika SQL ora cukup.

Iki uga dikembangake kanggo nyekel metadata terpusat (basis Hadoop) babagan kabeh set data ing perusahaan kanggo nggawe pambangunan organisasi sing didorong data luwih gampang.

Kepiye cara kerja Apache Hive?

Ing ringkesan, Apache Hive ngowahi program input sing ditulis ing basa HiveQL (kaya SQL) dadi siji utawa luwih tugas Java MapReduce, Tez, utawa Spark. (Kabeh mesin eksekusi iki kompatibel karo Hadoop BENANG.) Sawisé iku, Apache Hive ngatur data menyang tabel kanggo Hadoop Distributed File System HDFS) lan nindakake tugas ing kluster kanggo njaluk jawaban.

Data

Tabel Apache Hive disusun kanthi cara sing padha kaya tabel ing basis data relasional, kanthi ukuran unit data saka luwih gedhe nganti luwih cilik. Database digawe saka tabel sing dipérang dadi divisi, sing dipérang manèh dadi ember. HiveQL (Hive Query Language) digunakake kanggo ngakses data, sing bisa diowahi utawa ditambahake. Data tabel wis serialized ing saben database, lan saben tabel wis direktori HDFS dhewe.

arsitektur

Saiki kita bakal ngomong babagan aspek paling penting saka Arsitektur Hive. Komponen Apache Hive kaya ing ngisor iki:

Metastore - Iki nglacak informasi babagan saben tabel, kayata struktur lan lokasi. Metadata partisi uga kalebu ing Hive. Iki ngidini driver kanggo nglacak kemajuan saka macem-macem data set nyebar ing kluster. Data disimpen ing format RDBMS konvensional. Metadata Hive penting banget kanggo driver supaya bisa nglacak data kasebut. Server serep duplikat data kanthi rutin supaya bisa dipulihake yen ana data ilang.

driver - Pernyataan HiveQL ditampa dening pembalap, sing berfungsi minangka pengontrol. Kanthi netepake sesi, driver miwiti eksekusi pernyataan kasebut. Iku nglacak umur eksekutif lan kemajuan. Sajrone eksekusi statement HiveQL, driver nyimpen metadata sing dibutuhake. Iki uga dadi titik ngumpulake asil data utawa pitakon sawise proses Ngurangi.

Panyusun – Iki nglakokake kompilasi pitakon HiveQL. Pitakonan saiki diowahi dadi rencana eksekusi. Tugas kasebut kadhaptar ing rencana. Iki uga kalebu langkah-langkah sing kudu ditindakake MapReduce kanggo entuk asil sing diterjemahake dening pitakon. Pitakonan diowahi dadi Abstract Syntax Tree dening Hive's compiler (AST). Ngonversi AST menyang Directed Acyclic Graph sawise mriksa kompatibilitas lan kesalahan wektu kompilasi (DAG).

Optimizer - Ngoptimalake DAG kanthi nindakake macem-macem owah-owahan ing rencana eksekusi. Iki nggabungake transformasi kanggo efisiensi sing luwih apik, kayata ngowahi pipa gabungan dadi siji gabungan. Kanggo nambah kacepetan, pangoptimal bisa mbagi aktivitas, kayata nglamar transformasi menyang data sadurunge nindakake operasi pangurangan.

Eksekusi - Pelaksana nindakake tugas nalika kompilasi lan optimasi rampung. Pakaryan kasebut ditindakake dening Pelaksana.

CLI, UI, lan Server Thrift - Antarmuka baris perintah (CLI) minangka antarmuka pangguna sing ngidini pangguna eksternal bisa komunikasi karo Hive. Server thrift Hive, padha karo protokol JDBC utawa ODBC, ngidini klien eksternal bisa komunikasi karo Hive liwat jaringan.

keamanan

Apache Hive terintegrasi karo keamanan Hadoop, sing nggunakake Kerberos kanggo otentikasi bebarengan klien-server. HDFS ndhikte ijin kanggo file sing mentas digawe ing Apache Hive, ngidini sampeyan disetujoni dening pangguna, grup, lan liya-liyane.

fitur tombol

Hive ndhukung tabel eksternal, sing ngidini sampeyan ngolah data tanpa nyimpen ing HDFS.
Uga mbisakake segmentasi data ing tingkat meja kanggo nambah kacepetan.
Apache Hive nyukupi kabutuhan antarmuka tingkat rendah Hadoop.
Hive nggawe ringkesan data, pitakon, lan analisis luwih gampang.
HiveQL ora mbutuhake katrampilan pemrograman; pangerten prasaja saka pitakon SQL cukup.
Kita uga bisa nggunakake Hive kanggo nindakake pitakon ad-hoc kanggo analisis data.
Iku bisa diukur, akrab, lan bisa adaptasi.
HiveQL ora mbutuhake katrampilan pemrograman; pangerten prasaja saka pitakon SQL cukup.

Wuku

Apache Hive ngidini laporan pungkasan dina, evaluasi transaksi saben dina, telusuran ad-hoc, lan analisis data. Wawasan lengkap sing diwenehake dening Apache Hive menehi kaluwihan kompetitif sing signifikan lan nggampangake sampeyan nanggapi panjaluk pasar.

Ing ngisor iki sawetara mupangat manawa informasi kasebut kasedhiya:

Ease saka nggunakake - Kanthi basa kaya SQL, pitakon data gampang dingerteni.
Penyisipan data kanthi cepet — Amarga Apache Hive maca skema kasebut tanpa verifikasi jinis tabel utawa definisi skema, data ora kudu diwaca, diurai, lan diseralisasi menyang disk ing format internal database. Ing kontras, ing basis data konvensional, data kudu divalidasi saben ditambahake.
Skalabilitas unggul, keluwesan, lan efektifitas biaya - Amarga data disimpen ing HDFS, Apache Hive bisa nahan 100s petabyte data, dadi pilihan sing luwih bisa diukur tinimbang database biasa. Apache Hive, minangka layanan Hadoop berbasis awan, ngidini para pelanggan muter munggah lan mudhun server virtual kanthi cepet kanggo ngrampungake beban kerja sing ganti.
Kapasitas kerja ekstensif - Dataset gedhe bisa nangani nganti 100,000 pitakon saben jam.

watesan

Umumé, pitakon Apache Hive duwe latensi sing dhuwur banget.
Dhukungan subquery diwatesi.
Pitakonan wektu nyata lan owah-owahan tingkat baris ora kasedhiya ing Apache Hive.
Ora ana dhukungan kanggo tampilan sing diwujudake.
Ing hive, nganyari lan mbusak tumindak ora didhukung.
Ora dimaksudake kanggo OLTP (proses transisi online).

Miwiti Apache Hive

Apache Hive minangka mitra Hadoop sing kuwat sing nyederhanakake lan nyelarasake alur kerja sampeyan. Kanggo ngoptimalake Apache Hive, integrasi sing mulus iku penting. Langkah pisanan kanggo pindhah menyang situs.

1. Instalasi Hive saka Rilis Stabil

Miwiti kanthi ndownload rilis stabil paling anyar saka Hive saka salah sawijining pangilon unduhan Apache (pirsani Rilis Hive). Tarball banjur kudu dibongkar. Iki bakal nggawe subfolder sing diarani hive-xyz (ngendi xyz minangka nomer rilis):

Setel variabel lingkungan HIVE_HOME kanggo ngarahake menyang direktori instalasi:

2 1

Pungkasan, tambahake $HIVE_HOME/bin menyang PATH:

2. Mlaku Hive

Hive nggunakake Hadoop, dadi:

sampeyan kudu duwe Hadoop ing dalan UTAWA

3. Operasi DLL

Nggawe Tabel Hive

ngasilake tabel dijenengi pokes karo rong kolom, pisanan kang integer lan kaloro kang senar.

Browsing liwat Tabel

Listing Kabeh Tabel

Ngganti lan nyelehake Tabel

Jeneng tabel bisa diganti lan kolom bisa ditambah utawa diganti:

Iku worth kang lagi nyimak sing GANTI COLUMNS ngganti kabeh kolom ana nalika mung ngganti struktur tabel lan ora data. SerDe asli kudu digunakake ing meja. REPLACE COLUMNS uga bisa digunakake kanggo mbusak kolom saka skema tabel:

Nempel Tabel

Ana akeh operasi lan fitur tambahan ing Apache Hive sing bisa sampeyan sinau kanthi ngunjungi situs web resmi.

kesimpulan

Definisi Hive minangka antarmuka program data kanggo pitakon lan analisis kanggo kumpulan data gedhe sing dibangun ing ndhuwur Apache Hadoop. Profesional milih liwat program, piranti, lan piranti lunak liyane amarga utamane dirancang kanggo data ekstensif Hive lan gampang digunakake.

Muga-muga tutorial iki mbantu sampeyan miwiti nganggo Apache Hive lan nggawe alur kerja luwih efisien. Ayo kita ngerti ing komentar.

Apache Hive - Tutorial Mendalam

Apache Hadoop