Apache Hive - Tutorial jero

Daptar eusi[Sumputkeun][Témbongkeun]

Apache Hadoop
Naon Apache Hive?+-
- Sajarah
Kumaha Apache Hive jalanna?+-
kaistiméwaan
mangpaat
watesan
Ngamimitian nganggo Apache Hive+-
- 1. Instalasi Hive ti Release stabil
- 2. Ngajalankeun Hive
kacindekan

Hive mangrupikeun alat Big Data Analytics anu seueur dianggo dina bisnis, sareng éta mangrupikeun tempat anu saé pikeun ngamimitian upami anjeun énggal dina Big Data. Palajaran Apache Hive ieu ngalangkungan dasar-dasar Apache Hive, naha hive diperyogikeun, fitur-fiturna, sareng sadayana anu anjeun kedah terang.

Hayu urang ngartos heula kerangka Hadoop dimana Apache Hive diwangun.

Apache Hadoop

Apache Hadoop mangrupakeun bebas jeung open-sumber platform pikeun nyimpen jeung ngolah susunan data badag mimitian ti gigabytes ka petabytes. Hadoop ngamungkinkeun clustering sababaraha komputer pikeun nganalisis datasets badag dina paralel, tinimbang merlukeun hiji komputer badag tunggal pikeun nyimpen jeung nganalisis data.

MapReduce sareng Hadoop Distributed File System mangrupikeun dua komponén:

MapReduce - MapReduce mangrupikeun téknik pemrograman paralel pikeun nanganan volume ageung data anu teratur, semi-terstruktur, sareng henteu terstruktur dina klaster hardware komoditi.
HDFS - HDFS (Sistem File Distribusi Hadoop) mangrupikeun komponén kerangka Hadoop anu nyimpen sareng ngolah data. Ieu sistem file toleran lepat anu dijalankeun dina hardware standar

Sub-proyék (alat) anu béda dina ékosistem Hadoop, kalebet Sqoop, Pig, sareng Hive, dianggo pikeun ngabantosan modul Hadoop.

Hive - Hive mangrupikeun kerangka pikeun nyerat skrip gaya SQL anu ngalaksanakeun komputasi MapReduce.
babi - Babi mangrupikeun basa pamrograman prosedural anu tiasa dianggo pikeun nyiptakeun skrip pikeun prosés MapReduce.
Sqoop - Sqoop mangrupikeun alat pikeun ngimpor sareng ngékspor data antara HDFS sareng RDBMS.

Naon Apache Hive?

Apache Hive mangrupikeun sumber terbuka data gudang program pikeun maca, nyerat, sareng ngatur set data ageung disimpen langsung dina Apache Hadoop Distributed File System (HDFS) atanapi sistem panyimpen data sanés sapertos Apache HBase.

Pangembang SQL tiasa nganggo Hive pikeun nyiptakeun pernyataan Hive Query Language (HQL) pikeun pamundut data sareng analisa anu tiasa dibandingkeun sareng pernyataan SQL biasa. Éta diciptakeun pikeun ngagampangkeun program MapReduce ku ngaleungitkeun kabutuhan diajar sareng nyerat kode Java anu panjang. Gantina, anjeun tiasa nyerat patarosan anjeun dina HQL, sareng Hive bakal ngawangun peta sareng ngirangan fungsi pikeun anjeun.

Antarbeungeut SQL-kawas Apache Hive geus jadi Standar Emas pikeun ngalakukeun pilarian ad-hoc, nyimpulkeun, jeung nganalisis data Hadoop. Lamun kaasup dina awan jaringan komputasi, Leyuran ieu utamana ongkos-éféktif jeung scalable, naha nu mangrupa loba firms, kaasup Netflix jeung Amazon, terus ngamekarkeun tur ningkatkeun Apache Hive.

Apache

Sajarah

Dina waktosna di Facebook, Joydeep Sen Sarma sareng Ashish Thusoo nyiptakeun Apache Hive. Duanana sadar yén pikeun ngamangpaatkeun Hadoop, aranjeunna kedah nyiptakeun sababaraha tugas Java Map-Reduce anu rada rumit. Aranjeunna ngakuan yén aranjeunna moal tiasa ngadidik tim rékayasa sareng analitik anu ngembang pesat ngeunaan kaahlian anu aranjeunna peryogikeun pikeun ngungkit Hadoop di sakuliah perusahaan. Insinyur sareng analis sering ngagunakeun SQL salaku antarmuka pangguna.

Sanaos SQL tiasa nyumponan seuseueurna kabutuhan analitik, pamekar ogé dimaksudkeun pikeun ngalebetkeun programability Hadoop. Apache Hive timbul tina dua tujuan ieu: basa déklaratif basis SQL anu ogé ngamungkinkeun para pamekar mawa skrip sareng program sorangan nalika SQL henteu cekap.

Éta ogé dikembangkeun pikeun nyepeng metadata terpusat (basis Hadoop) ngeunaan sadaya set data dina perusahaan pikeun ngagampangkeun pangwangunan organisasi anu didorong ku data.

Kumaha Apache Hive jalanna?

Singkatna, Apache Hive ngarobih program input anu ditulis dina basa HiveQL (sapertos SQL) kana hiji atanapi langkung tugas Java MapReduce, Tez, atanapi Spark. (Kabéh mesin palaksanaan ieu cocog sareng Hadoop BENANG.) Sanggeus éta, Apache Hive arranges data kana tabel pikeun Hadoop Distributed File System HDFS) sarta ngalaksanakeun tugas dina klaster pikeun meunang jawaban.

data

Tabel Apache Hive disusun dina cara nu sarua sakumaha tabel dina database relational diatur, jeung unit data mimitian dina ukuran ti nu leuwih gede ka nu leuwih leutik. Basis data diwangun ku tabel anu dibagi kana divisi, anu salajengna dibagi kana ember. HiveQL (Hive Query Language) dianggo pikeun ngaksés data, anu tiasa dirobih atanapi ditambihan. Data tabel ieu serialized dina unggal database, sarta unggal tabel boga diréktori HDFS sorangan.

gawena undagi

Ayeuna urang bakal ngobrol ngeunaan aspék pangpentingna tina Hive Arsitéktur. Komponén Apache Hive nyaéta kieu:

Metastore - Éta ngalacak inpormasi ngeunaan unggal méja, sapertos struktur sareng lokasina. Metadata partisi ogé kalebet dina Hive. Hal ieu ngamungkinkeun supir pikeun ngalacak kamajuan set data anu béda-béda sumebar ka kluster. Data disimpen dina format RDBMS konvensional. Metadata Hive penting pisan pikeun supir pikeun ngalacak data. Server cadangan duplikat data sacara rutin supados tiasa pulih upami aya leungitna data.

nu nyetir - Pernyataan HiveQL ditampi ku supir, anu fungsina salaku controller. Ku netepkeun sesi, supir ngamimitian palaksanaan pernyataan éta. Éta ngalacak umur sareng kamajuan eksekutif. Salila palaksanaan hiji pernyataan HiveQL, supir ngahemat metadata diperlukeun. Ogé boga fungsi minangka data atawa query titik ngumpulkeun hasil sanggeus prosés Ngurangan.

Compiler – Ieu executes kompilasi query HiveQL. Paménta ayeuna dirobih kana rencana palaksanaan. Tugas dibéréndélkeun dina rencana. Éta ogé kalebet léngkah-léngkah anu kedah dilakukeun ku MapReduce pikeun kéngingkeun hasil anu ditarjamahkeun ku pamundut. Paménta dirobih janten Tangkal Sintaksis Abstrak ku kompiler Hive (AST). Ngarobah AST kana Directed Acyclic Graph saatos mariksa kasaluyuan sareng kasalahan waktos kompilasi (DAG).

Optimizer - Éta ngaoptimalkeun DAG ku ngalaksanakeun parobihan anu béda dina rencana palaksanaan. Ieu ngagabungkeun transformasi pikeun efisiensi ningkat, kayaning ngarobah pipa tina gabung kana gabung tunggal. Pikeun ningkatkeun kagancangan, pangoptimal tiasa ngabagi kagiatan, sapertos nerapkeun transformasi kana data sateuacan ngalakukeun operasi pangurangan.

Pelaksana - Pelaksana ngajalankeun tugas nalika kompilasi sareng optimasi parantos réngsé. Pakasaban dijalankeun ku Pelaksana.

CLI, UI, sareng Server Thrift - Antarbeungeut garis paréntah (CLI) mangrupikeun antarbeungeut pangguna anu ngamungkinkeun pangguna éksternal pikeun komunikasi sareng Hive. Server thrift Hive, sami sareng protokol JDBC atanapi ODBC, ngamungkinkeun klien éksternal pikeun komunikasi sareng Hive via jaringan.

kaamanan

Apache Hive terpadu sareng kaamanan Hadoop, anu ngagunakeun Kerberos pikeun auténtikasi silih klien-server. The HDFS dictates idin pikeun file anyar dihasilkeun dina Apache Hive, ngidinan Anjeun pikeun approve ku pamaké, grup, jeung sajabana.

kaistiméwaan

Hive ngadukung tabel éksternal, anu ngamungkinkeun anjeun ngolah data tanpa nyimpen dina HDFS.
Éta ogé ngamungkinkeun ségméntasi data dina tingkat méja pikeun ningkatkeun kagancangan.
Apache Hive sampurna nyumponan kabutuhan antarmuka tingkat rendah Hadoop.
Hive ngagampangkeun nyimpulkeun data, query, sareng analisa.
HiveQL teu merlukeun kaahlian programming; pamahaman basajan tina queries SQL geus cukup.
Urang ogé tiasa nganggo Hive pikeun ngalaksanakeun patarosan ad-hoc pikeun analisa data.
Éta scalable, akrab, sareng adaptasi.
HiveQL teu merlukeun kaahlian programming; pamahaman basajan tina queries SQL geus cukup.

mangpaat

Apache Hive ngamungkinkeun laporan ahir poé, évaluasi transaksi sapopoé, panéangan ad-hoc, sareng analisis data. Wawasan komprehensif anu disayogikeun ku Apache Hive masihan kaunggulan kompetitif anu signifikan sareng ngagampangkeun anjeun pikeun ngaréspon paménta pasar.

Ieu sababaraha kauntungan tina gaduh inpormasi sapertos anu sayogi:

Betah pamakean - Kalayan basa sapertos SQL-na, naroskeun data saderhana kahartos.
Nyelapkeun data gancangan — Kusabab Apache Hive maca skéma tanpa pariksa jinis méja atanapi definisi skéma, data henteu kedah dibaca, di-parse, sareng di-serial kana disk dina format internal pangkalan data. Kontras, dina database konvensional, data kudu disahkeun unggal waktos eta ditambahkeun.
Skalabilitas unggul, kalenturan, sareng éféktivitas biaya - Kusabab data disimpen dina HDFS, Apache Hive tiasa nahan 100-an petabytes data, janten pilihan anu langkung ageung tibatan database biasa. Apache Hive, salaku layanan Hadoop dumasar-awan, ngamungkinkeun para nasabah gancang-gancang muter luhur sareng ka handap server virtual pikeun nyumponan beban kerja anu robih.
kapasitas gawé éksténsif - Dataset ageung tiasa ngadamel dugi ka 100,000 patarosan per jam.

watesan

Sacara umum, patarosan Apache Hive gaduh latency anu luhur pisan.
Pangrojong subquery diwatesan.
Patarosan real-time sareng parobahan tingkat baris henteu sayogi di Apache Hive.
Henteu aya dukungan pikeun pandangan anu diwujudkeun.
Dina sarang, ngapdet sareng ngahapus tindakan henteu didukung.
Henteu dimaksudkeun pikeun OLTP (prosés transisi online).

Ngamimitian nganggo Apache Hive

Apache Hive mangrupikeun mitra Hadoop anu kuat anu nyederhanakeun sareng nyegerkeun alur kerja anjeun. Pikeun meunangkeun mangpaat pangseueurna ti Apache Hive, integrasi seamless penting. Léngkah munggaran nyaéta angkat ka website.

1. Instalasi Hive ti Release stabil

Mimitian ku ngundeur sékrési stabil panganyarna tina Hive tina salah sahiji kaca spion Apache (tingali Kaluaran Hive). Tarball teras kedah dibongkar. Ieu bakal nyiptakeun subfolder anu disebut hive-xyz (dimana xyz mangrupikeun nomer pelepasan):

Setel variabel lingkungan HIVE_HOME pikeun nunjuk ka diréktori pamasangan:

2 1

Tungtungna, tambahkeun $ HIVE_HOME / bin ka anjeun PATH:

2. Ngajalankeun Hive

Hive nganggo Hadoop, janten:

Anjeun kudu boga Hadoop di jalur Anjeun ATAWA

3. Operasi DLL

Nyieun Hive Table

dibangkitkeun tabel ngaranna pokes kalawan dua kolom, nu kahiji mangrupa integer jeung kadua nu string a.

Ngotektak ngaliwatan Tables

Listing Sadaya Tables

Ngarobah sarta Muterkeun Tables

Ngaran tabel bisa dirobah sarta kolom bisa ditambahkeun atawa diganti:

Perlu dicatet yén REPLACE COLUMNS ngagentos sadaya kolom anu aya bari ngan ukur ngarobih struktur tabel sanés datana. SerDe asli kedah dianggo dina tabél. REPLACE COLUMNS ogé tiasa dianggo pikeun ngahapus kolom tina skéma méja:

Leupaskeun Tables

Aya seueur operasi sareng fitur tambahan dina Apache Hive anu anjeun tiasa diajar ku ngadatangan halaman wéb resmi.

kacindekan

Definisi Hive mangrupikeun antarbeungeut program data pikeun naros sareng nganalisa set data ageung anu diwangun dina luhureun Apache Hadoop. Profésional milih éta pikeun program, alat, sareng parangkat lunak sanés sabab utamina dirancang pikeun data éksténsif Hive sareng gampang dianggo.

Mudah-mudahan tutorial ieu ngabantosan anjeun ngamimitian sareng Apache Hive sareng ngajantenkeun alur kerja anjeun langkung éfisién. Hayu urang terang dina komentar.

Apache Hive - Tutorial jero

Apache Hadoop