Apache Hive - In-depth Tutorial

မာတိကာ[ဖျောက်][ရှိုး]

Apache Hadoop
Apache Hive ဆိုတာ ဘာလဲ။+-
- သမိုင်း
Apache Hive ဘယ်လိုအလုပ်လုပ်သလဲ။+-
Key ကို features တွေ
အက်ိဳးေက်းဇူးမ်ား
ကန့်သတ်
Apache Hive ကို စတင်အသုံးပြုခြင်း။+-
- 1. တည်ငြိမ်သောဖြန့်ချိမှုမှတပ်ဆင်ခြင်း Hive
- 2. Running Hive
ကောက်ချက်

Hive သည် လုပ်ငန်းတွင် အသုံးများသော Big Data Analytics ကိရိယာတစ်ခုဖြစ်ပြီး သင် Big Data အသစ်ဖြစ်ပါက စတင်ရန် အကောင်းဆုံးနေရာတစ်ခုဖြစ်သည်။ ဤ Apache Hive သင်ခန်းစာသည် Apache Hive ၏အခြေခံများ၊ အဘယ်ကြောင့်တစ်အုံလိုအပ်ကြောင်း၊ ၎င်း၏အင်္ဂါရပ်များနှင့် သင်သိထားသင့်သည့်အရာအားလုံးတို့ကို ဖြတ်သန်းပါသည်။

Apache Hive ကိုတည်ဆောက်ထားသည့် Hadoop မူဘောင်ကို ဦးစွာနားလည်ကြပါစို့။

Apache Hadoop

Apache Hadoop သည် အခမဲ့ဖြစ်ပြီး၊ open-source gigabytes မှ petabytes အထိ အရွယ်အစားကြီးမားသော dataset များကို သိမ်းဆည်းခြင်းနှင့် စီမံခြင်းအတွက် ပလပ်ဖောင်း။ Hadoop သည် ကြီးမားသော ဒေတာအတွဲများကို အပြိုင်ခွဲခြမ်းစိတ်ဖြာရန် ကွန်ပျူတာအများအပြားကို အစုလိုက်အပြုံလိုက် ခွဲခြမ်းစိတ်ဖြာရန် ခွင့်ပြုထားပြီး ကြီးမားသောကွန်ပျူတာတစ်လုံးမှ ဒေတာကို သိမ်းဆည်းပြီး ခွဲခြမ်းစိတ်ဖြာရန် လိုအပ်သည်။

MapReduce နှင့် Hadoop Distributed File System သည် အစိတ်အပိုင်းနှစ်ခုဖြစ်သည်-

Rရာဝတီ - MapReduce သည် ကုန်စည်ဟာ့ဒ်ဝဲအစုအဝေးများပေါ်တွင် အစုအပြုံလိုက်ဖွဲ့စည်းပုံတစ်ပိုင်းနှင့်ဖွဲ့စည်းပုံမဟုတ်သောဒေတာအများအပြားကို ကိုင်တွယ်ရန်အတွက် အပြိုင်ပရိုဂရမ်ရေးဆွဲခြင်းနည်းပညာတစ်ခုဖြစ်သည်။
HDFS - HDFS (Hadoop Distributed File System) သည် အချက်အလက်များကို သိမ်းဆည်းပြီး စီမံဆောင်ရွက်ပေးသည့် Hadoop framework အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ ၎င်းသည် စံဟာ့ဒ်ဝဲပေါ်တွင် လုပ်ဆောင်သည့် အမှား-ခံနိုင်ရည်ရှိသော ဖိုင်စနစ်ဖြစ်သည်။

Sqoop၊ Pig နှင့် Hive အပါအဝင် Hadoop ဂေဟစနစ်ရှိ မတူညီသော ပရောဂျက်ခွဲများ (ကိရိယာများ) ကို Hadoop မော်ဂျူးများကို အထောက်အကူဖြစ်စေရန် အသုံးပြုပါသည်။

အုံ - Hive သည် MapReduce တွက်ချက်မှုများကို လုပ်ဆောင်သည့် SQL-စတိုင် scripts များရေးသားခြင်းအတွက် မူဘောင်တစ်ခုဖြစ်သည်။
ဝက် - Pig သည် MapReduce လုပ်ငန်းစဉ်များအတွက် script တစ်ခုဖန်တီးရန် အသုံးပြုနိုင်သည့် လုပ်ငန်းစဉ်ဆိုင်ရာ ပရိုဂရမ်ဘာသာစကားတစ်ခုဖြစ်သည်။
သိမ်းကြုံး - Sqoop သည် HDFS နှင့် RDBMS အကြား ဒေတာတင်သွင်းခြင်းနှင့် တင်ပို့ခြင်းအတွက် ကိရိယာတစ်ခုဖြစ်သည်။

ဘာဖြစ်သလဲ Apache ကိုအုံမှ?

Apache Hive သည် open-source တစ်ခုဖြစ်သည်။ ဒေတာဂိုဒေါင် Apache Hadoop Distributed File System (HDFS) သို့မဟုတ် Apache HBase ကဲ့သို့သော အခြားသော ဒေတာသိမ်းဆည်းမှုစနစ်များတွင် တိုက်ရိုက်သိမ်းဆည်းထားသော ဧရာမဒေတာအစုံများကို စာဖတ်ခြင်း၊ ရေးသားခြင်းနှင့် စီမံခန့်ခွဲခြင်းအတွက် ပရိုဂရမ်။

SQL developer များသည် ပုံမှန် SQL ထုတ်ပြန်ချက်များနှင့် နှိုင်းယှဉ်နိုင်သော ဒေတာမေးမြန်းမှုနှင့် ခွဲခြမ်းစိတ်ဖြာမှုအတွက် Hive Query Language (HQL) ထုတ်ပြန်ချက်များကို ဖန်တီးရန် Hive ကို အသုံးပြုနိုင်သည်။ Java ကုဒ်ရှည်များကို လေ့လာရန်နှင့် ရေးရန် လိုအပ်မှုကို ဖယ်ရှားခြင်းဖြင့် MapReduce ပရိုဂရမ်ကို ပိုမိုလွယ်ကူစေရန် ဖန်တီးထားသည်။ ယင်းအစား၊ သင်သည် သင်၏မေးခွန်းများကို HQL တွင်ရေးနိုင်ပြီး Hive သည် မြေပုံကိုတည်ဆောက်ကာ သင့်အတွက် လုပ်ဆောင်ချက်များကို လျှော့ချပေးမည်ဖြစ်သည်။

Apache Hive ၏ SQL-like interface သည် ad-hoc ရှာဖွေမှုများလုပ်ဆောင်ခြင်း၊ အကျဉ်းချုပ်ခြင်းနှင့် Hadoop ဒေတာကိုခွဲခြမ်းစိတ်ဖြာခြင်းအတွက် Gold Standard ဖြစ်လာသည်။ cloud တွင်ထည့်သွင်းသောအခါ ကွန်ပျူတာကွန်ရက်များဤဖြေရှင်းချက်သည် အထူးသဖြင့် ကုန်ကျစရိတ်သက်သာပြီး အရွယ်ပမာဏကို အသုံးပြုနိုင်သောကြောင့် Netflix နှင့် Amazon အပါအဝင် ကုမ္ပဏီအများအပြားသည် Apache Hive ကို ဆက်လက်တီထွင်ပြီး ပိုမိုကောင်းမွန်အောင် လုပ်ဆောင်နေပါသည်။

Apache ကို

သမိုင်း

Facebook တွင်ရှိစဉ်အတွင်း Joydeep Sen Sarma နှင့် Ashish Thusoo တို့သည် Apache Hive ကို ပူးတွဲဖန်တီးခဲ့သည်။ Hadoop မှ အကောင်းဆုံးရယူရန်၊ ၎င်းတို့သည် ရှုပ်ထွေးသော Java Map-Reduce လုပ်ဆောင်ချက်များကို ဖန်တီးရမည်ဖြစ်ကြောင်း ၎င်းတို့နှစ်ဦးစလုံးမှ အသိအမှတ်ပြုခဲ့ကြသည်။ ကုမ္ပဏီအနှံ့ Hadoop ကို လွှမ်းမိုးလိုသည့် စွမ်းရည်များနှင့်ပတ်သက်၍ ၎င်းတို့၏ လျင်မြန်စွာ တိုးချဲ့နေသော အင်ဂျင်နီယာနှင့် ခွဲခြမ်းစိတ်ဖြာမှုအဖွဲ့များကို အသိပညာပေးနိုင်မည် မဟုတ်ကြောင်း ၎င်းတို့က အသိအမှတ်ပြုခဲ့သည်။ အင်ဂျင်နီယာများနှင့် လေ့လာသုံးသပ်သူများသည် SQL ကို user interface အဖြစ် မကြာခဏ အသုံးပြုကြသည်။

SQL သည် ခွဲခြမ်းစိတ်ဖြာမှုလိုအပ်ချက်အများစုကို ဖြည့်ဆည်းပေးနိုင်သော်လည်း developer များသည် Hadoop ၏ programmability ကို ထည့်သွင်းရန် ရည်ရွယ်ပါသည်။ Apache Hive သည် SQL မလုံလောက်သောအခါတွင် developer များအား ၎င်းတို့၏ကိုယ်ပိုင် scripts များနှင့် program များထည့်သွင်းနိုင်စေသည့် SQL-based declarative language တစ်ခုမှ ပေါ်ပေါက်လာခြင်းဖြစ်သည်။

ဒေတာမောင်းနှင်သော အဖွဲ့အစည်းများကို တည်ဆောက်ရာတွင် ပိုမိုလွယ်ကူစေရန် ကုမ္ပဏီအတွင်းရှိ ဒေတာအတွဲများအားလုံးကို ဗဟိုချုပ်ကိုင်ထားသော မက်တာဒေတာ (Hadoop-based) ကိုင်ဆောင်ရန်လည်း တီထွင်ခဲ့သည်။

Apache Hive ဘယ်လိုအလုပ်လုပ်သလဲ။

အတိုချုပ်အားဖြင့်၊ Apache Hive သည် HiveQL (SQL-like) language ဖြင့်ရေးသားထားသော input program တစ်ခုကို Java MapReduce၊ Tez သို့မဟုတ် Spark လုပ်ဆောင်ချက်များကို တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော Java MapReduce၊ (ဤ execution engines များအားလုံးသည် Hadoop YARN နှင့် တွဲဖက်အသုံးပြုနိုင်ပါသည်။) ထို့နောက်တွင်၊ Apache Hive သည် Hadoop Distributed File System HDFS အတွက် ဇယားများအဖြစ် ဒေတာများကို စီစဉ်ပေးပြီး အဖြေတစ်ခုရရှိရန် အစုအဖွဲ့တစ်ခုပေါ်တွင် အလုပ်များကို လုပ်ဆောင်သည်။

ဒေတာများ

Apache Hive ဇယားများကို ဆက်စပ်ဒေတာဘေ့စ်တစ်ခုအတွင်းရှိ ဇယားများကို စုစည်းထားသကဲ့သို့ ဒေတာယူနစ်များကို အရွယ်အစားပိုကြီးမှ အသေးအထိ အမျိုးမျိုးစီစဉ်ထားပါသည်။ ဒေတာဘေ့စ်များကို ပုံးများအဖြစ် ပိုင်းခြားထားသော ဇယားများဖြင့် ဖွဲ့စည်းထားသည်။ HiveQL (Hive Query Language) ကို ပြောင်းလဲနိုင်သည် သို့မဟုတ် ထပ်ပေါင်းထည့်နိုင်သည့် ဒေတာကို ရယူရန် အသုံးပြုပါသည်။ ဇယားဒေတာကို ဒေတာဘေ့စ်တစ်ခုစီအတွင်း နံပါတ်စဉ်တပ်ထားပြီး ဇယားတစ်ခုစီတွင် ၎င်း၏ကိုယ်ပိုင် HDFS လမ်းညွှန်ရှိသည်။

ဗိသုကာအတတ်ပညာ

ယခုကျွန်ုပ်တို့သည် Hive Architecture ၏အရေးကြီးဆုံးရှုထောင့်အကြောင်းပြောပါမည်။ Apache Hive ၏ အစိတ်အပိုင်းများမှာ အောက်ပါအတိုင်းဖြစ်သည်။

Metastore — ၎င်းသည် ၎င်း၏ဖွဲ့စည်းပုံနှင့် တည်နေရာကဲ့သို့သော ဇယားတစ်ခုစီ၏ အချက်အလက်များကို ခြေရာခံသည်။ partition metadata ကို Hive တွင် အလားတူ ထည့်သွင်းထားပါသည်။ ၎င်းသည် အစုအဝေးအတွင်းပျံ့နှံ့နေသော မတူညီသောဒေတာအစုံများ၏ တိုးတက်မှုကို ယာဉ်မောင်းအား ခြေရာခံနိုင်စေပါသည်။ ဒေတာကို သမားရိုးကျ RDBMS ဖော်မတ်ဖြင့် သိမ်းဆည်းထားသည်။ Hive metadata သည် data ကိုခြေရာခံထိန်းသိမ်းရန်ယာဉ်မောင်းအတွက်အလွန်အရေးကြီးသည်။ အရန်ဆာဗာသည် ဒေတာများ ဆုံးရှုံးသည့်အခါတွင် ပြန်လည်ကောင်းမွန်လာစေရန်အတွက် ဒေတာများကို ပုံမှန်အတိုင်း ပွားနေပါသည်။

မောင်းသူ - HiveQL ကြေညာချက်များကို ထိန်းချုပ်ကိရိယာအဖြစ် လုပ်ဆောင်သည့် ယာဉ်မောင်းတစ်ဦးမှ လက်ခံရရှိပါသည်။ အစည်းအဝေးများကို တည်ထောင်ခြင်းဖြင့်၊ ယာဉ်မောင်းသည် ကြေညာချက်ကို စတင်လုပ်ဆောင်သည်။ ၎င်းသည် အမှုဆောင်၏ သက်တမ်းနှင့် တိုးတက်မှုကို ခြေရာခံသည်။ HiveQL ထုတ်ပြန်ချက်ကို အကောင်အထည်ဖော်နေစဉ်၊ ယာဉ်မောင်းသည် လိုအပ်သော မက်တာဒေတာကို သိမ်းဆည်းသည်။ ၎င်းသည် လျှော့ချခြင်းလုပ်ငန်းစဉ်ပြီးနောက် ဒေတာ သို့မဟုတ် စုံစမ်းမှုရလဒ် စုဆောင်းရေးအမှတ်တစ်ခုလည်းဖြစ်သည်။

ရေးဖွဲ့သူ - ၎င်းသည် HiveQL query compilation ကို လုပ်ဆောင်သည်။ ယခုမေးမြန်းချက်ကို အကောင်အထည်ဖော်မှုအစီအစဉ်တစ်ခုအဖြစ်သို့ ပြောင်းလဲထားပါသည်။ လုပ်ငန်းတာဝန်များကို အစီအစဥ်တွင် ဖော်ပြထားပါသည်။ ၎င်းတွင် query မှ ဘာသာပြန်ထားသည့် ရလဒ်ရရှိရန် MapReduce လုပ်ရမည့် အဆင့်များလည်း ပါဝင်သည်။ မေးခွန်းကို Hive ၏ compiler (AST) မှ စိတ္တဇ Syntax Tree သို့ ပြောင်းသည်။ လိုက်ဖက်ညီမှုနှင့် compile-time faults (DAG) ကိုစစ်ဆေးပြီးနောက် AST ကို Directed Acyclic Graph သို့ပြောင်းသည်။

Optimizer - ၎င်းသည် အကောင်အထည်ဖော်မှုအစီအစဉ်တွင် မတူညီသောပြောင်းလဲမှုများကိုလုပ်ဆောင်ခြင်းဖြင့် DAG ကို အကောင်းဆုံးဖြစ်အောင်လုပ်ဆောင်သည်။ ပိုက်လိုင်းတစ်ခုကို Join တစ်ခုတည်းအဖြစ် ပြောင်းလဲခြင်းကဲ့သို့သော ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည်အတွက် အသွင်ပြောင်းမှုများကို ပေါင်းစပ်ထားသည်။ အမြန်နှုန်းကို မြှင့်တင်ရန်၊ လျှော့ချခြင်းဆိုင်ရာ လုပ်ဆောင်ချက်ကို မလုပ်ဆောင်မီ ဒေတာသို့ အသွင်ပြောင်းခြင်းကို အသုံးချခြင်းကဲ့သို့သော လုပ်ဆောင်ချက်များကို ပိုမိုကောင်းမွန်အောင်ပြုလုပ်ခြင်းဖြင့် ပိုင်းခြားနိုင်ပါသည်။

ကွပ်မျက်သူ - compilation နှင့် optimization ပြီးသွားသောအခါ executor သည် အလုပ်များကို လုပ်ဆောင်သည်။ အလုပ်များကို Executor မှ သွယ်တန်းထားသည်။

CLI၊ UI နှင့် Thrift ဆာဗာ - command-line interface (CLI) သည် ပြင်ပအသုံးပြုသူတစ်ဦးအား Hive နှင့် ဆက်သွယ်ရန် ခွင့်ပြုသည့် အသုံးပြုသူ အင်တာဖေ့စ်တစ်ခုဖြစ်သည်။ JDBC သို့မဟုတ် ODBC ပရိုတိုကောများနှင့်ဆင်တူသော Hive ၏ အမြတ်ဆုံးဆာဗာသည် ပြင်ပဖောက်သည်များအား ကွန်ရက်တစ်ခုမှတစ်ဆင့် Hive နှင့် ဆက်သွယ်နိုင်စေပါသည်။

လုံခွုံရေး

Apache Hive သည် ကလိုင်းယင့်-ဆာဗာအပြန်အလှန်စစ်မှန်ကြောင်းအထောက်အထားအတွက် Kerberos ကိုအသုံးပြုသည့် Hadoop လုံခြုံရေးနှင့် ပေါင်းစပ်ထားသည်။ HDFS သည် Apache Hive ရှိ အသစ်ထုတ်လုပ်လိုက်သော ဖိုင်များအတွက် ခွင့်ပြုချက်များကို ညွှန်ကြားထားပြီး သုံးစွဲသူ၊ အဖွဲ့နှင့် အခြားသူများမှ အတည်ပြုခွင့်ပြုထားသည်။

Key ကို features တွေ

Hive သည် HDFS တွင် မသိမ်းဆည်းဘဲ ဒေတာကို စီမံဆောင်ရွက်နိုင်စေမည့် ပြင်ပဇယားများကို ပံ့ပိုးပေးသည်။
၎င်းသည် မြန်ဆန်စေရန် ဇယားအဆင့်တွင် ဒေတာခွဲဝေမှုကိုလည်း လုပ်ဆောင်နိုင်သည်။
Apache Hive သည် Hadoop ၏ အဆင့်နိမ့်သော အင်တာဖေ့စ် လိုအပ်ချက်ကို ကောင်းမွန်စွာ ဖြည့်ဆည်းပေးသည်။
Hive သည် ဒေတာအကျဉ်းချုပ်၊ မေးမြန်းခြင်းနှင့် ခွဲခြမ်းစိတ်ဖြာမှုကို ပိုမိုလွယ်ကူစေသည်။
HiveQL သည် မည်သည့် programming ကျွမ်းကျင်မှုမှ မလိုအပ်ပါ။ SQL queries ၏ရိုးရှင်းသောနားလည်မှုသည်လုံလောက်သည်။
ဒေတာခွဲခြမ်းစိတ်ဖြာမှုအတွက် ကျွန်ုပ်တို့သည် သီးသန့်မေးခွန်းများလုပ်ဆောင်ရန် Hive ကိုသုံးနိုင်သည်။
၎င်းသည် အတိုင်းအတာ၊ ရင်းနှီးပြီး လိုက်လျောညီထွေဖြစ်နိုင်သည်။
HiveQL သည် မည်သည့် programming ကျွမ်းကျင်မှုမှ မလိုအပ်ပါ။ SQL queries ၏ရိုးရှင်းသောနားလည်မှုသည်လုံလောက်သည်။

အက်ိဳးေက်းဇူးမ်ား

Apache Hive သည် နေ့စဥ်အစီရင်ခံချက်များ၊ နေ့စဥ်ငွေပေးငွေယူ အကဲဖြတ်ချက်များ၊ ad-hoc ရှာဖွေမှုများနှင့် ဒေတာခွဲခြမ်းစိတ်ဖြာမှုများကို ခွင့်ပြုသည်။ Apache Hive မှ ပံ့ပိုးပေးထားသော ပြည့်စုံသော ထိုးထွင်းသိမြင်မှုများသည် သိသာထင်ရှားသော ပြိုင်ဆိုင်မှုဆိုင်ရာ အားသာချက်များကို ပေးစွမ်းပြီး စျေးကွက်တောင်းဆိုမှုများကို တုံ့ပြန်ရန် သင့်အတွက် ပိုမိုလွယ်ကူစေသည်။

ဤကဲ့သို့ အချက်အလက်များကို အလွယ်တကူရရှိနိုင်ခြင်း၏ အကျိုးကျေးဇူးအချို့မှာ အောက်ပါအတိုင်းဖြစ်သည်။

အသုံးပြုမှုလွယ်ကူခြင်း - ၎င်း၏ SQL နှင့်တူသောဘာသာစကားဖြင့်၊ ဒေတာမေးမြန်းခြင်းသည် နားလည်ရန် ရိုးရှင်းပါသည်။
အရှိန်မြှင့်ဒေတာထည့်သွင်းခြင်း။ — Apache Hive သည် ဇယားအမျိုးအစား သို့မဟုတ် schema အဓိပ္ပါယ်ဖွင့်ဆိုချက်ကို အတည်မပြုဘဲ schema ကိုဖတ်သောကြောင့်၊ ဒေတာများကို ဒေတာဘေ့စ်၏အတွင်းပိုင်းဖော်မတ်တွင် disc တွင်ဖတ်ရန်၊ ခွဲခြမ်းစိပ်ဖြာရန်နှင့် အမှတ်စဉ်များပြုလုပ်ရန် မလိုအပ်ပါ။ ဆန့်ကျင်ဘက်အနေဖြင့်၊ သမားရိုးကျဒေတာဘေ့စ်တစ်ခုတွင်၊ ဒေတာကိုထည့်သွင်းသည့်အခါတိုင်း မှန်ကန်ကြောင်းအတည်ပြုရပါမည်။
သာလွန်သော အတိုင်းအတာ၊ ပြောင်းလွယ်ပြင်လွယ်နှင့် ကုန်ကျစရိတ်-ထိရောက်မှု - ဒေတာကို HDFS တွင် သိမ်းဆည်းထားသောကြောင့် Apache Hive သည် ဒေတာ 100s ၏ petabytes ကို ထိန်းထားနိုင်ပြီး ၎င်းသည် ပုံမှန်ဒေတာဘေ့စ်ထက် အဆပေါင်းများစွာ ပိုမိုချဲ့ထွင်နိုင်သော ရွေးချယ်မှုတစ်ခု ဖြစ်လာစေသည်။ cloud-based Hadoop ဝန်ဆောင်မှုတစ်ခုအနေဖြင့် Apache Hive သည် သုံးစွဲသူများအား ပြောင်းလဲနေသောအလုပ်တာဝန်များကိုပြည့်မီရန် virtual ဆာဗာများကို လျင်မြန်စွာ လှည့်ပတ်ကြည့်ရှုနိုင်စေပါသည်။
ကျယ်ပြန့်သောအလုပ်စွမ်းရည် - ကြီးမားသောဒေတာအတွဲများသည် တစ်နာရီလျှင် မေးခွန်းပေါင်း 100,000 အထိ ကိုင်တွယ်ဖြေရှင်းနိုင်ပါသည်။

ကန့်သတ်

ယေဘုယျအားဖြင့်၊ Apache Hive queries များသည် latency အလွန်မြင့်မားသည်။
Subquery ပံ့ပိုးမှုသည် အကန့်အသတ်ရှိသည်။
အချိန်နှင့်တပြေးညီ မေးမြန်းချက်များနှင့် အတန်းအဆင့်ပြောင်းလဲမှုများကို Apache Hive တွင် မရရှိနိုင်ပါ။
ရုပ်လုံးပေါ်လာသော အမြင်များအတွက် အထောက်အပံ့မရှိပါ။
အုံအတွင်း၊ အပ်ဒိတ်နှင့် ဖျက်ခြင်းလုပ်ဆောင်ချက်များကို ပံ့ပိုးမထားပါ။
OLTP (အွန်လိုင်းအကူးအပြောင်းလုပ်ငန်းစဉ်) အတွက် ရည်ရွယ်ခြင်းမဟုတ်ပါ။

Apache Hive ကို စတင်အသုံးပြုခြင်း။

Apache Hive သည် သင့်လုပ်ငန်းအသွားအလာများကို ရိုးရှင်းလွယ်ကူစေပြီး ချောမွေ့စေမည့် ခိုင်မာသော Hadoop ပါတနာဖြစ်သည်။ Apache Hive မှ အကောင်းဆုံးရယူရန်၊ ချောမွေ့စွာပေါင်းစည်းမှုသည် မရှိမဖြစ်လိုအပ်ပါသည်။ ပထမအဆင့်အနေနဲ့ ဖိုလ်ကိုသွားပါ။ က်ဘ်ဆိုက်.

1. တည်ငြိမ်သောဖြန့်ချိမှုမှတပ်ဆင်ခြင်း Hive

Apache ဒေါင်းလုဒ်ကြေးမုံတစ်ခုမှ Hive ၏ လတ်တလောတည်ငြိမ်သော ထွက်ရှိမှုကို ဒေါင်းလုဒ်လုပ်ခြင်းဖြင့် စတင်ပါ (ကြည့်ရှုပါ။ အုံထုတ်မှုများ) ထို့နောက် tarball ကို ထုပ်ပိုးရပါမည်။ ၎င်းသည် hive-xyz ဟုခေါ်သော ဖိုင်တွဲခွဲတစ်ခုကို ဖန်တီးလိမ့်မည် ( xyz သည် ထုတ်ဝေမှုနံပါတ်ဖြစ်သည်)။

တပ်ဆင်မှုလမ်းညွှန်ကိုညွှန်ပြရန် ပတ်ဝန်းကျင်ပြောင်းလဲမှု HIVE_HOME ကို သတ်မှတ်ပါ-

2 1

နောက်ဆုံးတွင်၊ သင့်ထံသို့ $HIVE_HOME/bin ထည့်ပါ။ PATH:

2. Running Hive

Hive သည် Hadoop ကိုအသုံးပြုသည်၊ ထို့ကြောင့်-

မင်းရဲ့လမ်း OR မှာ Hadoop ရှိရမယ်။

3. DLL လုပ်ဆောင်ချက်

Hive Table ဖန်တီးခြင်း။

ကော်လံနှစ်ခုပါသော pokes ဟု အမည်ပေးထားသော ဇယားကို ထုတ်ပေးသည်၊ ၎င်းတို့အနက် ပထမသည် ကိန်းပြည့်ဖြစ်ပြီး ဒုတိယသည် စာကြောင်းတစ်ခုဖြစ်သည်။

Tables များမှတဆင့်ရှာဖွေခြင်း။

ဇယားများအားလုံးကို စာရင်းပြုစုခြင်း။

ဇယားကွက်များ ပြောင်းလဲခြင်းနှင့် ချပေးခြင်း

ဇယားအမည်များကို ပြောင်းလဲနိုင်ပြီး ကော်လံများကို ပေါင်းထည့်နိုင် သို့မဟုတ် အစားထိုးနိုင်သည်-

REPLACE COLUMNS သည် ဇယား၏ဖွဲ့စည်းပုံသာမက ဒေတာကိုသာ ပြောင်းလဲနေချိန်တွင် ရှိပြီးသားကော်လံများအားလုံးကို အစားထိုးကြောင်း မှတ်သားထိုက်ပါသည်။ ဇယားတွင် မူရင်း SerDe ကို အသုံးပြုရပါမည်။ အစားထိုးကော်လံများကို ဇယားတစ်ခု၏ schema မှကော်လံများကို ဖယ်ရှားရန်လည်း အသုံးပြုနိုင်သည်။

Dropping Tabs

Apache Hive တွင်တရားဝင်ဝဘ်ဆိုဒ်ကိုဝင်ရောက်ကြည့်ရှုခြင်းဖြင့်သင်လေ့လာနိုင်သည့်နောက်ထပ်လုပ်ဆောင်မှုများနှင့်အင်္ဂါရပ်များစွာရှိသည်။

ကောက်ချက်

Hive definition သည် Apache Hadoop ၏ထိပ်တွင်တည်ဆောက်ထားသောကြီးမားသောဒေတာအတွဲများအတွက်မေးမြန်းခြင်းနှင့်ခွဲခြမ်းစိတ်ဖြာခြင်းအတွက်ဒေတာပရိုဂရမ်အင်တာဖေ့စ်တစ်ခုဖြစ်သည်။ Hive ကျယ်ပြန့်သောဒေတာအတွက် အဓိကအားဖြင့် ဒီဇိုင်းထုတ်ထားပြီး အသုံးပြုရလွယ်ကူသောကြောင့် ကျွမ်းကျင်ပညာရှင်များက ၎င်းကို အခြားပရိုဂရမ်များ၊ ကိရိယာများနှင့် ဆော့ဖ်ဝဲများထက် ရွေးချယ်သည်။

ဤသင်ခန်းစာသည် Apache Hive ဖြင့် သင့်အား စတင်နိုင်ရန် ကူညီပေးပြီး သင့်လုပ်ငန်းလည်ပတ်မှုများကို ပိုမိုထိရောက်စေရန် မျှော်လင့်ပါသည်။ မှတ်ချက်များတွင် ကျွန်ုပ်တို့ကို အသိပေးပါ။

Apache Hive - အတွင်းကျကျ ကျူတိုရီရယ်

Apache Hadoop