Apache Hive - ການສອນແບບເຈາະເລິກ

ສາລະບານ[ເຊື່ອງ][ສະແດງ]

Apache Hadoop
Apache Hive ແມ່ນຫຍັງ?+-
- ປະຫວັດສາດ
Apache Hive ເຮັດວຽກແນວໃດ?+-
ຄຸນນະສົມບັດທີ່ສໍາຄັນ
ຜົນປະໂຫຍດ
ຂໍ້ຈໍາກັດ
ເລີ່ມຕົ້ນກັບ Apache Hive+-
- 1. ການຕິດຕັ້ງ Hive ຈາກການປ່ອຍຄວາມຫມັ້ນຄົງ
- 2. ແລ່ນ Hive
ສະຫຼຸບ

Hive ແມ່ນເຄື່ອງມືການວິເຄາະຂໍ້ມູນໃຫຍ່ທີ່ໃຊ້ກັນຢ່າງກວ້າງຂວາງໃນທຸລະກິດ, ແລະມັນເປັນສະຖານທີ່ທີ່ດີເລີດທີ່ຈະເລີ່ມຕົ້ນຖ້າທ່ານໃຫມ່ກັບ Big Data. ບົດຮຽນ Apache Hive ນີ້ຜ່ານພື້ນຖານຂອງ Apache Hive, ເປັນຫຍັງຮັງຈື່ງມີຄວາມຈໍາເປັນ, ຄຸນສົມບັດຂອງມັນ, ແລະສິ່ງອື່ນໆທີ່ທ່ານຄວນຮູ້.

ທໍາອິດໃຫ້ພວກເຮົາເຂົ້າໃຈກອບ Hadoop ທີ່ Apache Hive ຖືກສ້າງຂຶ້ນ.

Apache Hadoop

Apache Hadoop ແມ່ນບໍ່ເສຍຄ່າແລະ ເປີດເຜີຍແຫຼ່ງ ເວທີສໍາລັບການເກັບຮັກສາແລະການປະມວນຜົນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຕັ້ງແຕ່ gigabytes ເຖິງ petabytes. Hadoop ອະນຸຍາດໃຫ້ການຈັດກຸ່ມຄອມພິວເຕີຈໍານວນຫຼາຍເພື່ອວິເຄາະຊຸດຂໍ້ມູນອັນໃຫຍ່ຫຼວງໃນຂະຫນານ, ແທນທີ່ຈະຕ້ອງການຄອມພິວເຕີຂະຫນາດໃຫຍ່ດຽວເພື່ອເກັບຮັກສາແລະວິເຄາະຂໍ້ມູນ.

MapReduce ແລະ Hadoop Distributed File System ແມ່ນສອງອົງປະກອບ:

ຫຼຸດແຜນທີ່ – MapReduce ແມ່ນເຕັກນິກການຂຽນໂປລແກລມຂະຫນານສໍາລັບການຈັດການຂໍ້ມູນທີ່ມີການຈັດຕັ້ງ, ເຄິ່ງໂຄງສ້າງ, ແລະບໍ່ມີໂຄງສ້າງຈໍານວນຫລາຍໃນກຸ່ມຮາດແວຂອງສິນຄ້າ.
HDFS – HDFS (Hadoop Distributed File System) ເປັນອົງປະກອບກອບຂອງ Hadoop ທີ່ເກັບຮັກສາ ແລະປະມວນຜົນຂໍ້ມູນ. ມັນເປັນລະບົບໄຟລ໌ທີ່ທົນທານຕໍ່ຄວາມຜິດທີ່ເຮັດວຽກຢູ່ໃນຮາດແວມາດຕະຖານ

ໂຄງການຍ່ອຍທີ່ແຕກຕ່າງກັນ (ເຄື່ອງມື) ໃນລະບົບນິເວດ Hadoop, ລວມທັງ Sqoop, Pig, ແລະ Hive, ຖືກນໍາໃຊ້ເພື່ອຊ່ວຍໃຫ້ໂມດູນ Hadoop.

Hive – Hive ແມ່ນກອບສໍາລັບການຂຽນ SQL-style scripts ທີ່ປະຕິບັດການຄິດໄລ່ MapReduce.
ຫມູ – Pig ເປັນພາສາການຂຽນໂປລແກລມຂັ້ນຕອນທີ່ອາດຈະຖືກນໍາໃຊ້ເພື່ອສ້າງສະຄິບສໍາລັບຂະບວນການ MapReduce.
Sqoop - Sqoop ເປັນເຄື່ອງມືສໍາລັບການນໍາເຂົ້າແລະການສົ່ງອອກຂໍ້ມູນລະຫວ່າງ HDFS ແລະ RDBMS.

ແມ່ນຫຍັງ Apache Hive?

Apache Hive ເປັນແຫຼ່ງເປີດ data warehouse ໂຄງການສໍາລັບການອ່ານ, ຂຽນ, ແລະຈັດການຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ເກັບໄວ້ໂດຍກົງໃນ Apache Hadoop Distributed File System (HDFS) ຫຼືລະບົບການເກັບຮັກສາຂໍ້ມູນອື່ນໆເຊັ່ນ Apache HBase.

ນັກພັດທະນາ SQL ອາດຈະໃຊ້ Hive ເພື່ອສ້າງຄໍາຖະແຫຼງການ Hive Query Language (HQL) ສໍາລັບການສອບຖາມຂໍ້ມູນແລະການວິເຄາະທີ່ປຽບທຽບກັບຄໍາຖະແຫຼງ SQL ປົກກະຕິ. ມັນຖືກສ້າງຂຶ້ນເພື່ອເຮັດໃຫ້ການຂຽນໂປຼແກຼມ MapReduce ງ່າຍຂຶ້ນໂດຍການກໍາຈັດຄວາມຕ້ອງການທີ່ຈະຮຽນຮູ້ແລະຂຽນລະຫັດ Java ຍາວ. ແທນທີ່ຈະ, ທ່ານອາດຈະຂຽນຄໍາຖາມຂອງທ່ານໃນ HQL, ແລະ Hive ຈະສ້າງແຜນທີ່ແລະຫຼຸດຜ່ອນຫນ້າທີ່ສໍາລັບທ່ານ.

ການໂຕ້ຕອບແບບ SQL ຂອງ Apache Hive ໄດ້ກາຍເປັນມາດຕະຖານຄໍາສໍາລັບການປະຕິບັດການຄົ້ນຫາແບບພິເສດ, ສະຫຼຸບ, ແລະການວິເຄາະຂໍ້ມູນ Hadoop. ເມື່ອລວມຢູ່ໃນຄລາວ ເຄືອຂ່າຍຄອມພິວເຕີ, ການແກ້ໄຂນີ້ໂດຍສະເພາະແມ່ນຄ່າໃຊ້ຈ່າຍທີ່ມີປະສິດທິພາບແລະສາມາດປັບຂະຫນາດໄດ້, ຊຶ່ງເປັນເຫດຜົນທີ່ບໍລິສັດຈໍານວນຫຼາຍ, ລວມທັງ Netflix ແລະ Amazon, ສືບຕໍ່ພັດທະນາແລະປັບປຸງ Apache Hive.

Apache

ປະຫວັດສາດ

ໃນລະຫວ່າງເວລາຂອງພວກເຂົາຢູ່ໃນເຟສບຸກ, Joydeep Sen Sarma ແລະ Ashish Thusoo ຮ່ວມກັນສ້າງ Apache Hive. ພວກເຂົາທັງສອງຮັບຮູ້ວ່າເພື່ອໃຫ້ໄດ້ປະໂຫຍດສູງສຸດຈາກ Hadoop, ພວກເຂົາຕ້ອງສ້າງບາງວຽກທີ່ສັບສົນ Java Map-Reduce. ພວກເຂົາເຈົ້າຮັບຮູ້ວ່າພວກເຂົາຈະບໍ່ສາມາດສຶກສາວິສະວະກໍາແລະທີມງານວິເຄາະທີ່ຂະຫຍາຍຢ່າງໄວວາຂອງພວກເຂົາກ່ຽວກັບທັກສະທີ່ພວກເຂົາຕ້ອງການເພື່ອໃຊ້ Hadoop ໃນທົ່ວບໍລິສັດ. ວິສະວະກອນແລະນັກວິເຄາະມັກຈະໃຊ້ SQL ເປັນການໂຕ້ຕອບຜູ້ໃຊ້.

ໃນຂະນະທີ່ SQL ສາມາດຕອບສະຫນອງຄວາມຕ້ອງການຂອງການວິເຄາະສ່ວນໃຫຍ່, ນັກພັດທະນາຍັງມີຈຸດປະສົງທີ່ຈະລວມເອົາໂຄງການຂອງ Hadoop. Apache Hive ເກີດຂື້ນຈາກສອງຈຸດປະສົງນີ້: ພາສາປະກາດທີ່ອີງໃສ່ SQL ເຊິ່ງຍັງຊ່ວຍໃຫ້ນັກພັດທະນາສາມາດນໍາເອົາສະຄິບແລະໂປຼແກຼມຂອງຕົນເອງໃນເວລາທີ່ SQL ບໍ່ພຽງພໍ.

ມັນຍັງໄດ້ຖືກພັດທະນາເພື່ອຖື metadata ສູນກາງ (Hadoop-based) ກ່ຽວກັບຊຸດຂໍ້ມູນທັງຫມົດໃນບໍລິສັດເພື່ອເຮັດໃຫ້ການສ້າງອົງການຈັດຕັ້ງທີ່ຂັບເຄື່ອນຂໍ້ມູນງ່າຍຂຶ້ນ.

Apache Hive ເຮັດວຽກແນວໃດ?

ສະຫຼຸບໂດຍຫຍໍ້, Apache Hive ປ່ຽນໂປຣແກມປ້ອນຂໍ້ມູນທີ່ຂຽນໃນພາສາ HiveQL (SQL-like) ເປັນໜຶ່ງ ຫຼືຫຼາຍວຽກ Java MapReduce, Tez, ຫຼື Spark. (ເຄື່ອງຈັກປະຕິບັດທັງຫມົດນີ້ແມ່ນເຫມາະສົມກັບ Hadoop YARN.) ຫຼັງຈາກນັ້ນ, Apache Hive ຈັດຂໍ້ມູນເຂົ້າໄປໃນຕາຕະລາງສໍາລັບ Hadoop Distributed File System HDFS) ແລະປະຕິບັດວຽກງານໃນກຸ່ມເພື່ອໃຫ້ໄດ້ຄໍາຕອບ.

ຂໍ້ມູນ

ຕາຕະລາງ Apache Hive ຖືກຈັດລຽງໃນແບບດຽວກັນກັບຕາຕະລາງໃນຖານຂໍ້ມູນທີ່ກ່ຽວຂ້ອງຖືກຈັດລຽງ, ມີຫນ່ວຍງານຂໍ້ມູນທີ່ມີຂະຫນາດຕັ້ງແຕ່ໃຫຍ່ໄປຫານ້ອຍກວ່າ. ຖານຂໍ້ມູນແມ່ນປະກອບດ້ວຍຕາຕະລາງທີ່ແບ່ງອອກເປັນພະແນກ, ເຊິ່ງໄດ້ຖືກແບ່ງອອກຕື່ມອີກເປັນຖັງ. HiveQL (Hive Query Language) ຖືກນໍາໃຊ້ເພື່ອເຂົ້າເຖິງຂໍ້ມູນ, ເຊິ່ງສາມາດປ່ຽນແປງຫຼືເພີ່ມເຕີມໄດ້. ຂໍ້ມູນຕາຕະລາງແມ່ນ serialized ພາຍໃນແຕ່ລະຖານຂໍ້ມູນ, ແລະແຕ່ລະຕາຕະລາງມີໄດເລກະທໍລີ HDFS ຂອງຕົນເອງ.

ສ້ອມແປ້ງເຄຫາສະຖານ

ຕອນນີ້ພວກເຮົາຈະເວົ້າກ່ຽວກັບລັກສະນະທີ່ສໍາຄັນທີ່ສຸດຂອງ Hive Architecture. ອົງປະກອບຂອງ Apache Hive ມີດັ່ງນີ້:

Metastore — ມັນຕິດຕາມຂໍ້ມູນກ່ຽວກັບແຕ່ລະຕາຕະລາງ, ເຊັ່ນ: ໂຄງສ້າງແລະສະຖານທີ່ຂອງມັນ. metadata ຂອງພາທິຊັນແມ່ນລວມຢູ່ໃນ Hive. ນີ້ຊ່ວຍໃຫ້ຜູ້ຂັບຂີ່ຕິດຕາມຄວາມຄືບຫນ້າຂອງຊຸດຂໍ້ມູນທີ່ແຕກຕ່າງກັນທີ່ແຜ່ລາມໄປທົ່ວກຸ່ມ. ຂໍ້ມູນຖືກເກັບໄວ້ໃນຮູບແບບ RDBMS ທຳມະດາ. Hive metadata ມີຄວາມສໍາຄັນທີ່ສຸດສໍາລັບຜູ້ຂັບຂີ່ເພື່ອຮັກສາການຕິດຕາມຂໍ້ມູນ. ເຊີບເວີສໍາຮອງຂໍ້ມູນຊໍ້າກັນເປັນປະຈໍາເພື່ອວ່າມັນອາດຈະຖືກຟື້ນຕົວໃນກໍລະນີຂອງການສູນເສຍຂໍ້ມູນ.

Driver - ຖະແຫຼງການ HiveQL ແມ່ນໄດ້ຮັບໂດຍຜູ້ຂັບຂີ່, ເຊິ່ງເຮັດຫນ້າທີ່ເປັນຕົວຄວບຄຸມ. ໂດຍການສ້າງຕັ້ງກອງປະຊຸມ, ຜູ້ຂັບຂີ່ເລີ່ມຕົ້ນການປະຕິບັດຄໍາຖະແຫຼງການ. ມັນຕິດຕາມອາຍຸແລະຄວາມກ້າວຫນ້າຂອງຜູ້ບໍລິຫານ. ໃນລະຫວ່າງການປະຕິບັດຄໍາຖະແຫຼງການ HiveQL, ຄົນຂັບໄດ້ບັນທຶກ metadata ທີ່ຕ້ອງການ. ມັນຍັງເຮັດຫນ້າທີ່ເປັນຂໍ້ມູນຫຼືຈຸດເກັບລວບລວມຜົນໄດ້ຮັບຕາມຂະບວນການຫຼຸດຜ່ອນ.

ຜູ້ລວບລວມຂໍ້ມູນ - ມັນປະຕິບັດການລວບລວມຄໍາຖາມ HiveQL. ດຽວນີ້ການສອບຖາມໄດ້ຖືກປ່ຽນເປັນແຜນການປະຕິບັດ. ວຽກງານແມ່ນໄດ້ລະບຸໄວ້ໃນແຜນການ. ມັນຍັງປະກອບມີຂັ້ນຕອນທີ່ MapReduce ຕ້ອງໄດ້ປະຕິບັດເພື່ອໃຫ້ໄດ້ຜົນທີ່ຖືກແປໂດຍການສອບຖາມ. ຄິວຣີຖືກປ່ຽນເປັນແບບຫຍໍ້ຂອງ Syntax Tree ໂດຍ Hive's compiler (AST). ແປງ AST ໃຫ້ເປັນ Directed Acyclic Graph ຫຼັງຈາກການກວດສອບຄວາມເຂົ້າກັນໄດ້ ແລະ ຄວາມຜິດໃນການລວບລວມເວລາ (DAG).

ທີ່ດີທີ່ສຸດ – ມັນເພີ່ມປະສິດທິພາບ DAG ໂດຍການປະຕິບັດການປ່ຽນແປງທີ່ແຕກຕ່າງກັນໃນແຜນການປະຕິບັດ. ມັນປະສົມປະສານການຫັນປ່ຽນສໍາລັບການປັບປຸງປະສິດທິພາບ, ເຊັ່ນ: ການຫັນເປັນທໍ່ຂອງ Joins ເຂົ້າໄປໃນການເຂົ້າຮ່ວມດຽວ. ເພື່ອປັບປຸງຄວາມໄວ, ຕົວເພີ່ມປະສິດທິພາບອາດຈະແບ່ງກິດຈະກໍາ, ເຊັ່ນ: ນໍາໃຊ້ການຫັນເປັນຂໍ້ມູນກ່ອນທີ່ຈະປະຕິບັດການຫຼຸດຜ່ອນ.

ຜູ້ປະຕິບັດ – ຜູ້ບໍລິຫານຈະເຮັດວຽກງານຕ່າງໆ ເມື່ອການລວບລວມ ແລະ ການປັບແຕ່ງສຳເລັດແລ້ວ. ວຽກດັ່ງກ່າວແມ່ນຖືກທໍ່ໂດຍ Executor.

CLI, UI, ແລະ Thrift Server – ການໂຕ້ຕອບເສັ້ນຄໍາສັ່ງ (CLI) ແມ່ນການໂຕ້ຕອບຜູ້ໃຊ້ທີ່ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ພາຍນອກຕິດຕໍ່ສື່ສານກັບ Hive. ເຊີບເວີ thrift ຂອງ Hive, ຄ້າຍຄືກັນກັບໂປໂຕຄອນ JDBC ຫຼື ODBC, ອະນຸຍາດໃຫ້ລູກຄ້າພາຍນອກຕິດຕໍ່ສື່ສານກັບ Hive ຜ່ານເຄືອຂ່າຍ.

ຄວາມປອດໄພ

Apache Hive ແມ່ນປະສົມປະສານກັບຄວາມປອດໄພຂອງ Hadoop, ເຊິ່ງໃຊ້ Kerberos ສໍາລັບການພິສູດຢືນຢັນເຊິ່ງກັນແລະກັນຂອງເຄື່ອງແມ່ຂ່າຍແລະລູກຄ້າ. HDFS ກໍານົດການອະນຸຍາດສໍາລັບໄຟລ໌ທີ່ສ້າງຂຶ້ນໃຫມ່ໃນ Apache Hive, ຊ່ວຍໃຫ້ທ່ານສາມາດອະນຸມັດໂດຍຜູ້ໃຊ້, ກຸ່ມ, ແລະອື່ນໆ.

ຄຸນນະສົມບັດທີ່ສໍາຄັນ

Hive ຮອງຮັບຕາຕະລາງພາຍນອກ, ເຊິ່ງຊ່ວຍໃຫ້ທ່ານສາມາດປະມວນຜົນຂໍ້ມູນໄດ້ໂດຍບໍ່ຕ້ອງເກັບໄວ້ໃນ HDFS.
ມັນຍັງເຮັດໃຫ້ການແບ່ງສ່ວນຂໍ້ມູນໃນລະດັບຕາຕະລາງເພື່ອເພີ່ມຄວາມໄວ.
Apache Hive ຕອບສະໜອງຄວາມຕ້ອງການໃນການໂຕ້ຕອບລະດັບຕໍ່າຂອງ Hadoop ໄດ້ດີເລີດ.
Hive ເຮັດໃຫ້ການສະຫຼຸບຂໍ້ມູນ, ການສອບຖາມ, ແລະການວິເຄາະງ່າຍຂຶ້ນ.
HiveQL ບໍ່ຕ້ອງການທັກສະການຂຽນໂປຼແກຼມໃດໆ; ຄວາມເຂົ້າໃຈງ່າຍໆຂອງການສອບຖາມ SQL ແມ່ນພຽງພໍ.
ພວກເຮົາຍັງສາມາດໃຊ້ Hive ເພື່ອດໍາເນີນການສອບຖາມສະເພາະສໍາລັບການວິເຄາະຂໍ້ມູນ.
ມັນສາມາດຂະຫຍາຍໄດ້, ຄຸ້ນເຄີຍ, ແລະສາມາດປັບຕົວໄດ້.
HiveQL ບໍ່ຕ້ອງການທັກສະການຂຽນໂປຼແກຼມໃດໆ; ຄວາມເຂົ້າໃຈງ່າຍໆຂອງການສອບຖາມ SQL ແມ່ນພຽງພໍ.

ຜົນປະໂຫຍດ

Apache Hive ອະນຸຍາດໃຫ້ມີການລາຍງານໃນຕອນທ້າຍຂອງມື້, ການປະເມີນຜົນການເຮັດທຸລະກໍາປະຈໍາວັນ, ການຄົ້ນຫາແບບພິເສດ, ແລະການວິເຄາະຂໍ້ມູນ. ຄວາມເຂົ້າໃຈທີ່ສົມບູນແບບສະຫນອງໃຫ້ໂດຍ Apache Hive ໃຫ້ຂໍ້ໄດ້ປຽບດ້ານການແຂ່ງຂັນທີ່ສໍາຄັນແລະເຮັດໃຫ້ມັນງ່າຍຂຶ້ນສໍາລັບທ່ານທີ່ຈະຕອບສະຫນອງຄວາມຕ້ອງການຂອງຕະຫຼາດ.

ນີ້ແມ່ນບາງປະໂຫຍດຂອງການມີຂໍ້ມູນດັ່ງກ່າວໃຫ້ພ້ອມ:

ຄວາມງ່າຍຂອງການການນໍາໃຊ້ - ດ້ວຍພາສາທີ່ຄ້າຍຄືກັບ SQL, ການສອບຖາມຂໍ້ມູນແມ່ນງ່າຍດາຍທີ່ຈະເຂົ້າໃຈ.
ການແຊກຂໍ້ມູນເລັ່ງ — ເນື່ອງຈາກວ່າ Apache Hive ອ່ານ schema ໂດຍບໍ່ມີການກວດສອບປະເພດຂອງຕາຕະລາງຫຼືຄໍານິຍາມຂອງ schema, ຂໍ້ມູນບໍ່ຈໍາເປັນຕ້ອງອ່ານ, parsed, ແລະ serialized ກັບແຜ່ນຢູ່ໃນຮູບແບບພາຍໃນຂອງຖານຂໍ້ມູນ. ໃນທາງກົງກັນຂ້າມ, ໃນຖານຂໍ້ມູນທໍາມະດາ, ຂໍ້ມູນຕ້ອງໄດ້ຮັບການກວດສອບແຕ່ລະຄັ້ງທີ່ມັນຖືກເພີ່ມ.
ຄວາມສາມາດຂະຫຍາຍຕົວທີ່ດີເລີດ, ຄວາມຢືດຢຸ່ນ, ແລະປະສິດທິຜົນຄ່າໃຊ້ຈ່າຍ - ເນື່ອງຈາກວ່າຂໍ້ມູນຖືກເກັບໄວ້ໃນ HDFS, Apache Hive ສາມາດເກັບຂໍ້ມູນ 100s petabytes, ເຮັດໃຫ້ມັນເປັນທາງເລືອກທີ່ສາມາດຂະຫຍາຍໄດ້ຫຼາຍກ່ວາຖານຂໍ້ມູນທົ່ວໄປ. Apache Hive, ເປັນບໍລິການ Hadoop ທີ່ອີງໃສ່ຄລາວ, ອະນຸຍາດໃຫ້ລູກຄ້າສາມາດຫມຸນຂຶ້ນແລະລົງເຊີບເວີສະເໝືອນຈິງເພື່ອຕອບສະໜອງການປ່ຽນວຽກ.
ຄວາມສາມາດເຮັດວຽກຢ່າງກວ້າງຂວາງ - ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ອາດຈະຈັດການໄດ້ເຖິງ 100,000 ຄໍາຖາມຕໍ່ຊົ່ວໂມງ.

ຂໍ້ຈໍາກັດ

ໂດຍທົ່ວໄປ, Apache Hive queries ມີການ latency ສູງຫຼາຍ.
ການສະຫນັບສະຫນູນ subquery ແມ່ນຈໍາກັດ.
ການສອບຖາມແບບສົດໆ ແລະການປ່ຽນແປງລະດັບແຖວບໍ່ມີຢູ່ໃນ Apache Hive.
ບໍ່ມີການສະຫນັບສະຫນູນສໍາລັບການທັດສະນະເປັນເອກະສານ.
ໃນຮັງ, ການປັບປຸງແລະລຶບການດໍາເນີນການແມ່ນບໍ່ສະຫນັບສະຫນູນ.
ບໍ່ມີຈຸດປະສົງສໍາລັບ OLTP (ຂະບວນການຫັນປ່ຽນອອນໄລນ໌).

ເລີ່ມຕົ້ນກັບ Apache Hive

Apache Hive ເປັນຄູ່ຮ່ວມງານຂອງ Hadoop ທີ່ເຂັ້ມແຂງທີ່ຊ່ວຍງ່າຍແລະປັບປຸງຂະບວນການເຮັດວຽກຂອງທ່ານ. ເພື່ອໃຫ້ໄດ້ປະໂຫຍດສູງສຸດຈາກ Apache Hive, ການເຊື່ອມໂຍງແບບບໍ່ມີຮອຍຕໍ່ແມ່ນເປັນສິ່ງຈໍາເປັນ. ຂັ້ນຕອນທໍາອິດແມ່ນເພື່ອໄປ ເວັບໄຊທ໌.

1. ການຕິດຕັ້ງ Hive ຈາກການປ່ອຍຄວາມຫມັ້ນຄົງ

ເລີ່ມຕົ້ນໂດຍການດາວໂຫຼດການປ່ອຍຄວາມຫມັ້ນຄົງຫຼ້າສຸດຂອງ Hive ຈາກຫນຶ່ງໃນບ່ອນແລກປ່ຽນຄວາມດາວໂຫຼດ Apache (ເບິ່ງ Hive ປ່ອຍ). ຫຼັງຈາກນັ້ນ, tarball ຕ້ອງໄດ້ຮັບການ unpacked. ນີ້ຈະສ້າງໂຟເດີຍ່ອຍທີ່ເອີ້ນວ່າ hive-xyz (ບ່ອນທີ່ xyz ແມ່ນຕົວເລກການປ່ອຍ):

ຕັ້ງຄ່າຕົວແປສະພາບແວດລ້ອມ HIVE_HOME ເພື່ອຊີ້ໄປຫາໄດເລກະທໍລີການຕິດຕັ້ງ:

2 1

ສຸດທ້າຍ, ເພີ່ມ $HIVE_HOME/bin ໃສ່ຂອງທ່ານ PATH:

2. ແລ່ນ Hive

Hive ໃຊ້ Hadoop, ດັ່ງນັ້ນ:

ທ່ານຕ້ອງມີ Hadoop ໃນເສັ້ນທາງຂອງທ່ານ OR

3. ການດໍາເນີນງານ DLL

ການສ້າງຕາຕະລາງ Hive

ສ້າງຕາຕະລາງທີ່ມີຊື່ວ່າ pokes ທີ່ມີສອງຖັນ, ອັນທໍາອິດແມ່ນຈໍານວນເຕັມແລະທີສອງແມ່ນສະຕຣິງ.

ຊອກຫາຜ່ານຕາຕະລາງ

ລາຍຊື່ຕາຕະລາງທັງຫມົດ

ການປ່ຽນແປງແລະວາງຕາຕະລາງ

ສາມາດປ່ຽນຊື່ຕາຕະລາງໄດ້ ແລະສາມາດເພີ່ມ ຫຼືປ່ຽນຖັນໄດ້:

ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າ REPLACE COLUMNS ແທນຖັນທີ່ມີຢູ່ທັງຫມົດໃນຂະນະທີ່ພຽງແຕ່ປ່ຽນໂຄງສ້າງຂອງຕາຕະລາງເທົ່ານັ້ນແລະບໍ່ແມ່ນຂໍ້ມູນ. ຕ້ອງໃຊ້ SerDe ພື້ນເມືອງຢູ່ໃນຕາຕະລາງ. ແທນທີ່ຖັນຍັງສາມາດຖືກໃຊ້ເພື່ອເອົາຖັນອອກຈາກໂຄງຮ່າງຂອງຕາຕະລາງ:

ວາງຕາຕະລາງ

ມີຫຼາຍການດໍາເນີນງານເພີ່ມເຕີມແລະຄຸນນະສົມບັດໃນ Apache Hive ທີ່ທ່ານອາດຈະຮຽນຮູ້ກ່ຽວກັບໂດຍການຢ້ຽມຢາມເວັບໄຊທ໌ຢ່າງເປັນທາງການ.

ສະຫຼຸບ

Hive ຄໍານິຍາມແມ່ນການໂຕ້ຕອບໂຄງການຂໍ້ມູນສໍາລັບການສອບຖາມແລະການວິເຄາະສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ສ້າງຂຶ້ນຢູ່ເທິງສຸດຂອງ Apache Hadoop. ຜູ້ຊ່ຽວຊານເລືອກມັນຫຼາຍກວ່າບັນດາໂຄງການ, ເຄື່ອງມື, ແລະຊອບແວອື່ນໆນັບຕັ້ງແຕ່ມັນໄດ້ຖືກອອກແບບສ່ວນໃຫຍ່ສໍາລັບ Hive ຂໍ້ມູນຢ່າງກວ້າງຂວາງແລະງ່າຍດາຍທີ່ຈະນໍາໃຊ້.

ຫວັງວ່າການສອນນີ້ຊ່ວຍໃຫ້ທ່ານເລີ່ມຕົ້ນດ້ວຍ Apache Hive ແລະເຮັດໃຫ້ຂະບວນການເຮັດວຽກຂອງທ່ານມີປະສິດທິພາບຫຼາຍຂຶ້ນ. ໃຫ້ພວກເຮົາຮູ້ໃນຄໍາເຫັນ.

Apache Hive - ການສອນແບບເຈາະເລິກ

Apache Hadoop