Хиве је алатка за аналитику великих података која се широко користи у пословању и то је фантастично место за почетак ако сте нови у великим подацима. Ова лекција Апацхе Хиве пролази кроз основе Апацхе Хиве, зашто је кошница неопходна, њене карактеристике и све остало што бисте требали знати.
Хајде да прво разумемо Хадооп оквир на коме је изграђен Апацхе Хиве.
Апацхе Хадооп
Апацхе Хадооп је бесплатан и опен соурце платформа за складиштење и обраду великих скупова података величине од гигабајта до петабајта. Хадооп омогућава груписање бројних рачунара за паралелну анализу огромних скупова података, уместо да захтева један велики рачунар за складиштење и анализу података.
МапРедуце и Хадооп дистрибуирани систем датотека су две компоненте:
- Карта смањити – МапРедуце је техника паралелног програмирања за руковање огромним количинама организованих, полуструктурираних и неструктурираних података о кластерима робног хардвера.
- ХДФС – ХДФС (Хадооп Дистрибутед Филе Систем) је компонента Хадооп оквира која чува и обрађује податке. То је систем датотека отпоран на грешке који ради на стандардном хардверу
Различити под-пројекти (алати) у Хадооп екосистему, укључујући Скооп, Пиг и Хиве, користе се за помоћ Хадооп модулима.
- Кошница – Хиве је оквир за писање скрипти у СКЛ стилу које изводе МапРедуце прорачуне.
- Свиња – Пиг је процедурални програмски језик који се може користити за креирање скрипте за МапРедуце процесе.
- Скооп – Скооп је алатка за увоз и извоз података између ХДФС-а и РДБМС-а.
Шта је Апацхе Хиве?
Апацхе Хиве је опен-соурце складиште података програм за читање, писање и управљање огромним скуповима података ускладиштених директно у Апацхе Хадооп Дистрибутед Филе Систем (ХДФС) или другим системима за складиштење података као што је Апацхе ХБасе.
СКЛ програмери могу да користе Хиве за креирање исказа Хиве Куери Лангуаге (ХКЛ) за упите и анализу података који су упоредиви са редовним СКЛ изразима. Направљен је да олакша МапРедуце програмирање тако што елиминише потребу за учењем и писањем дугог Јава кода. Уместо тога, можете писати своје упите у ХКЛ-у, а Хиве ће направити мапу и смањити функције за вас.
Интерфејс Апацхе Хиве сличан СКЛ-у постао је златни стандард за обављање ад хоц претрага, сумирања и анализе Хадооп података. Када је укључен у облак рачунарске мреже, ово решење је посебно исплативо и скалабилно, због чега многе компаније, укључујући Нетфлик и Амазон, настављају да развијају и побољшавају Апацхе Хиве.
историја
Током свог времена на Фејсбуку, Јоидееп Сен Сарма и Асхисх Суцхоо су заједно креирали Апацхе Хиве. Обојица су препознали да би морали да направе неке прилично компликоване задатке Јава Мап-Редуце да би извукли максимум из Хадооп-а. Препознали су да неће моћи да образују своје инжењерске и аналитичке тимове који се брзо шире о вештинама које су им потребне да би искористили Хадооп широм компаније. Инжењери и аналитичари су често користили СКЛ као кориснички интерфејс.
Иако би СКЛ могао да задовољи већину аналитичких потреба, програмери су такође намеравали да уграде Хадооп-ову програмибилност. Апацхе Хиве је произашао из ова два циља: декларативног језика заснованог на СКЛ-у који је такође омогућио програмерима да унесу сопствене скрипте и програме када СКЛ није био довољан.
Такође је развијен да држи централизоване метаподатке (засноване на Хадооп-у) о свим скуповима података у компанији како би се олакшала конструкција организација вођених подацима.
Како функционише Апацхе Хиве?
Укратко, Апацхе Хиве конвертује улазни програм написан у језику ХивеКЛ (сличан СКЛ-у) у један или више задатака Јава МапРедуце, Тез или Спарк. (Сви ови механизами за извршавање су компатибилни са Хадооп ИАРН.) Након тога, Апацхе Хиве распоређује податке у табеле за Хадооп дистрибуирани систем датотека ХДФС) и извршава задатке на кластеру да би добио одговор.
Датум
Табеле Апацхе Хиве су распоређене на исти начин као што су организоване табеле у релационој бази података, са јединицама података у распону величине од већих до мањих. Базе података се састоје од табела које су подељене на поделе, које се даље деле на сегменте. ХивеКЛ (Хиве Куери Лангуаге) се користи за приступ подацима, који се могу мењати или додавати. Подаци табеле су серијализовани унутар сваке базе података, а свака табела има свој ХДФС директоријум.
Архитектура
Сада ћемо причати о најважнијем аспекту архитектуре кошница. Компоненте Апацхе Хиве-а су следеће:
Метасторе — Прати информације о свакој табели, као што су њена структура и локација. Метаподаци партиције су такође укључени у Хиве. Ово омогућава возачу да прати напредак различитих скупова података распоређених по кластеру. Подаци се чувају у конвенционалном РДБМС формату. Метаподаци кошнице су изузетно важни за возача да би могао да прати податке. Бацкуп сервер редовно дуплира податке тако да се могу опоравити у случају губитка података.
возач – ХивеКЛ изјаве прима драјвер, који функционише као контролер. Успостављањем сесија, возач покреће извршење изјаве. Он прати животни век и напредак извршне власти. Током извршавања ХивеКЛ наредбе, драјвер чува потребне метаподатке. Такође служи као тачка прикупљања података или резултата упита након процеса Редуце.
Компајлер – Извршава ХивеКЛ компилацију упита. Упит је сада конвертован у план извршења. Задаци су наведени у плану. Такође укључује кораке које МапРедуце мора предузети да би добио резултат како је преведен упитом. Хиве-ов компајлер (АСТ) конвертује упит у стабло апстрактне синтаксе. Конвертује АСТ у усмерени ациклични граф након провере компатибилности и грешака у времену компајлирања (ДАГ).
Оптимизер – Оптимизује ДАГ тако што врши различите промене на плану извршења. Комбинује трансформације за побољшану ефикасност, као што је претварање цевовода спојева у један спој. Да би побољшао брзину, оптимизатор може да подели активности, као што је примена трансформације на податке пре извршења операције смањења.
Извршилац – Извршитељ покреће задатке када се заврши компилација и оптимизација. Послове поставља Извршилац.
ЦЛИ, кориснички интерфејс и Тхрифт Сервер – Интерфејс командне линије (ЦЛИ) је кориснички интерфејс који омогућава спољном кориснику да комуницира са Хиве-ом. Хиве-ов штедљиви сервер, сличан ЈДБЦ или ОДБЦ протоколима, омогућава спољним клијентима да комуницирају са Хиве-ом преко мреже.
безбедност
Апацхе Хиве је интегрисан са Хадооп безбедношћу, која користи Керберос за међусобну аутентификацију клијент-сервер. ХДФС диктира дозволе за новогенерисане датотеке у Апацхе Хиве-у, омогућавајући вам да одобрите од стране корисника, групе и других.
Кључне карактеристике
- Хиве подржава екстерне табеле, које вам омогућавају да обрађујете податке без складиштења у ХДФС.
- Такође омогућава сегментацију података на нивоу табеле ради повећања брзине.
- Апацхе Хиве одлично испуњава потребе за интерфејсом ниског нивоа Хадооп-а.
- Хиве олакшава сумирање података, постављање упита и анализу.
- ХивеКЛ не захтева никакве вештине програмирања; довољно је једноставно разумевање СКЛ упита.
- Такође можемо да користимо Хиве за обављање ад-хоц упита за анализу података.
- Скалабилан је, познат и прилагодљив.
- ХивеКЛ не захтева никакве вештине програмирања; довољно је једноставно разумевање СКЛ упита.
Предности
Апацхе Хиве омогућава извештаје на крају дана, дневне процене трансакција, ад-хоц претраге и анализу података. Свеобухватни увиди које пружа Апацхе Хиве дају значајне конкурентске предности и олакшавају вам да одговорите на захтеве тржишта.
Ево неких од предности доступности таквих информација:
- Једноставност коришћења – Са језиком сличним СКЛ-у, испитивање података је једноставно за разумевање.
- Убрзано уметање података — Пошто Апацхе Хиве чита шему без провере типа табеле или дефиниције шеме, подаци не морају да се читају, рашчлањују и серијализирају на диск у интерном формату базе података. Насупрот томе, у конвенционалној бази података, подаци морају бити валидирани сваки пут када се додају.
- Врхунска скалабилност, флексибилност и исплативост – Пошто се подаци чувају у ХДФС-у, Апацхе Хиве може да држи 100 петабајта података, што га чини далеко скалабилнијом опцијом од типичне базе података. Апацхе Хиве, као услуга Хадооп заснована на облаку, омогућава корисницима да брзо окрећу виртуелне сервере нагоре и надоле како би испунили променљива оптерећења.
- Велики радни капацитет – Велики скупови података могу да обрађују до 100,000 упита на сат.
Ограничења
- Генерално, упити Апацхе Хиве-а имају веома велико кашњење.
- Подршка подупита је ограничена.
- Упити у реалном времену и промене на нивоу реда нису доступни у Апацхе Хиве-у.
- Нема подршке за материјализоване погледе.
- У кошници, акције ажурирања и брисања нису подржане.
- Није намењено за ОЛТП (онлајн прелазни процес).
Почетак рада са Апацхе Хиве-ом
Апацхе Хиве је снажан Хадооп партнер који поједностављује и поједностављује ваше радне токове. Да бисте извукли максимум из Апацхе Хиве-а, неопходна је беспрекорна интеграција. Први корак је да одете до .
1. Инсталациони Хиве из стабилног издања
Започните преузимањем најновијег стабилног издања Хиве-а са једног од Апацхе огледала за преузимање (погледајте Хиве Релеасес). Тарбалл се тада мора распаковати. Ово ће креирати потфасциклу под називом хиве-киз (где је киз број издања):
Подесите променљиву окружења ХИВЕ_ХОМЕ да указује на инсталациони директоријум:
На крају, додајте $ХИВЕ_ХОМЕ/бин у свој PATH
:
2. Руннинг Хиве
Хиве користи Хадооп, тако да:
- морате имати Хадооп на свом путу ИЛИ
3. ДЛЛ рад
Креирање табеле кошница
генерише табелу под називом покес са две колоне, од којих је прва цео број, а друга стринг.
Прегледавање табела
Навођење свих табела
Измена и испуштање табела
Имена табела се могу мењати и колоне се могу додати или заменити:
Вреди напоменути да РЕПЛАЦЕ ЦОЛУМНС замењује све постојеће колоне док мења само структуру табеле, а не податке. У табели се мора користити изворни СерДе. РЕПЛАЦЕ ЦОЛУМНС се такође може користити за уклањање колона из шеме табеле:
Дроппинг Таблес
Постоји много додатних операција и функција у Апацхе Хиве-у о којима можете сазнати ако посетите званичну веб локацију.
Zakljucak
Дефиниција кошнице је интерфејс програма података за упите и анализу за огромне скупове података који су изграђени на врху Апацхе Хадооп-а. Професионалци га бирају у односу на друге програме, алате и софтвер јер је углавном дизајниран за Хиве обимне податке и једноставан је за употребу.
Надамо се да ће вам овај водич помоћи да покренете Апацхе Хиве и учините своје радне токове ефикаснијим. Јавите нам у коментарима.
Ostavite komentar