ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]
ബിസിനസ്സിൽ വ്യാപകമായി ഉപയോഗിക്കുന്ന ബിഗ് ഡാറ്റ അനലിറ്റിക്സ് ടൂളാണ് ഹൈവ്, നിങ്ങൾ ബിഗ് ഡാറ്റയിൽ പുതിയ ആളാണെങ്കിൽ ആരംഭിക്കാനുള്ള മികച്ച സ്ഥലമാണിത്. ഈ അപ്പാച്ചെ ഹൈവ് പാഠം അപ്പാച്ചെ ഹൈവിന്റെ അടിസ്ഥാനകാര്യങ്ങളിലൂടെ കടന്നുപോകുന്നു, എന്തുകൊണ്ട് ഒരു കൂട് ആവശ്യമാണ്, അതിന്റെ സവിശേഷതകൾ, നിങ്ങൾ അറിഞ്ഞിരിക്കേണ്ട മറ്റെല്ലാം.
അപ്പാച്ചെ ഹൈവ് നിർമ്മിച്ചിരിക്കുന്ന ഹഡൂപ്പ് ചട്ടക്കൂട് നമുക്ക് ആദ്യം മനസ്സിലാക്കാം.
അപ്പാച്ചെ ഹദൂപ്
അപ്പാച്ചെ ഹഡൂപ്പ് ഒരു സൗജന്യമാണ് ഓപ്പൺ സോഴ്സ് ജിഗാബൈറ്റുകൾ മുതൽ പെറ്റാബൈറ്റുകൾ വരെയുള്ള വലുപ്പത്തിലുള്ള വലിയ ഡാറ്റാസെറ്റുകൾ സംഭരിക്കുന്നതിനും പ്രോസസ്സ് ചെയ്യുന്നതിനുമുള്ള പ്ലാറ്റ്ഫോം. ഡാറ്റ സംഭരിക്കാനും വിശകലനം ചെയ്യാനും ഒരു വലിയ കമ്പ്യൂട്ടർ ആവശ്യപ്പെടുന്നതിനുപകരം, സമാന്തരമായി വലിയ ഡാറ്റാസെറ്റുകൾ വിശകലനം ചെയ്യാൻ നിരവധി കമ്പ്യൂട്ടറുകളെ ക്ലസ്റ്ററിംഗിനെ ഹഡൂപ്പ് അനുവദിക്കുന്നു.
MapReduce, Hadoop Distributed File System എന്നിവ രണ്ട് ഘടകങ്ങളാണ്:
- മാപ്പ് റിഡ്യൂസ് - MapReduce എന്നത് കമ്മോഡിറ്റി ഹാർഡ്വെയർ ക്ലസ്റ്ററുകളിൽ സംഘടിതവും അർദ്ധ ഘടനാപരമായതും ഘടനാരഹിതവുമായ ഡാറ്റയുടെ വലിയ അളവുകൾ കൈകാര്യം ചെയ്യുന്നതിനുള്ള ഒരു സമാന്തര പ്രോഗ്രാമിംഗ് സാങ്കേതികതയാണ്.
- എച്ച്ഡിഎഫ്എസ് – HDFS (Hadoop Distributed File System) ഡാറ്റ സംഭരിക്കുകയും പ്രോസസ്സ് ചെയ്യുകയും ചെയ്യുന്ന ഒരു ഹഡൂപ്പ് ഫ്രെയിംവർക്ക് ഘടകമാണ്. സ്റ്റാൻഡേർഡ് ഹാർഡ്വെയറിൽ പ്രവർത്തിക്കുന്ന ഒരു തെറ്റ്-സഹിഷ്ണുതയുള്ള ഫയൽ സിസ്റ്റമാണിത്
ഹഡൂപ്പ് മൊഡ്യൂളുകളെ സഹായിക്കാൻ സ്കൂപ്പ്, പിഗ്, ഹൈവ് എന്നിവയുൾപ്പെടെ ഹഡൂപ്പ് ആവാസവ്യവസ്ഥയിലെ വിവിധ ഉപപദ്ധതികൾ (ടൂളുകൾ) ഉപയോഗിക്കുന്നു.
- കൂട് - MapReduce കണക്കുകൂട്ടലുകൾ നടത്തുന്ന SQL-ശൈലി സ്ക്രിപ്റ്റുകൾ എഴുതുന്നതിനുള്ള ഒരു ചട്ടക്കൂടാണ് ഹൈവ്.
- പന്നി - MapReduce പ്രക്രിയകൾക്കായി ഒരു സ്ക്രിപ്റ്റ് സൃഷ്ടിക്കാൻ ഉപയോഗിച്ചേക്കാവുന്ന ഒരു പ്രൊസീജറൽ പ്രോഗ്രാമിംഗ് ഭാഷയാണ് പിഗ്.
- സ്കൂപ്പ് - HDFS-നും RDBMS-നും ഇടയിൽ ഡാറ്റ ഇറക്കുമതി ചെയ്യുന്നതിനും കയറ്റുമതി ചെയ്യുന്നതിനുമുള്ള ഒരു ഉപകരണമാണ് Sqoop.
എന്താണ് അപ്പാച്ചെ കൂട്?
അപ്പാച്ചെ ഹൈവ് ഒരു ഓപ്പൺ സോഴ്സാണ് ഡാറ്റ വെയർഹൗസ് Apache Hadoop Distributed File System (HDFS) അല്ലെങ്കിൽ Apache HBase പോലുള്ള മറ്റ് ഡാറ്റ സ്റ്റോറേജ് സിസ്റ്റങ്ങളിൽ നേരിട്ട് സംഭരിച്ചിരിക്കുന്ന വലിയ ഡാറ്റാ സെറ്റുകൾ വായിക്കുന്നതിനും എഴുതുന്നതിനും കൈകാര്യം ചെയ്യുന്നതിനുമുള്ള പ്രോഗ്രാം.
സാധാരണ SQL പ്രസ്താവനകളുമായി താരതമ്യപ്പെടുത്താവുന്ന ഡാറ്റാ അന്വേഷണത്തിനും വിശകലനത്തിനുമായി ഹൈവ് ക്വറി ലാംഗ്വേജ് (HQL) പ്രസ്താവനകൾ സൃഷ്ടിക്കാൻ SQL ഡവലപ്പർമാർ Hive ഉപയോഗിച്ചേക്കാം. നീണ്ട ജാവ കോഡ് പഠിക്കേണ്ടതും എഴുതേണ്ടതും ഒഴിവാക്കി MapReduce പ്രോഗ്രാമിംഗ് എളുപ്പമാക്കുന്നതിനാണ് ഇത് സൃഷ്ടിച്ചത്. പകരം, നിങ്ങൾക്ക് HQL-ൽ നിങ്ങളുടെ ചോദ്യങ്ങൾ എഴുതാം, കൂടാതെ Hive മാപ്പ് നിർമ്മിക്കുകയും നിങ്ങൾക്കുള്ള പ്രവർത്തനങ്ങൾ കുറയ്ക്കുകയും ചെയ്യും.
അപ്പാച്ചെ ഹൈവിന്റെ എസ്ക്യുഎൽ പോലുള്ള ഇന്റർഫേസ് അഡ്-ഹോക്ക് തിരയലുകൾ നടത്തുന്നതിനും ഹഡൂപ്പ് ഡാറ്റ സംഗ്രഹിക്കുന്നതിനും വിശകലനം ചെയ്യുന്നതിനുമുള്ള ഗോൾഡ് സ്റ്റാൻഡേർഡായി മാറിയിരിക്കുന്നു. ക്ലൗഡിൽ ഉൾപ്പെടുത്തുമ്പോൾ കമ്പ്യൂട്ടിംഗ് നെറ്റ്വർക്കുകൾ, ഈ പരിഹാരം പ്രത്യേകിച്ച് ചെലവ് കുറഞ്ഞതും അളക്കാവുന്നതുമാണ്, അതിനാലാണ് നെറ്റ്ഫ്ലിക്സും ആമസോണും ഉൾപ്പെടെയുള്ള നിരവധി സ്ഥാപനങ്ങൾ അപ്പാച്ചെ ഹൈവ് വികസിപ്പിക്കുകയും മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നത്.
ചരിത്രം
ഫെയ്സ്ബുക്കിലായിരുന്ന സമയത്ത് ജോയ്ദീപ് സെൻ ശർമ്മയും ആശിഷ് തുസുവും ചേർന്നാണ് അപ്പാച്ചെ ഹൈവ് സൃഷ്ടിച്ചത്. ഹഡൂപ്പ് പരമാവധി പ്രയോജനപ്പെടുത്തുന്നതിന്, ജാവ മാപ്പ്-കുറയ്ക്കൽ ടാസ്ക്കുകൾ സൃഷ്ടിക്കണമെന്ന് ഇരുവരും തിരിച്ചറിഞ്ഞു. തങ്ങളുടെ അതിവേഗം വികസിക്കുന്ന എഞ്ചിനീയറിംഗ്, അനലിറ്റിക് ടീമുകളെ കമ്പനിയിലുടനീളം ഹഡൂപ്പിനെ പ്രയോജനപ്പെടുത്താൻ ആവശ്യമായ കഴിവുകളെ കുറിച്ച് ബോധവത്കരിക്കാൻ കഴിയില്ലെന്ന് അവർ തിരിച്ചറിഞ്ഞു. എഞ്ചിനീയർമാരും വിശകലന വിദഗ്ധരും SQL ഒരു ഉപയോക്തൃ ഇന്റർഫേസായി ഉപയോഗിച്ചു.
SQL-ന് ഭൂരിഭാഗം അനലിറ്റിക്സ് ആവശ്യങ്ങളും നിറവേറ്റാൻ കഴിയുമെങ്കിലും, ഹഡൂപ്പിന്റെ പ്രോഗ്രാമബിലിറ്റി ഉൾപ്പെടുത്താനും ഡവലപ്പർമാർ ഉദ്ദേശിച്ചിരുന്നു. ഈ രണ്ട് ലക്ഷ്യങ്ങളിൽ നിന്നാണ് അപ്പാച്ചെ ഹൈവ് ഉടലെടുത്തത്: SQL-അധിഷ്ഠിത ഡിക്ലറേറ്റീവ് ഭാഷ, അത് SQL മതിയാകാത്തപ്പോൾ ഡവലപ്പർമാരെ അവരുടെ സ്വന്തം സ്ക്രിപ്റ്റുകളും പ്രോഗ്രാമുകളും കൊണ്ടുവരാൻ പ്രാപ്തമാക്കുന്നു.
ഡാറ്റാധിഷ്ഠിത ഓർഗനൈസേഷനുകളുടെ നിർമ്മാണം എളുപ്പമാക്കുന്നതിന് കമ്പനിയിലെ എല്ലാ ഡാറ്റാസെറ്റുകളെക്കുറിച്ചും കേന്ദ്രീകൃത മെറ്റാഡാറ്റ (ഹഡൂപ്പ് അടിസ്ഥാനമാക്കിയുള്ളത്) കൈവശം വയ്ക്കുന്നതിനും ഇത് വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.
അപ്പാച്ചെ ഹൈവ് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?
ചുരുക്കത്തിൽ, HiveQL (SQL പോലെയുള്ള) ഭാഷയിൽ എഴുതിയ ഒരു ഇൻപുട്ട് പ്രോഗ്രാമിനെ ഒന്നോ അതിലധികമോ Java MapReduce, Tez അല്ലെങ്കിൽ Spark ടാസ്ക്കുകളാക്കി Apache Hive പരിവർത്തനം ചെയ്യുന്നു. (ഈ എക്സിക്യൂഷൻ എഞ്ചിനുകളെല്ലാം Hadoop YARN-ന് അനുയോജ്യമാണ്.) അതിനുശേഷം, Apache Hive, Hadoop Distributed File System HDFS-നായി ഡാറ്റയെ ടേബിളുകളായി ക്രമീകരിക്കുകയും ഉത്തരം ലഭിക്കുന്നതിന് ഒരു ക്ലസ്റ്ററിൽ ചുമതലകൾ നിർവഹിക്കുകയും ചെയ്യുന്നു.
ഡാറ്റ
റിലേഷണൽ ഡാറ്റാബേസിലെ ടേബിളുകൾ ഓർഗനൈസുചെയ്തിരിക്കുന്നതുപോലെ തന്നെ അപ്പാച്ചെ ഹൈവ് ടേബിളുകളും ക്രമീകരിച്ചിരിക്കുന്നു, ഡാറ്റ യൂണിറ്റുകൾ വലുതും ചെറുതുമായ വലുപ്പത്തിൽ. ഡാറ്റാബേസുകൾ ഡിവിഷനുകളായി വിഭജിച്ചിരിക്കുന്ന പട്ടികകൾ കൊണ്ടാണ് നിർമ്മിച്ചിരിക്കുന്നത്, അവ ബക്കറ്റുകളായി തിരിച്ചിരിക്കുന്നു. HiveQL (Hive Query Language) ഡാറ്റ ആക്സസ് ചെയ്യാൻ ഉപയോഗിക്കുന്നു, അത് മാറ്റുകയോ കൂട്ടിച്ചേർക്കുകയോ ചെയ്യാം. ഓരോ ഡാറ്റാബേസിലും ടേബിൾ ഡാറ്റ ക്രമീകരിച്ചിരിക്കുന്നു, ഓരോ ടേബിളിനും അതിന്റേതായ HDFS ഡയറക്ടറി ഉണ്ട്.
വാസ്തുവിദ്യ
ഇനി നമ്മൾ ഹൈവ് ആർക്കിടെക്ചറിന്റെ ഏറ്റവും പ്രധാനപ്പെട്ട വശത്തെക്കുറിച്ച് സംസാരിക്കും. അപ്പാച്ചെ ഹൈവിന്റെ ഘടകങ്ങൾ ഇനിപ്പറയുന്നവയാണ്:
മെറ്റാസ്റ്റോർ - ഓരോ ടേബിളിനെയും കുറിച്ചുള്ള അതിന്റെ ഘടനയും സ്ഥാനവും പോലെയുള്ള വിവരങ്ങൾ ഇത് ട്രാക്ക് ചെയ്യുന്നു. പാർട്ടീഷൻ മെറ്റാഡാറ്റയും ഹൈവിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ക്ലസ്റ്ററിലുടനീളം വ്യാപിച്ചുകിടക്കുന്ന വിവിധ ഡാറ്റാ സെറ്റുകളുടെ പുരോഗതി ട്രാക്ക് ചെയ്യാൻ ഇത് ഡ്രൈവറെ അനുവദിക്കുന്നു. ഡാറ്റ ഒരു പരമ്പരാഗത RDBMS ഫോർമാറ്റിൽ സംഭരിച്ചിരിക്കുന്നു. ഡ്രൈവർക്ക് ഡാറ്റയുടെ ട്രാക്ക് നിലനിർത്തുന്നതിന് ഹൈവ് മെറ്റാഡാറ്റ വളരെ പ്രധാനമാണ്. ബാക്കപ്പ് സെർവർ സ്ഥിരമായി ഡാറ്റ ഡ്യൂപ്ലിക്കേറ്റ് ചെയ്യുന്നു, അതിനാൽ ഡാറ്റ നഷ്ടപ്പെടുമ്പോൾ അത് വീണ്ടെടുക്കാനാകും.
ഡ്രൈവർ - HiveQL പ്രസ്താവനകൾ ഒരു ഡ്രൈവർ സ്വീകരിക്കുന്നു, അത് ഒരു കൺട്രോളറായി പ്രവർത്തിക്കുന്നു. സെഷനുകൾ സ്ഥാപിക്കുന്നതിലൂടെ, ഡ്രൈവർ പ്രസ്താവനയുടെ നിർവ്വഹണം ആരംഭിക്കുന്നു. ഇത് എക്സിക്യൂട്ടീവിന്റെ ആയുസ്സിന്റെയും പുരോഗതിയുടെയും ട്രാക്ക് സൂക്ഷിക്കുന്നു. ഒരു HiveQL പ്രസ്താവന നടപ്പിലാക്കുമ്പോൾ, ആവശ്യമായ മെറ്റാഡാറ്റ ഡ്രൈവർ സംരക്ഷിക്കുന്നു. കുറയ്ക്കൽ പ്രക്രിയയെ തുടർന്നുള്ള ഒരു ഡാറ്റ അല്ലെങ്കിൽ അന്വേഷണ ഫല ശേഖരണ പോയിന്റായി ഇത് പ്രവർത്തിക്കുന്നു.
കംപൈലർ - ഇത് HiveQL അന്വേഷണ സമാഹാരം നടപ്പിലാക്കുന്നു. ചോദ്യം ഇപ്പോൾ ഒരു എക്സിക്യൂഷൻ പ്ലാനിലേക്ക് പരിവർത്തനം ചെയ്തു. ടാസ്ക്കുകൾ പ്ലാനിൽ പട്ടികപ്പെടുത്തിയിട്ടുണ്ട്. ചോദ്യം വിവർത്തനം ചെയ്ത ഫലം ലഭിക്കുന്നതിന് MapReduce സ്വീകരിക്കേണ്ട ഘട്ടങ്ങളും ഇതിൽ ഉൾപ്പെടുന്നു. ഹൈവിന്റെ കംപൈലർ (AST) ചോദ്യം ഒരു അബ്സ്ട്രാക്റ്റ് സിന്റാക്സ് ട്രീ ആയി പരിവർത്തനം ചെയ്യുന്നു. അനുയോജ്യതയും കംപൈൽ-ടൈം പിഴവുകളും (DAG) പരിശോധിച്ചതിന് ശേഷം AST-യെ ഒരു ഡയറക്റ്റഡ് അസൈക്ലിക് ഗ്രാഫിലേക്ക് പരിവർത്തനം ചെയ്യുന്നു.
ഒപ്റ്റിമൈസർ - എക്സിക്യൂഷൻ പ്ലാനിൽ വ്യത്യസ്ത മാറ്റങ്ങൾ വരുത്തി ഇത് DAG ഒപ്റ്റിമൈസ് ചെയ്യുന്നു. ജോയിംഗുകളുടെ പൈപ്പ് ലൈൻ ഒറ്റ ജോയിനാക്കി മാറ്റുന്നത് പോലെയുള്ള മെച്ചപ്പെട്ട കാര്യക്ഷമതയ്ക്കായി ഇത് പരിവർത്തനങ്ങൾ സംയോജിപ്പിക്കുന്നു. വേഗത മെച്ചപ്പെടുത്തുന്നതിന്, റിഡക്ഷൻ ഓപ്പറേഷൻ നടത്തുന്നതിന് മുമ്പ് ഡാറ്റയിലേക്ക് ഒരു പരിവർത്തനം പ്രയോഗിക്കുന്നത് പോലുള്ള പ്രവർത്തനങ്ങൾ ഒപ്റ്റിമൈസർ വിഭജിച്ചേക്കാം.
നിർവ്വഹകൻ - സമാഹരണവും ഒപ്റ്റിമൈസേഷനും പൂർത്തിയാകുമ്പോൾ എക്സിക്യൂട്ടർ ടാസ്ക്കുകൾ പ്രവർത്തിപ്പിക്കുന്നു. എക്സിക്യൂട്ടർ വഴിയാണ് ജോലികൾ പൈപ്പ്ലൈൻ ചെയ്യുന്നത്.
CLI, UI, ത്രിഫ്റ്റ് സെർവർ - കമാൻഡ്-ലൈൻ ഇന്റർഫേസ് (CLI) ഒരു ബാഹ്യ ഉപയോക്താവിനെ ഹൈവുമായി ആശയവിനിമയം നടത്താൻ അനുവദിക്കുന്ന ഒരു ഉപയോക്തൃ ഇന്റർഫേസാണ്. JDBC അല്ലെങ്കിൽ ODBC പ്രോട്ടോക്കോളുകൾക്ക് സമാനമായ ഹൈവിന്റെ ത്രിഫ്റ്റ് സെർവർ, ഒരു നെറ്റ്വർക്ക് വഴി ഹൈവുമായി ആശയവിനിമയം നടത്താൻ ബാഹ്യ ക്ലയന്റുകളെ അനുവദിക്കുന്നു.
സുരക്ഷ
ക്ലയന്റ്-സെർവർ പരസ്പര പ്രാമാണീകരണത്തിനായി കെർബറോസ് ഉപയോഗിക്കുന്ന ഹഡൂപ്പ് സുരക്ഷയുമായി അപ്പാച്ചെ ഹൈവ് സംയോജിപ്പിച്ചിരിക്കുന്നു. അപ്പാച്ചെ ഹൈവിൽ പുതുതായി സൃഷ്ടിച്ച ഫയലുകൾക്കുള്ള അനുമതികൾ HDFS നിർദ്ദേശിക്കുന്നു, ഇത് ഉപയോക്താവും ഗ്രൂപ്പും മറ്റുള്ളവരും അംഗീകരിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു.
പ്രധാന സവിശേഷതകൾ
- HDFS-ൽ ഡാറ്റ സംഭരിക്കാതെ തന്നെ പ്രോസസ്സ് ചെയ്യാൻ നിങ്ങളെ അനുവദിക്കുന്ന ബാഹ്യ പട്ടികകളെ ഹൈവ് പിന്തുണയ്ക്കുന്നു.
- വേഗത വർദ്ധിപ്പിക്കുന്നതിന് ഇത് ടേബിൾ ലെവലിൽ ഡാറ്റ സെഗ്മെന്റേഷനും പ്രാപ്തമാക്കുന്നു.
- അപ്പാച്ചെ ഹൈവ് ഹഡൂപ്പിന്റെ ലോ-ലെവൽ ഇന്റർഫേസ് ആവശ്യകതയെ മികച്ച രീതിയിൽ നിറവേറ്റുന്നു.
- ഹൈവ് ഡാറ്റ സംഗ്രഹം, അന്വേഷണം, വിശകലനം എന്നിവ എളുപ്പമാക്കുന്നു.
- HiveQL-ന് പ്രോഗ്രാമിംഗ് കഴിവുകളൊന്നും ആവശ്യമില്ല; SQL ചോദ്യങ്ങളെക്കുറിച്ച് ലളിതമായി മനസ്സിലാക്കിയാൽ മതി.
- ഡാറ്റ വിശകലനത്തിനായി അഡ്-ഹോക്ക് അന്വേഷണങ്ങൾ നടത്താൻ ഞങ്ങൾക്ക് ഹൈവ് ഉപയോഗിക്കാനും കഴിയും.
- ഇത് അളക്കാവുന്നതും പരിചിതവും അനുയോജ്യവുമാണ്.
- HiveQL-ന് പ്രോഗ്രാമിംഗ് കഴിവുകളൊന്നും ആവശ്യമില്ല; SQL ചോദ്യങ്ങളെക്കുറിച്ച് ലളിതമായി മനസ്സിലാക്കിയാൽ മതി.
ആനുകൂല്യങ്ങൾ
അപ്പാച്ചെ ഹൈവ് ദിവസാവസാന റിപ്പോർട്ടുകൾ, പ്രതിദിന ഇടപാട് വിലയിരുത്തലുകൾ, അഡ്-ഹോക്ക് തിരയലുകൾ, ഡാറ്റ വിശകലനം എന്നിവ അനുവദിക്കുന്നു. അപ്പാച്ചെ ഹൈവ് നൽകുന്ന സമഗ്രമായ സ്ഥിതിവിവരക്കണക്കുകൾ കാര്യമായ മത്സര നേട്ടങ്ങൾ നൽകുകയും വിപണി ആവശ്യങ്ങളോട് പ്രതികരിക്കുന്നത് നിങ്ങൾക്ക് എളുപ്പമാക്കുകയും ചെയ്യുന്നു.
അത്തരം വിവരങ്ങൾ എളുപ്പത്തിൽ ലഭ്യമാകുന്നതിന്റെ ചില നേട്ടങ്ങൾ ഇതാ:
- ഉപയോഗിക്കാന് എളുപ്പം - അതിന്റെ SQL പോലുള്ള ഭാഷ ഉപയോഗിച്ച്, ഡാറ്റ അന്വേഷിക്കുന്നത് മനസ്സിലാക്കാൻ എളുപ്പമാണ്.
- ത്വരിതപ്പെടുത്തിയ ഡാറ്റ ചേർക്കൽ — ടേബിൾ തരമോ സ്കീമ നിർവചനമോ പരിശോധിക്കാതെ തന്നെ അപ്പാച്ചെ ഹൈവ് സ്കീമ വായിക്കുന്നതിനാൽ, ഡാറ്റാബേസിന്റെ ആന്തരിക ഫോർമാറ്റിൽ ഡാറ്റ വായിക്കുകയോ പാഴ്സ് ചെയ്യുകയോ ഡിസ്കിലേക്ക് സീരിയലൈസ് ചെയ്യുകയോ ചെയ്യേണ്ടതില്ല. വിപരീതമായി, ഒരു പരമ്പരാഗത ഡാറ്റാബേസിൽ, ഓരോ തവണ ചേർക്കുമ്പോഴും ഡാറ്റ സാധൂകരിക്കണം.
- മികച്ച സ്കേലബിളിറ്റി, വഴക്കം, ചെലവ്-ഫലപ്രാപ്തി - ഡാറ്റ HDFS-ൽ സംഭരിച്ചിരിക്കുന്നതിനാൽ, Apache Hive-ന് 100 പെറ്റാബൈറ്റ് ഡാറ്റ കൈവശം വയ്ക്കാൻ കഴിയും, ഇത് ഒരു സാധാരണ ഡാറ്റാബേസിനേക്കാൾ കൂടുതൽ അളക്കാവുന്ന ഓപ്ഷനാക്കി മാറ്റുന്നു. അപ്പാച്ചെ ഹൈവ്, ഒരു ക്ലൗഡ് അധിഷ്ഠിത ഹഡൂപ്പ് സേവനമെന്ന നിലയിൽ, മാറിക്കൊണ്ടിരിക്കുന്ന ജോലിഭാരങ്ങൾ നേരിടാൻ വെർച്വൽ സെർവറുകൾ വേഗത്തിൽ സ്പിന്നുചെയ്യാനും ഡൗൺ ചെയ്യാനും ഉപഭോക്താക്കളെ അനുവദിക്കുന്നു.
- വിപുലമായ പ്രവർത്തന ശേഷി - വലിയ ഡാറ്റാസെറ്റുകൾക്ക് മണിക്കൂറിൽ 100,000 ചോദ്യങ്ങൾ വരെ കൈകാര്യം ചെയ്യാം.
പരിമിതികൾ
- പൊതുവേ, അപ്പാച്ചെ ഹൈവ് അന്വേഷണങ്ങൾക്ക് വളരെ ഉയർന്ന ലേറ്റൻസി ഉണ്ട്.
- സബ്ക്വറി പിന്തുണ പരിമിതമാണ്.
- അപ്പാച്ചെ ഹൈവിൽ തത്സമയ അന്വേഷണങ്ങളും റോ ലെവൽ മാറ്റങ്ങളും ലഭ്യമല്ല.
- ഭൗതികമായ കാഴ്ചകൾക്ക് പിന്തുണയില്ല.
- പുഴയിൽ, അപ്ഡേറ്റ്, ഡിലീറ്റ് പ്രവർത്തനങ്ങൾ പിന്തുണയ്ക്കുന്നില്ല.
- OLTP (ഓൺലൈൻ ട്രാൻസിഷണൽ പ്രോസസ്) ഉദ്ദേശിച്ചുള്ളതല്ല.
അപ്പാച്ചെ ഹൈവ് ഉപയോഗിച്ച് ആരംഭിക്കുന്നു
നിങ്ങളുടെ വർക്ക്ഫ്ലോകൾ ലളിതമാക്കുകയും കാര്യക്ഷമമാക്കുകയും ചെയ്യുന്ന ശക്തമായ ഹഡൂപ്പ് പങ്കാളിയാണ് അപ്പാച്ചെ ഹൈവ്. അപ്പാച്ചെ ഹൈവ് പരമാവധി പ്രയോജനപ്പെടുത്തുന്നതിന്, തടസ്സങ്ങളില്ലാത്ത സംയോജനം അത്യാവശ്യമാണ്. എന്നതിലേക്ക് പോകുക എന്നതാണ് ആദ്യപടി വെബ്സൈറ്റ്.
1. സ്റ്റേബിൾ റിലീസിൽ നിന്നുള്ള ഇൻസ്റ്റലേഷൻ ഹൈവ്
അപ്പാച്ചെ ഡൗൺലോഡ് മിററുകളിലൊന്നിൽ നിന്ന് ഹൈവിന്റെ ഏറ്റവും പുതിയ സ്ഥിരതയുള്ള റിലീസ് ഡൗൺലോഡ് ചെയ്തുകൊണ്ട് ആരംഭിക്കുക (കാണുക കൂട് റിലീസ്). അതിനുശേഷം ടാർബോൾ അഴിച്ചുമാറ്റണം. ഇത് hive-xyz എന്ന ഒരു ഉപഫോൾഡർ സൃഷ്ടിക്കും (ഇവിടെ xyz എന്നത് റിലീസ് നമ്പറാണ്):
ഇൻസ്റ്റാളേഷൻ ഡയറക്ടറിയിലേക്ക് പോയിന്റ് ചെയ്യുന്നതിന് പരിസ്ഥിതി വേരിയബിൾ HIVE_HOME സജ്ജമാക്കുക:
അവസാനമായി, നിങ്ങളിലേക്ക് $HIVE_HOME/bin ചേർക്കുക PATH
:
2. കൂട് ഓടുന്നു
ഹൈവ് ഹഡൂപ്പ് ഉപയോഗിക്കുന്നു, അതിനാൽ:
- നിങ്ങളുടെ പാതയിൽ ഹഡൂപ്പ് ഉണ്ടായിരിക്കണം അല്ലെങ്കിൽ
3. DLL പ്രവർത്തനം
കൂട് മേശ സൃഷ്ടിക്കുന്നു
രണ്ട് നിരകളുള്ള പോക്ക്സ് എന്ന പേരിലുള്ള ഒരു പട്ടിക സൃഷ്ടിക്കുന്നു, അതിൽ ആദ്യത്തേത് ഒരു പൂർണ്ണസംഖ്യയും രണ്ടാമത്തേത് ഒരു സ്ട്രിംഗുമാണ്.
പട്ടികകളിലൂടെ ബ്രൗസിംഗ്
എല്ലാ പട്ടികകളും ലിസ്റ്റുചെയ്യുന്നു
ടേബിളുകൾ മാറ്റുന്നതും ഉപേക്ഷിക്കുന്നതും
പട്ടികയുടെ പേരുകൾ മാറ്റാനും കോളങ്ങൾ ചേർക്കാനും മാറ്റിസ്ഥാപിക്കാനും കഴിയും:
പട്ടികയുടെ ഘടന മാറ്റുമ്പോൾ നിലവിലുള്ള എല്ലാ കോളങ്ങളും മാറ്റിസ്ഥാപിക്കുക കോളങ്ങൾ മാറ്റിസ്ഥാപിക്കുന്നു എന്നത് ശ്രദ്ധിക്കേണ്ടതാണ്, ഡാറ്റയല്ല. പട്ടികയിൽ ഒരു നേറ്റീവ് SerDe ഉപയോഗിക്കണം. ഒരു പട്ടികയുടെ സ്കീമയിൽ നിന്ന് നിരകൾ നീക്കം ചെയ്യുന്നതിനും കോളങ്ങൾ മാറ്റിസ്ഥാപിക്കുക:
ഡ്രോപ്പിംഗ് ടേബിളുകൾ
ഔദ്യോഗിക വെബ്സൈറ്റ് സന്ദർശിച്ച് നിങ്ങൾക്ക് പഠിക്കാൻ കഴിയുന്ന അപ്പാച്ചെ ഹൈവിൽ നിരവധി അധിക പ്രവർത്തനങ്ങളും സവിശേഷതകളും ഉണ്ട്.
തീരുമാനം
അപ്പാച്ചെ ഹഡൂപ്പിന് മുകളിൽ നിർമ്മിച്ചിരിക്കുന്ന കൂറ്റൻ ഡാറ്റാസെറ്റുകൾക്കായി അന്വേഷണത്തിനും വിശകലനത്തിനുമുള്ള ഒരു ഡാറ്റാ പ്രോഗ്രാം ഇന്റർഫേസാണ് ഹൈവ് ഡെഫനിഷൻ. പ്രൊഫഷണലുകൾ മറ്റ് പ്രോഗ്രാമുകൾ, ടൂളുകൾ, സോഫ്റ്റ്വെയർ എന്നിവയിൽ നിന്ന് ഇത് തിരഞ്ഞെടുക്കുന്നു, കാരണം ഇത് പ്രധാനമായും ഹൈവ് വിപുലമായ ഡാറ്റയ്ക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നതും ഉപയോഗിക്കാൻ ലളിതവുമാണ്.
അപ്പാച്ചെ ഹൈവ് ഉപയോഗിച്ച് കിക്ക്സ്റ്റാർട്ട് ചെയ്യാനും നിങ്ങളുടെ വർക്ക്ഫ്ലോകൾ കൂടുതൽ കാര്യക്ഷമമാക്കാനും ഈ ട്യൂട്ടോറിയൽ നിങ്ങളെ സഹായിക്കുമെന്ന് പ്രതീക്ഷിക്കുന്നു. അഭിപ്രായങ്ങളിൽ ഞങ്ങളെ അറിയിക്കുക.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക