பொருளடக்கம்[மறை][காட்டு]
நிறுவனங்கள் முன்னெப்போதையும் விட அதிகமான தரவைக் கைப்பற்றுகின்றன, ஏனெனில் முக்கியமான வணிக முடிவுகளைத் தெரிவிக்கவும், தயாரிப்பு சலுகைகளை மேம்படுத்தவும் மற்றும் சிறந்த வாடிக்கையாளர் சேவையை வழங்கவும் அவை அதிகளவில் நம்பியுள்ளன.
அதிவேக விகிதத்தில் உருவாக்கப்பட்ட தரவின் அளவுடன், அளவிடுதல், நம்பகத்தன்மை மற்றும் கிடைக்கும் தன்மை உள்ளிட்ட தரவு செயலாக்கம் மற்றும் பகுப்பாய்வுகளுக்கு கிளவுட் பல நன்மைகளை வழங்குகிறது.
கிளவுட் சுற்றுச்சூழல் அமைப்பில், தரவு செயலாக்கம் மற்றும் பகுப்பாய்வுக்கான பல கருவிகள் மற்றும் தொழில்நுட்பங்கள் உள்ளன. தரவுக் கிடங்குகள் மற்றும் தரவு ஏரிகள் ஆகிய இரண்டு வகையான பெரிய தரவு சேமிப்பக கட்டமைப்புகள் அடிக்கடி பயன்படுத்தப்படுகின்றன.
தரவு ஏரியைப் பயன்படுத்துவது குறைவான கவர்ச்சிகரமானதாக இருந்தாலும், மாடல் மற்றும் தரவை இன்னும் தொடர்புடையதாக இருக்கும்போது வினவ முடியாது, தரவு சேமிப்பகத்தை ஸ்ட்ரீமிங் செய்ய தரவுக் கிடங்கைப் பயன்படுத்துவது வீணானது.
Wஎந்த வகையான கிளவுட் கட்டமைப்பை நாம் தேர்வு செய்கிறோம்?
டேட்டா லேக்ஹவுஸிற்கான புதிய கருத்துகளை நாம் பரிசீலிக்க வேண்டுமா அல்லது கிடங்கின் கட்டுப்பாடுகள் அல்லது ஏரியின் கட்டுப்பாடுகளில் திருப்தி அடைய வேண்டுமா?
"டேட்டா லேக்ஹவுஸ்" எனப்படும் ஒரு புதிய தரவு சேமிப்பக கட்டமைப்பு, தரவுக் கிடங்குகளின் தரவு மேலாண்மையுடன் தரவு ஏரிகளின் தகவமைப்புத் திறனை ஒருங்கிணைக்கிறது.
வணிக நுண்ணறிவு (BI), தரவுப் பகுப்பாய்வு மற்றும் இயந்திர கற்றல் (ML) பணிச்சுமை, உங்கள் நிறுவனத்தின் தேவைகளைப் பொறுத்து.
இந்த இடுகையில், டேட்டா வேர்ஹவுஸ், டேட்டா லேக் மற்றும் டேட்டா லேக்ஹவுஸ் ஆகியவற்றை, நன்மைகள், வரம்புகள் மற்றும் நன்மை தீமைகள் ஆகியவற்றைக் கூர்ந்து கவனிப்போம். ஆரம்பித்துவிடுவோம்.
தரவுக் கிடங்கு என்றால் என்ன?
தரவுக் கிடங்கு என்பது ஒரு மையப்படுத்தப்பட்ட தரவுக் களஞ்சியமாகும், இது பல ஆதாரங்களில் இருந்து மகத்தான அளவு தரவுகளை வைத்திருக்க ஒரு நிறுவனத்தால் பயன்படுத்தப்படுகிறது. ஒரு தரவுக் கிடங்கு ஒரு நிறுவனத்தின் "தரவு உண்மையின்" ஒற்றை ஆதாரமாகச் செயல்படுகிறது மற்றும் அறிக்கையிடல் மற்றும் வணிகப் பகுப்பாய்வுகளுக்கு அவசியமானது.
பொதுவாக, தரவுக் கிடங்குகள் வரலாற்றுத் தரவைச் சேமிப்பதற்காக, பயன்பாடு, வணிகம் மற்றும் பரிவர்த்தனை தரவு போன்ற பல மூலங்களிலிருந்து தொடர்புடைய தரவுத் தொகுப்புகளை இணைக்கின்றன. கிடங்கு அமைப்பில் ஏற்றப்படுவதற்கு முன், தரவு கிடங்குகளில் தரவு மாற்றப்பட்டு சுத்தம் செய்யப்படுகிறது, இதனால் தரவு உண்மையின் ஒற்றை ஆதாரமாகப் பயன்படுத்தப்படும்.
நிறுவனத்தின் அனைத்துப் பகுதிகளிலிருந்தும் வணிக நுண்ணறிவுகளை விரைவாக வழங்கும் திறன் காரணமாக, வணிகங்கள் தரவுக் கிடங்குகளில் முதலீடு செய்கின்றன. BI கருவிகள், SQL கிளையண்டுகள் மற்றும் பிற குறைவான அதிநவீன (அதாவது, தரவு அல்லாத அறிவியல்) பகுப்பாய்வு தீர்வுகளைப் பயன்படுத்துவதன் மூலம், வணிக ஆய்வாளர்கள், தரவு பொறியாளர்கள் மற்றும் முடிவெடுப்பவர்கள் தரவுக் கிடங்குகளிலிருந்து தரவை அணுகலாம்.
தொடர்ந்து அதிகரித்து வரும் தரவுகளின் அளவுடன் ஒரு கிடங்கை பராமரிப்பது விலை உயர்ந்தது, மேலும் தரவுக் கிடங்கால் மூல அல்லது கட்டமைக்கப்படாத தரவைக் கையாள முடியாது. கூடுதலாக, இயந்திர கற்றல் அல்லது முன்கணிப்பு மாதிரியாக்கம் போன்ற அதிநவீன தரவு பகுப்பாய்வு நுட்பங்களுக்கு இது சிறந்த வழி அல்ல.
எனவே, ஒரு தரவுக் கிடங்கு, விரைவான வினவல் பதில்களையும் உயர் தரத்தின் தரவையும் வழங்குகிறது. Google Big Query, Amazon Redshift, Azure SQL Data warehouse மற்றும் Snowflake ஆகியவை தரவுக் கிடங்குகளுக்குக் கிடைக்கும் கிளவுட் சேவைகள்.
தரவுக் கிடங்கின் நன்மைகள்
- வணிக நுண்ணறிவு மற்றும் தரவு பகுப்பாய்வு பணிச்சுமைகளின் செயல்திறன் மற்றும் வேகத்தை அதிகரித்தல்: தரவுக் கிடங்குகள் தரவுத் தயாரிப்பு மற்றும் பகுப்பாய்விற்குத் தேவைப்படும் நேரத்தைக் குறைக்கின்றன. தரவுக் கிடங்கில் உள்ள தரவு நம்பகமானதாகவும் சீரானதாகவும் இருப்பதால், அவை தரவு பகுப்பாய்வு மற்றும் வணிக நுண்ணறிவுக் கருவிகளுடன் எளிதாக இணைக்க முடியும். கூடுதலாக, தரவுக் கிடங்குகள் தரவு சேகரிப்புக்குத் தேவையான நேரத்தைச் சேமித்து, அறிக்கைகள், டாஷ்போர்டுகள் மற்றும் பிற பகுப்பாய்வுத் தேவைகளுக்குத் தரவைப் பயன்படுத்தும் திறனை அணிகளுக்கு வழங்குகிறது.
- தரவின் நிலைத்தன்மை, தரம் மற்றும் தரப்படுத்தலை அதிகரித்தல்: நிறுவனங்கள், பயனர், விற்பனை மற்றும் பரிவர்த்தனை தரவு உட்பட பல்வேறு ஆதாரங்களில் இருந்து தரவைச் சேகரிக்கின்றன. வணிகத் தேவைகளுக்கான தரவை நிறுவனம் நம்பலாம், ஏனெனில் தரவுக் கிடங்கு கார்ப்பரேட் தரவை ஒரு சீரான, தரப்படுத்தப்பட்ட வடிவத்தில் தொகுக்கிறது, இது தரவு உண்மையின் ஒற்றை ஆதாரமாக செயல்பட முடியும்.
- பொதுவாக முடிவெடுப்பதை மேம்படுத்துதல்: சமீபத்திய மற்றும் பழைய தரவு இரண்டிற்கும் ஒரு மையப்படுத்தப்பட்ட ஸ்டோரை வழங்குவதன் மூலம் தரவுக் கிடங்கு சிறந்த முடிவெடுப்பதை எளிதாக்குகிறது. துல்லியமான நுண்ணறிவுக்காக தரவுக் கிடங்குகளில் தரவைச் செயலாக்குவதன் மூலம், முடிவெடுப்பவர்கள் அபாயங்களை மதிப்பிடலாம், வாடிக்கையாளர் தேவைகளைப் புரிந்து கொள்ளலாம் மற்றும் பொருட்கள் மற்றும் சேவைகளை மேம்படுத்தலாம்.
- சிறந்த வணிக நுண்ணறிவை வழங்குதல்: தரவுக் கிடங்கு என்பது பாரிய மூலத் தரவுகளுக்கு இடையே உள்ள இடைவெளியைக் குறைக்கிறது, இது வழக்கமாக வழக்கமாகச் சேகரிக்கப்படும் மற்றும் நுண்ணறிவுகளை வழங்கும் க்யூரேட்டட் தரவு. ஒரு நிறுவனத்தின் தரவு சேமிப்பகத்திற்கான அடித்தளமாக அவை செயல்படுகின்றன, அதன் தரவு பற்றிய சிக்கலான கேள்விகளுக்கு பதிலளிக்கவும், பாதுகாக்கக்கூடிய வணிக முடிவுகளை எடுக்க பதில்களைப் பயன்படுத்தவும் உதவுகிறது.
தரவுக் கிடங்கின் வரம்புகள்
- தரவு நெகிழ்வுத்தன்மை இல்லாமை: தரவுக் கிடங்குகள் கட்டமைக்கப்பட்ட தரவைக் கையாள்வதில் சிறந்து விளங்கினாலும், பதிவு பகுப்பாய்வு, ஸ்ட்ரீமிங் மற்றும் சமூக ஊடகத் தரவு போன்ற அரை-கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவு வடிவங்கள் அவர்களுக்கு சவாலாக இருக்கலாம். இது இயந்திர கற்றல் மற்றும் தொடர்புடைய பயன்பாட்டு நிகழ்வுகளுக்கு தரவுக் கிடங்குகளைப் பரிந்துரைக்கிறது செயற்கை நுண்ணறிவு கடினமான.
- நிறுவ மற்றும் பராமரிக்க விலை அதிகம்: தரவுக் கிடங்குகளை நிறுவுவதற்கும் பராமரிப்பதற்கும் விலை அதிகம். மேலும், தரவுக் கிடங்கு பெரும்பாலும் நிலையானதாக இருக்காது; இது வயதாகிறது மற்றும் அடிக்கடி பராமரிப்பு தேவைப்படுகிறது, இது விலை உயர்ந்தது.
நன்மை
- தரவு கண்டுபிடிக்க, மீட்டெடுக்க மற்றும் வினவ எளிதானது.
- தரவு ஏற்கனவே சுத்தமாக இருக்கும் வரை, SQL தரவு தயாரிப்பது எளிது.
பாதகம்
- நீங்கள் ஒரு பகுப்பாய்வு விற்பனையாளரை மட்டுமே பயன்படுத்த வேண்டிய கட்டாயத்தில் உள்ளீர்கள்.
- கட்டமைக்கப்படாத அல்லது பாயும் தரவை பகுப்பாய்வு செய்து சேமிப்பது மிகவும் விலை உயர்ந்தது.
டேட்டா லேக் என்றால் என்ன?
ஒவ்வொரு வகையான தரவுகளும் தரவு ஏரிகளால் வாக்குறுதியளிக்கப்பட்டு சாத்தியமாக்கப்படுகின்றன. அணுகக்கூடிய விதத்தில் தரவுகளை மையமாக வைத்து வாசிப்பதற்குக் கிடைப்பது நன்மை பயக்கும்.
ஒரு தரவு ஏரி என்பது ஒரு மையப்படுத்தப்பட்ட, மிகவும் தகவமைக்கக்கூடிய சேமிப்பக இடமாகும், அங்கு பெரிய அளவிலான ஒழுங்கமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவுகள் அவற்றின் செயலாக்கப்படாத, மாற்றப்படாத மற்றும் வடிவமைக்கப்படாத வடிவங்களில் வைக்கப்படுகின்றன.
தரவுக் கிடங்குகள், முன்பு "சுத்தம்" செய்யப்பட்ட தொடர்புடைய தரவைச் சேமிக்கும் தரவுக் கிடங்குகளைப் போலன்றி, ஒரு தட்டையான கட்டிடக்கலை மற்றும் அதன் செயலாக்கப்படாத நிலையில் சேமித்து வைக்கப்பட்டுள்ள பொருட்களை தரவு ஏரி பயன்படுத்துகிறது.
தரவு ஏரிகள், தரவுக் கிடங்குகளுக்கு மாறாக, இந்த வடிவத்தில் தரவைக் கையாள்வதில் சிரமம் உள்ளது, அவை மாற்றியமைக்கக்கூடியவை, நம்பகமானவை மற்றும் மலிவு மற்றும் கட்டமைக்கப்படாத தரவுகளிலிருந்து மேம்பட்ட நுண்ணறிவைப் பெற நிறுவனங்களை அனுமதிக்கின்றன.
தரவு ஏரிகளில், தரவு சேகரிப்பின் போது நிறுவப்பட்ட ஸ்கீமா அல்லது தரவைக் காட்டிலும் பகுப்பாய்வு நோக்கங்களுக்காக தரவு பிரித்தெடுக்கப்படுகிறது, ஏற்றப்படுகிறது மற்றும் மாற்றப்படுகிறது (ELT).
IoT சாதனங்களிலிருந்து பல தரவு வகைகளுக்கான தொழில்நுட்பங்களைப் பயன்படுத்துதல், சமூக ஊடகம், மற்றும் ஸ்ட்ரீமிங் தரவு, தரவு ஏரிகள் இயந்திர கற்றல் மற்றும் முன்கணிப்பு பகுப்பாய்வுகளை செயல்படுத்துகின்றன.
கூடுதலாக, மூல தரவை செயலாக்கக்கூடிய தரவு விஞ்ஞானி தரவு ஏரியைப் பயன்படுத்தலாம். மறுபுறம், தரவுக் கிடங்கை வணிகங்கள் பயன்படுத்த எளிதானது. பயனர் விவரக்குறிப்புக்கு இது சரியானது, கணிப்பு பகுப்பாய்வு, இயந்திர கற்றல் மற்றும் பிற பணிகள்.
தரவு ஏரிகள் தரவுக் கிடங்குகளில் பல சிக்கல்களைத் தீர்க்கின்றன என்றாலும், அவற்றின் தரவுத் தரம் மோசமாக உள்ளது மற்றும் அவற்றின் வினவல் வேகம் போதுமானதாக இல்லை. கூடுதலாக, வணிக பயனர்களுக்கு SQL வினவல்களை நடத்த கூடுதல் கருவிகள் தேவை. மோசமாக கட்டமைக்கப்பட்ட தரவு ஏரி தரவு தேக்கத்தில் சிக்கலை சந்திக்கலாம்.
தரவு ஏரியின் நன்மைகள்
- பரந்த அளவிலான இயந்திரக் கற்றல் மற்றும் தரவு அறிவியல் பயன்பாட்டு நிகழ்வுகளுக்கான ஆதரவு தரவு ஏரிகளில் உள்ள தரவைக் கையாள வேறுபட்ட இயந்திரம் மற்றும் ஆழமான கற்றல் வழிமுறைகளைப் பயன்படுத்துவது எளிமையானது, ஏனெனில் தரவு திறந்த, மூல முறையில் சேமிக்கப்படுகிறது.
- தரவு ஏரிகளின் பன்முகத்தன்மை, முன்னமைக்கப்பட்ட திட்டத்திற்கான தேவையின்றி எந்த வடிவத்திலும் அல்லது ஊடகத்திலும் தரவைச் சேமிக்க உங்களை அனுமதிக்கிறது, இது ஒரு பெரிய நன்மையாகும். எதிர்கால தரவு பயன்பாட்டு வழக்குகள் ஆதரிக்கப்படலாம், மேலும் தரவு அதன் அசல் நிலையில் இருந்தால் கூடுதல் தரவு பகுப்பாய்வு செய்யப்படலாம்.
- பல்வேறு சூழல்களில் இரண்டு வகையான தரவுகளையும் சேமிப்பதைத் தவிர்ப்பதற்காக, தரவு ஏரிகள் கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவைக் கொண்டிருக்கலாம். பல்வேறு வகையான நிறுவன தரவுகளை சேமிப்பதற்காக, அவை ஒரே இடத்தை வழங்குகின்றன.
- பாரம்பரிய தரவுக் கிடங்குகளுடன் ஒப்பிடும்போது, தரவு ஏரிகள் விலை குறைவாக உள்ளன, ஏனெனில் அவை விலையில்லா பொருட்கள் வன்பொருள், அதாவது பொருள் சேமிப்பு போன்றவற்றில் வைக்கப்படுகின்றன, இது பெரும்பாலும் ஒரு ஜிகாபைட் சேமிக்கப்படும் குறைந்த விலையில் பயன்படுத்தப்படுகிறது.
தரவு ஏரியின் வரம்புகள்
- தரவு பகுப்பாய்வு மற்றும் வணிக நுண்ணறிவு பயன்பாடு வழக்குகள் மோசமாக மதிப்பெண் பெறுகின்றன: தரவு ஏரிகள் போதுமான அளவில் பராமரிக்கப்படாவிட்டால் அவை ஒழுங்கமைக்கப்படாமல் போகலாம், இது வணிக நுண்ணறிவு மற்றும் பகுப்பாய்வுக் கருவிகளுடன் அவற்றை இணைப்பதை கடினமாக்குகிறது. கூடுதலாக, அறிக்கையிடல் மற்றும் பகுப்பாய்வு பயன்பாடு வழக்குகளில், சீரான பற்றாக்குறை தரவு கட்டமைப்புகள் மற்றும் ACID (அணு, நிலைத்தன்மை, தனிமைப்படுத்தல் மற்றும் ஆயுள்) பரிவர்த்தனை ஆதரவு துணை வினவல் செயல்திறனுக்கு வழிவகுக்கும்.
- தரவு ஏரிகளின் சீரற்ற தன்மை தரவு நம்பகத்தன்மை மற்றும் பாதுகாப்பைச் செயல்படுத்துவதை சாத்தியமற்றதாக்குகிறது, இதன் விளைவாக இரண்டும் இல்லாதது. தரவு ஏரிகள் எந்த தரவுப் படிவத்தையும் கையாள முடியும் என்பதால், முக்கியமான தரவு வகைகளைப் பூர்த்தி செய்ய பொருத்தமான தரவுப் பாதுகாப்பு மற்றும் நிர்வாகத் தரங்களை உருவாக்குவது கடினமாக இருக்கலாம்.
நன்மை
- அனைத்து வகையான தரவுகளுக்கும் மலிவு விலையில் தீர்வுகள்.
- ஒழுங்கமைக்கப்பட்ட மற்றும் அரை-கட்டமைக்கப்பட்ட தரவைக் கையாள முடியும்.
- சிக்கலான தரவு செயலாக்கம் மற்றும் ஸ்ட்ரீமிங்கிற்கு ஏற்றது.
பாதகம்
- அதிநவீன குழாய் அமைக்க வேண்டும்.
- வினவக்கூடியதாக மாற தரவு சிறிது நேரம் கொடுங்கள்.
- தரவு நம்பகத்தன்மை மற்றும் தரத்திற்கு உத்தரவாதம் அளிக்க நேரம் எடுக்கும்.
டேட்டா லேக்ஹவுஸ் என்றால் என்ன?
"டேட்டா லேக்ஹவுஸ்" என்று அழைக்கப்படும் ஒரு புதிய பெரிய-தரவு சேமிப்பக கட்டமைப்பு தரவு ஏரிகள் மற்றும் தரவுக் கிடங்குகளின் சிறந்த அம்சங்களை ஒருங்கிணைக்கிறது. கட்டமைக்கப்பட்ட, அரை-கட்டமைக்கப்பட்ட அல்லது கட்டமைக்கப்படாத உங்கள் எல்லா தரவும், டேட்டா லேக்ஹவுஸால் சாத்தியமான சிறந்த இயந்திர கற்றல், வணிக நுண்ணறிவு மற்றும் ஸ்ட்ரீமிங் திறன்களுடன் ஒரே இடத்தில் சேமிக்கப்படும்.
எல்லா வகையான தரவு ஏரிகளும் பெரும்பாலும் டேட்டா லேக்ஹவுஸ்களுக்கான தொடக்கப் புள்ளியாகும்; அதன் பிறகு, தரவு டெல்டா லேக் வடிவமாக மாற்றப்படுகிறது (தரவு ஏரிகளுக்கு நம்பகத்தன்மையைக் கொண்டுவரும் ஒரு திறந்த மூல சேமிப்பு அடுக்கு).
டெல்டா ஏரிகள் கொண்ட தரவு ஏரிகள் வழக்கமான தரவுக் கிடங்குகளிலிருந்து ACID பரிவர்த்தனை நடைமுறைகளை செயல்படுத்துகின்றன. சாராம்சத்தில், லேக்ஹவுஸ் அமைப்பு, டேட்டா ஏரிகளைப் போலவே, பெரிய அளவிலான தரவை அவற்றின் அசல் வடிவங்களில் பராமரிக்க மலிவான சேமிப்பகத்தைப் பயன்படுத்துகிறது.
ஸ்டோரின் மேல் மெட்டாடேட்டா லேயரைச் சேர்ப்பது தரவுக் கட்டமைப்பை அளிக்கிறது மற்றும் தரவுக் கிடங்குகளில் உள்ளதைப் போன்ற தரவு மேலாண்மைக் கருவிகளை மேம்படுத்துகிறது.
தரவு அறிவியல், இயந்திர கற்றல் மற்றும் வணிக நுண்ணறிவு போன்ற பல்வேறு முன்முயற்சிகளுக்கு ஒரே அமைப்பின் மூலம் அனைத்து நிறுவனத் தரவையும் அணுகுவதை இது பல குழுக்களுக்கு சாத்தியமாக்குகிறது.
டேட்டா லேக்ஹவுஸின் நன்மைகள்
- அதிக அளவிலான பணிச்சுமைகளுக்கான ஆதரவு: அதிநவீன பகுப்பாய்வுகளை எளிதாக்க, டேட்டா லேக்ஹவுஸ்கள் பயனர்களுக்கு மிகவும் பிரபலமான சில வணிக நுண்ணறிவு கருவிகளுக்கு (டேபிள்யூ, பவர்பிஐ) நேரடி அணுகலை வழங்குகின்றன. கூடுதலாக, டேட்டா லேக்ஹவுஸ்கள் APIகள் மற்றும் பைதான்/ஆர் போன்ற இயந்திர கற்றல் கட்டமைப்புகளுடன் திறந்த-தரவு வடிவங்களை (பார்க்வெட் போன்றவை) பயன்படுத்துவதால் தரவு விஞ்ஞானிகள் மற்றும் இயந்திர கற்றல் பொறியாளர்கள் தரவை எளிதாகப் பயன்படுத்தலாம்.
- செலவு-செயல்திறன்: டேட்டா லேக்ஹவுஸ்கள், டேட்டா ஏரிகளின் செலவு குறைந்த சேமிப்பக பண்புகளை செயல்படுத்த மலிவான பொருள் சேமிப்பு தீர்வுகளைப் பயன்படுத்துகின்றன. ஒரு ஒற்றை தீர்வை வழங்குவதன் மூலம், டேட்டா லேக்ஹவுஸ்கள் பல்வேறு தரவு சேமிப்பக அமைப்புகளை நிர்வகிப்பதற்கான செலவுகள் மற்றும் நேரத்தையும் நீக்குகின்றன.
- டேட்டா லேக்ஹவுஸ் வடிவமைப்பு திட்டம் மற்றும் தரவு ஒருமைப்பாட்டை உறுதிசெய்கிறது, இது பயனுள்ள தரவு பாதுகாப்பு மற்றும் நிர்வாக அமைப்புகளை உருவாக்குவதை எளிதாக்குகிறது. எளிமை தரவு பதிப்பு, நிர்வாகம் மற்றும் பாதுகாப்பு.
- டேட்டா லேக்ஹவுஸ்கள் ஒரு ஒற்றை, பல்நோக்கு தரவு சேமிப்பு தளத்தை வழங்குகின்றன, இது அனைத்து நிறுவன தரவு கோரிக்கைகளுக்கும் இடமளிக்கும், இது தரவு நகலெடுப்பைக் குறைக்கிறது. தரவுக் கிடங்கு மற்றும் தரவு ஏரி ஆகிய இரண்டின் நன்மைகள் காரணமாக பெரும்பாலான வணிகங்கள் கலப்புத் தீர்வைத் தேர்வு செய்கின்றன. இந்த மூலோபாயம், இதற்கிடையில், விலையுயர்ந்த தரவு நகலெடுப்பிற்கு வழிவகுக்கும்.
- திறந்த வடிவங்களின் ஆதரவு. திறந்த வடிவங்கள் என்பது பல மென்பொருள் பயன்பாடுகளால் பயன்படுத்தக்கூடிய கோப்பு வகைகளாகும் மற்றும் அவற்றின் விவரக்குறிப்புகள் பொதுவில் கிடைக்கின்றன. அறிக்கைகளின்படி, லேக்ஹவுஸ்கள் Apache Parquet மற்றும் ORC (Optimized Row Columnar) போன்ற பொதுவான கோப்பு வடிவங்களில் தரவைச் சேமிக்கும் திறன் கொண்டவை.
டேட்டா லேக்ஹவுஸின் வரம்புகள்
டேட்டா லேக்ஹவுஸின் மிகப்பெரிய குறைபாடு என்னவென்றால், அது இன்னும் இளம் மற்றும் வளரும் தொழில்நுட்பமாக உள்ளது. இதன் விளைவாக அதன் வாக்குறுதிகளை அது நிறைவேற்றுமா என்பது நிச்சயமற்றது. தரவு லேக்ஹவுஸ்கள் நிறுவப்பட்ட பெரிய தரவு சேமிப்பக அமைப்புகளுடன் போட்டியிடும் முன், அதற்கு பல ஆண்டுகள் ஆகலாம்.
இருப்பினும், நவீன கண்டுபிடிப்புகள் நிகழும் விகிதத்தைப் பொறுத்தவரை, வேறு தரவு சேமிப்பக அமைப்பு இறுதியில் அதை மாற்றாது என்று சொல்வது கடினம்.
நன்மை
- ஒரு இயங்குதளத்தில் எல்லா தரவும் உள்ளது, அதாவது பராமரிக்க குறைவான ஹோஸ்ட்பெயர்கள் உள்ளன.
- அணு, நிலைத்தன்மை, தனிமைப்படுத்தல் மற்றும் கடினத்தன்மை ஆகியவை பாதிக்கப்படாது.
- இது கணிசமாக மலிவு விலையில் உள்ளது.
- ஒரு இயங்குதளத்தில் எல்லா தரவும் உள்ளது, அதாவது பராமரிக்க குறைவான ஹோஸ்ட்பெயர்கள் உள்ளன.
- நிர்வகிக்க எளிதானது மற்றும் எந்த பிரச்சனையும் விரைவாக தீர்க்கும்
- குழாய் அமைப்பதை எளிதாக்குங்கள்
பாதகம்
- அமைக்க சிறிது நேரம் ஆகலாம்.
- நிறுவப்பட்ட சேமிப்பக அமைப்பாக தகுதி பெறுவதற்கு இது மிகவும் இளமையானது மற்றும் மிகவும் தொலைவில் உள்ளது.
டேட்டா கிடங்கு Vs டேட்டா லேக் Vs டேட்டா லேக்ஹவுஸ்
கார்ப்பரேட் நுண்ணறிவு, அறிக்கையிடல் மற்றும் பகுப்பாய்வு பயன்பாடுகளில் தரவுக் கிடங்கு நீண்ட வரலாற்றைக் கொண்டுள்ளது மற்றும் இது முதல் பெரிய தரவு சேமிப்பு தொழில்நுட்பமாகும்.
மறுபுறம், தரவுக் கிடங்குகள் விலை அதிகம் மற்றும் ஸ்ட்ரீமிங் தரவு போன்ற பல்வேறு மற்றும் கட்டமைக்கப்படாத தரவைக் கையாள்வதில் சிக்கல் உள்ளது. இயந்திர கற்றல் மற்றும் தரவு அறிவியல் பணிச்சுமைகளுக்காக, மலிவு சேமிப்பில் பல்வேறு வடிவங்களில் மூலத் தரவை நிர்வகிக்க தரவு ஏரிகள் உருவாக்கப்பட்டன.
தரவு ஏரிகள் கட்டமைக்கப்படாத தரவுகளுடன் பயனுள்ளதாக இருந்தாலும், அவை தரவுக் கிடங்குகளின் ACID பரிவர்த்தனை திறன்களைக் கொண்டிருக்கவில்லை, இது தரவு நிலைத்தன்மை மற்றும் நம்பகத்தன்மைக்கு உத்தரவாதம் அளிப்பது சவாலானது.
"டேட்டா லேக்ஹவுஸ்" என அழைக்கப்படும் புதிய தரவு சேமிப்பக கட்டமைப்பு, தரவுக் கிடங்குகளின் நம்பகத்தன்மை மற்றும் நிலைத்தன்மை மற்றும் தரவு ஏரிகளின் மலிவு மற்றும் பொருந்தக்கூடிய தன்மை ஆகியவற்றை ஒருங்கிணைக்கிறது.
தீர்மானம்
முடிவில், புதிதாக ஒரு டேட்டா லேக்ஹவுஸை உருவாக்குவது கடினமாக இருக்கலாம். மேலும், ஓப்பன் டேட்டா லேக்ஹவுஸ் கட்டமைப்பை இயக்க வடிவமைக்கப்பட்ட தளத்தை நீங்கள் நிச்சயமாகப் பயன்படுத்துவீர்கள்.
எனவே, வாங்குவதற்கு முன், ஒவ்வொரு தளத்தின் பல அம்சங்களையும் செயல்படுத்துவதையும் கவனமாக ஆராயவும். வணிக நுண்ணறிவு மற்றும் தரவு பகுப்பாய்வு பயன்பாட்டு நிகழ்வுகளை மையமாகக் கொண்டு முதிர்ந்த, கட்டமைக்கப்பட்ட தரவுத் தீர்வைத் தேடும் நிறுவனங்கள் தரவுக் கிடங்கைக் கருத்தில் கொள்ளலாம்.
இருப்பினும், தரவு அறிவியலுக்கான ஆற்றல் பணிச்சுமை மற்றும் கட்டமைக்கப்படாத தரவுகளில் இயந்திர கற்றலுக்கு அளவிடக்கூடிய, மலிவு பெரிய தரவு தீர்வைத் தேடும் நிறுவனங்கள் தரவு ஏரிகளைக் கருத்தில் கொள்ள வேண்டும்.
தரவுக் கிடங்கு மற்றும் டேட்டா லேக் தொழில்நுட்பங்கள் வழங்குவதை விட உங்கள் வணிகத்திற்கு கூடுதல் தரவு தேவை என்பதை அல்லது உங்கள் தரவில் அதிநவீன பகுப்பாய்வு மற்றும் இயந்திர கற்றல் செயல்பாடுகளை ஒருங்கிணைக்க நீங்கள் தீர்வைத் தேடுகிறீர்கள் என்பதைக் கவனியுங்கள். ஏ தரவு ஏரி இல்லம் சூழ்நிலையில் ஒரு விவேகமான விருப்பம்.
ஒரு பதில் விடவும்