እያንዳንዱ የማሽን መማር ፕሮጀክት በጥሩ የውሂብ ስብስብ ላይ ይመሰረታል። የእርስዎን ML ሞዴል እንዲያሠለጥኑ እና እንዲያረጋግጡ የሚያስችልዎ ይህ ትልቅ የውሂብ ስብስብ ነው። ስለዚህ፣ በኤምኤል ፕሮጀክት ውስጥ ያለው የስራው ትልቅ አካል ለፍላጎትዎ የሚሆን ፍጹም የውሂብ ስብስብ ማግኘት ነው። ነገር ግን፣ ከፍላጎትዎ ጋር የሚስማማ አማራጭ ማግኘት ሁልጊዜ አይቻልም፣ ምክንያቱም ብዙ የሚስቡ የሚመስሉ ፋይሎች በመጨረሻ ላይ አይደሉም።
ተስማሚ የሆነ ስብስብ እስኪደርሱ ድረስ ስፍር ቁጥር የሌላቸውን የውሂብ ስብስቦችን በማውረድ ጊዜ ማባከን ከባድ ሊሆን ይችላል። ያንን በአእምሯችን ይዘን፣ አስደሳች የሚመስሉ እና የእርስዎን ML ፕሮጀክት ለማዳበር ሊረዱዎት የሚችሉ አንዳንድ አማራጮችን ሰብስበናል። አንዳንዶቹ ለንግድ ስራ ከመጠቀም ይልቅ ለግል የታሰቡ መሆናቸውን ልብ ይበሉ፣ ስለዚህ እነዚህን አማራጮች በኤምኤል ዩኒቨርስ ውስጥ ልምድ ለመቅሰም እንደ መንገድ ይመልከቱ።
የውሂብ ስብስቦች መሰረታዊ ነገሮች
የውሂብ ስብስቦችን ከመጥቀሳችን በፊት አንዳንድ ቃላትን መግለጽ አለብን። በአርቴፊሻል ኢንተለጀንስ ፕሮጄክቶች ውስጥ, በተለይም የማሽን መማር, ከፍተኛ መጠን ያለው መረጃ ያስፈልጋል, ይህም አልጎሪዝምን ለማሰልጠን ጥቅም ላይ ይውላል. ይህ የውሂብ መጠን በመረጃ ቋት ውስጥ ይሰበሰባል, ይህም አልጎሪዝምን ለማስተማር እጅግ በጣም ጠቃሚ ነው.
በዚህ መረጃ፣ አልጎሪዝም ሰልጥኗል - እንዲሁም ተፈትኗል - እና ቅጦችን ለማግኘት ፣ ግንኙነቶችን መመስረት እና በራስ ገዝ ውሳኔዎችን ማድረግ ይችላል። ያለ ስልጠና, የማሽን መማር ስልተ ቀመሮች ምንም አይነት ተግባር ማከናወን አይችሉም። ስለዚህ, የስልጠናው መረጃ በተሻለ ሁኔታ, ሞዴሉ በተሻለ ሁኔታ ይከናወናል. የመረጃ ቋቱ ለፕሮጀክቱ ጠቃሚ እንዲሆን፣ ስለ ብዛት ሳይሆን፣ ስለ ምደባም ጭምር ነው።
በሐሳብ ደረጃ ውሂቡ በደንብ መሰየም አለበት። ስለ ቻትቦቶች ጉዳይ አስቡ፡ የቋንቋ ማስገባት አስፈላጊ ነው፡ ነገር ግን የተፈጠረ ስልተ ቀመር ጠያቂው ቃጭል ሲጠቀም እንዲረዳ በጥንቃቄ የአገባብ ትንተና መደረግ አለበት። ከዚያ በኋላ ብቻ ቨርቹዋል ረዳት በተጠቃሚው በተጠየቀው መሰረት መልሱን ማስጀመር ይችላል።
የውሂብ ስብስቦች ከዳሰሳ ጥናቶች፣ የተጠቃሚ ግዢ ውሂብ፣ በአገልግሎቶች ላይ የሚቀሩ ግምገማዎች እና በብዙ ሌሎች መንገዶች በCSV ፋይል ውስጥ በአምዶች እና ረድፎች የተደራጁ ጠቃሚ መረጃዎችን መሰብሰብ ይችላሉ።
ትክክለኛውን የመረጃ ቋት ለመፈለግ ከመነሳትዎ በፊት የፕሮጀክትዎን አላማ በተለይም ከተወሰነ አካባቢ እንደ አየር ሁኔታ፣ ፋይናንስ፣ ጤና እና የመሳሰሉት ከሆነ ማወቅ በጣም አስፈላጊ ነው። የውሂብ ስብስብ.
የውሂብ ስብስቦች ለ ML
የቻትቦት ስልጠና
ያለ ሰው ጣልቃገብነት የተጠቃሚ ጥያቄዎችን በፍጥነት ለመፍታት ውጤታማ ቻትቦት ከፍተኛ መጠን ያለው የሥልጠና መረጃ ይፈልጋል። ነገር ግን፣ የቻትቦት ልማት ቀዳሚ ማነቆ እነዚህን በማሽን መማር ላይ የተመሰረቱ ሥርዓቶችን ለማሰልጠን ተጨባጭ፣ ተግባር ላይ ያተኮረ የንግግር መረጃ ማግኘት ነው።
የውይይት ዳታ ስብስብ መረጃን በጥያቄ እና መልስ ቅርጸት ይሰበስባል። ለተመልካቾች አውቶማቲክ መልሶች የሚሰጡ ቻትቦቶችን ለማሰልጠን ተስማሚ ነው። ይህ ዳታ ከሌለ ቻትቦት የተጠቃሚ ጥያቄዎችን በፍጥነት መፍታት ወይም የተጠቃሚ ጥያቄዎችን ያለ ሰው ጣልቃገብነት መመለስ ይሳነዋል።
እነዚህን የውሂብ ስብስቦች በመጠቀም ንግዶች ለደንበኞች 24/7 ፈጣን መልስ የሚሰጥ እና የደንበኞችን ድጋፍ ከሚያደርጉ ሰዎች ቡድን የበለጠ ርካሽ የሆነ መሳሪያ መፍጠር ይችላሉ።
1. የጥያቄ-መልስ የውሂብ ስብስብ
ይህ የውሂብ ስብስብ የዊኪፔዲያ መጣጥፎችን፣ ጥያቄዎችን እና የየራሳቸውን በእጅ የመነጩ መልሶች ያቀርባል። በ2008 እና 2010 መካከል ለአገልግሎት የሚውል የውሂብ ስብስብ ነው። አካዴሚያዊ ምርምር.
2. የቋንቋ ውሂብ
የቋንቋ ዳታ ከአንዳንድ የኩባንያው አገልግሎቶች እንደ ያሁ! ለተጠቃሚዎች ጥያቄዎችን እና መልሶችን እንዲለጥፉ እንደ ክፍት ማህበረሰብ የሚሰራ መልስ።
3. ዊኪኪኤ
የዊኪኪው ኮርፐስ የጥያቄዎች እና መልሶች ስብስብም ያካትታል። የጥያቄዎቹ ምንጭ Bing ሲሆን መልሱ ግን የመጀመሪያውን ጥያቄ የመፍታት አቅም ካለው የዊኪፔዲያ ገጽ ጋር ይገናኛል።
በአጠቃላይ ከ 3,000 በላይ ጥያቄዎች እና የ 29,258 ዓረፍተ ነገሮች ስብስብ በመረጃ ቋቱ ውስጥ የተካተቱ ሲሆን ከነዚህም ውስጥ 1,400 ያህሉ ለተዛማጅ ጥያቄ መልስ ተብለው ተከፋፍለዋል።
የመንግስት መረጃ
በመንግስታት የተፈጠሩ የውሂብ ስብስቦች የስነ ሕዝብ አወቃቀር መረጃዎችን ያመጣሉ፣ ይህም ማህበራዊ አዝማሚያዎችን ከመረዳት፣ ህዝባዊ ፖሊሲዎችን መፍጠር እና ህብረተሰቡን ከማሻሻል ጋር በተያያዙ ፕሮጀክቶች ላይ ትልቅ ግብአት ነው። ይህ ለፖለቲካ ዘመቻዎች፣ ለታለመ ማስታወቂያ ወይም ለገበያ ትንተና ጠቃሚ ሊሆን ይችላል።
እነዚህ የመረጃ ቋቶች በተለምዶ ስም-አልባ መረጃዎችን ይይዛሉ፣ስለዚህ ሞዴሎቹ ጥሬ ውሂቡን መድረስ ሲችሉ፣የግል ግላዊነት ጥሰቶች የሉም።
4. ዳታ
በ2009 የጀመረው Data.gov የሰሜን አሜሪካ የመረጃ ምንጭ ነው። የእሱ ካታሎግ አስደናቂ ነው፡ ከ218,000 በላይ የውሂብ ስብስቦች በቅርጸት፣ መለያዎች፣ ዓይነቶች እና አርእስቶች መከፋፈልን የሚፈቅዱ።
5. የአውሮፓ ህብረት የውሂብ ፖርታል ክፈት
የአውሮፓ ህብረት ክፍት የውሂብ ፖርታል በአውሮፓ ህብረት ተቋማት የተጋሩ ክፍት መረጃዎችን ተደራሽነት ይሰጣል ። እነዚህ ለንግድ እና ለንግድ ላልሆነ አገልግሎት ሊውሉ የሚችሉ መረጃዎች ናቸው። በተጠቃሚው አጠቃቀም ላይ እንደ ጤና፣ ጉልበት፣ አካባቢ፣ ባህል እና ትምህርት ያሉ ርዕሶችን የሚሸፍኑ ከ15.5 ሺህ በላይ የመረጃ ቋቶች አሉ።
የጤና ውሂብ
በአለም አቀፍ ደረጃ እየተከሰተ ያለውን የጤና ችግር ተከትሎ በጤና ድርጅቶች የተፈጠሩ የመረጃ ስብስቦች ህይወትን ለማዳን ውጤታማ መፍትሄዎችን ለማዘጋጀት አስፈላጊ ናቸው። እነዚህ የመረጃ ስብስቦች የአደጋ መንስኤዎችን ለመለየት, የበሽታ ስርጭት ንድፎችን ለመስራት እና ምርመራን ለማፋጠን ይረዳሉ.
እነዚህ መረጃዎች የጤና መዛግብት፣ የታካሚዎች ስነ-ሕዝብ፣ የበሽታ ስርጭት፣ የመድኃኒት አጠቃቀም፣ የአመጋገብ እሴቶች እና ሌሎችም ያካተቱ ናቸው።
6. ዓለም አቀፍ የጤና ኦብዘርቫቶሪ
ይህ የመረጃ ስብስብ የዓለም ጤና ድርጅት (WHO) ተነሳሽነት ነው። እንደ ጤና ሥርዓቶች፣ የትምባሆ አጠቃቀም ቁጥጥር፣ የወሊድ፣ ኤችአይቪ/ኤድስ፣ ወዘተ ባሉ መሪ ሃሳቦች የተደራጁ ከተለያዩ የጤና ዘርፎች ጋር የተያያዙ የህዝብ መረጃዎችን ያቀርባል። በተጨማሪም በኮቪድ-19 ላይ መረጃን የማማከር አማራጭ አለ።
7. CORD-19
CORD-19 በኮቪድ-19 እና ሌሎች ስለ አዲሱ ኮሮናቫይረስ የሚወጡ የአካዳሚክ ህትመቶች ስብስብ ነው። በኮቪድ-19 ላይ አዳዲስ ግንዛቤዎችን ለመፍጠር የታሰበ ክፍት የውሂብ ስብስብ ነው።
የኢኮኖሚክስ መረጃ
ከፋይናንሺያል አካባቢ ጋር የተያያዙ የመረጃ ቋቶች አብዛኛውን ጊዜ ብዙ መረጃዎችን ይሰበስባሉ፣ ምክንያቱም ለረጅም ጊዜ መሰባሰቡ የተለመደ ነው። ኢኮኖሚያዊ ትንበያዎችን ለመፍጠር ወይም የኢንቨስትመንት አዝማሚያዎችን ለመፍጠር ተስማሚ ናቸው.
ከትክክለኛው የፋይናንስ መረጃ ስብስቦች ጋር፣ ሀ የማሽን መማሪያ ሞዴል የአንድን ንብረት ባህሪ መተንበይ ይችል ይሆናል። ለዚህም ነው የፋይናንሺያል ሴክተሩ ውጤታማ የኤምኤል ሞዴል ለመፍጠር የሚችለውን ሁሉ እያደረገ ያለው ማንኛውም ነገር በምክንያታዊነት እንኳን ሊተነብይ የሚችል በሚሊዮን የሚቆጠር ዶላር የማመንጨት አቅም ስላለው። የማሽን መማር የዜጎችን ባህሪ አስቀድሞ በመተንበይ ላይ ነው፣ ይህም ፖሊሲ አውጪዎች ስራቸውን በሚያከናውኑበት መንገድ ላይ ተጽእኖ እያሳደረ ነው።
8. ዓለም አቀፍ የገንዘብ ፈንድ
የአይኤምኤፍ መረጃ ስብስብ ኢኮኖሚያዊ እና ፋይናንሺያል አመላካቾችን፣የአባል ሀገር ስታቲስቲክስን እና ሌሎች የብድር እና የምንዛሪ ተመን መረጃዎችን ይይዛል።
9. የዓለም ባንክ
የዓለም ባንክ የመረጃ ቋት ከተለያዩ አገሮች የመጡ ኢኮኖሚያዊ መረጃዎችን የያዘ የተለያዩ መረጃዎችን ይዟል። በአህጉራት የተከፋፈሉ ከ17,000 በላይ የውሂብ ስብስቦች አሉ።
የምርት እና አገልግሎቶች ግምገማዎች
የስሜት ትንተና በአሁኑ ጊዜ ኢንተርፕራይዞች ከደንበኞቻቸው ወይም ደንበኞቻቸው በትክክል እንዲገመቱ እና እንዲማሩ እየረዳቸው ያሉ አፕሊኬሽኑን በተለያዩ መስኮች አግኝቷል። የስሜት ትንተና ለማህበራዊ ሚዲያ ክትትል፣ የምርት ስም ክትትል፣ የደንበኛ ድምጽ (VoC)፣ የደንበኞች አገልግሎት እና የገበያ ጥናት ለማድረግ ጥቅም ላይ እየዋለ ነው።
የስሜት ትንተና NLP ይጠቀማል (የኒውሮ-ቋንቋ ፕሮግራሚንግ) ዘዴዎች እና ስልተ ቀመሮች ወይ ደንብ ላይ የተመሰረቱ፣ የተዳቀሉ፣ ወይም በማሽን መማሪያ ቴክኒኮች ላይ የሚመሰረቱ መረጃዎችን ከመረጃ ስብስቦች ለመማር።
በስሜት ትንተና ውስጥ አስፈላጊው መረጃ ልዩ መሆን አለበት እና በከፍተኛ መጠን ያስፈልጋል. ስለ ስሜት ትንተና የሥልጠና ሂደት በጣም ፈታኙ ክፍል ብዙ መጠን ያለው መረጃ ማግኘት አይደለም; በምትኩ, ተዛማጅ የውሂብ ስብስቦችን ማግኘት ነው. እነዚህ የውሂብ ስብስቦች ሰፋ ያለ የስሜት ትንተና መተግበሪያዎችን እና ጉዳዮችን መሸፈን አለባቸው።
10. የአማዞን ግምገማዎች
ይህ የውሂብ ስብስብ ለ35 ዓመታት የተሰበሰበ መረጃን የሚሸፍን 18 ሚሊዮን ያህል የአማዞን ግምገማዎችን ይዟል። የምርት፣ የተጠቃሚ እና የግምገማ ይዘት የውሂብ ስብስብ ነው።
11. Yelp ግምገማዎች
ዬልፕ ከአገልግሎቱ በተሰበሰበ መረጃ ላይ የተመሰረተ የውሂብ ስብስብ ያቀርባል. ከ8 ሚሊዮን በላይ ግምገማዎች፣ 1 ሚሊዮን ጠቃሚ ምክሮች እና 1.5 ሚሊዮን የሚጠጉ ከንግዶች ጋር የተያያዙ ባህሪያት አሉ፣ ለምሳሌ የመክፈቻ ሰዓቶች እና ተገኝነት።
12. IMDB ግምገማዎች
ይህ ዳታቤዝ ለስልጠና ከ25ሺህ በላይ የፊልም ግምገማዎችን እና ሌሎች 25ሺህ ከIMDB ገጽ መደበኛ ባልሆነ መንገድ ለተወሰዱ ፈተናዎች፣በፊልም ደረጃ አሰጣጥ ላይ የተካኑ ስብስቦችን ይዟል። እንዲሁም ያልተሰየመ ውሂብ እንደ ተጨማሪ ያቀርባል።
በኤምኤል ውስጥ ለመጀመሪያዎቹ ደረጃዎች የውሂብ ስብስቦች
13. የወይን ጥራት የውሂብ ስብስብ
ይህ የመረጃ ስብስብ በሰሜናዊ ፖርቹጋል ከተመረተ ከቀይ እና አረንጓዴ ወይን ጋር የተያያዙ መረጃዎችን ይሰጣል። ግቡ በፊዚኮኬሚካላዊ ሙከራዎች ላይ በመመርኮዝ የወይኑን ጥራት መወሰን ነው. የትንበያ ስርዓት መፍጠርን ለመለማመድ ለሚፈልጉ የሚስብ.
14. ታይታኒክ የውሂብ ስብስብ
ይህ የመረጃ ስብስብ ከታይታኒክ የ887 እውነተኛ መንገደኞች መረጃን ያመጣል፣ እያንዳንዱ አምድ በሕይወት መትረፋቸውን፣ እድሜአቸውን፣ የተሳፋሪ ደረጃቸውን፣ ጾታቸውን እና የከፈሉትን የመሳፈሪያ ክፍያ ይገልጻል። ይህ የመረጃ ስብስብ በካግግል መድረክ የጀመረው ፈታኝ አካል ሲሆን አላማውም ከታይታኒክ መስመጥ የትኞቹ ተሳፋሪዎች እንደሚተርፉ የሚተነብይ ሞዴል መፍጠር ነበር።
ሌሎች የውሂብ ስብስቦችን ለማግኘት መድረኮች
ወደ ፊት ለመሄድ እና የራስዎን የውሂብ ስብስብ ለማግኘት ከፈለጉ, ምርጡ መንገድ በጣም ዝነኛ የሆኑትን የመረጃ ማከማቻዎችን ማሰስ ነው. የማሽን መማር ዩኒቨርስ፡
ካጊግ
የGoogle LLC ቅርንጫፍ የሆነው ካግል የመስመር ላይ የውሂብ ሳይንቲስቶች እና የማሽን መማሪያ ባለሙያዎች ማህበረሰብ ነው። Kaggle ተጠቃሚዎች የውሂብ ስብስቦችን እንዲያገኙ እና እንዲያትሙ፣ እንዲያስሱ እና ሞዴሎችን በድር ላይ በተመሰረተ የውሂብ ሳይንስ አካባቢ እንዲፈጥሩ ያስችላቸዋል። ከሌሎች የውሂብ ሳይንቲስቶች ጋር መስራት እና የማሽን መማሪያ መሐንዲሶችየውሂብ ሳይንስ ፈተናዎችን ለመፍታት በውድድሮች ውስጥ ይሳተፉ።
ካግል የማሽን መማሪያ ውድድሮችን በማቅረብ በ2010 የጀመረ ሲሆን አሁን ደግሞ ለህዝብ ያቀርባል የውሂብ መድረክ፣ ደመና ላይ የተመሠረተ የስራ ቤንች ለዳታ ሳይንስ እና አርቲፊሻል ኢንተለጀንስ ትምህርት።
የውሂብ ስብስብ ፍለጋ
ዳታሴስት ፍለጋ ተመራማሪዎች በነጻ ለአገልግሎት የሚገኝ የመስመር ላይ ዳታ እንዲያገኙ የሚያግዝ የፍለጋ ሞተር ነው። በድሩ ላይ፣ እርስዎን ስለ ሚፈልጉ ርዕሰ ጉዳዮች በሚሊዮን የሚቆጠሩ የውሂብ ስብስቦች አሉ።
ቡችላ ለመግዛት የሚፈልጉ ከሆነ ስለ ቡችላ ገዢዎች ቅሬታዎችን የሚያጠናቅር ወይም ስለ ቡችላ የማወቅ ጥናት የሚያጠናክሩ የመረጃ ስብስቦችን ማግኘት ይችላሉ። ወይም ስኪንግን ከወደዱ የበረዶ ሸርተቴ ሪዞርቶች ገቢ ወይም የጉዳት መጠን እና የተሳትፎ ቁጥሮች ላይ መረጃ ማግኘት ይችላሉ። የውሂብ ስብስብ ፍለጋ ከእነዚህ የውሂብ ስብስቦች ውስጥ ወደ 25 ሚሊዮን የሚጠጉ መረጃዎችን ጠቋሚ አድርጓል፣ ይህም የውሂብ ስብስቦችን ለመፈለግ እና ውሂቡ ወዳለበት አገናኞችን ለማግኘት አንድ ቦታ ይሰጥዎታል።
የዩሲአይ ማሽን መማሪያ ማከማቻ
የዩሲአይ የማሽን መማሪያ ማከማቻ በማሽን መማር ማህበረሰብ የማሽን መማር ስልተ ቀመሮችን ለመተንተን የሚያገለግሉ የውሂብ ጎታዎች፣የጎራ ንድፈ ሃሳቦች እና የመረጃ ማመንጫዎች ስብስብ ነው። ማህደሩ እንደ ftp ማህደር በ1987 በዴቪድ አሃ እና በዩሲ ኢርቪን የድህረ ምረቃ ተማሪዎች ተፈጠረ።
ከዚያን ጊዜ ጀምሮ፣ በአለም ዙሪያ ባሉ ተማሪዎች፣ አስተማሪዎች እና ተመራማሪዎች እንደ ዋና የኤምኤል ዳታሴቶች ምንጭ በሰፊው ጥቅም ላይ ውሏል። የማህደሩን ተፅእኖ ለማመላከት ከ1000 ጊዜ በላይ የተጠቀሰ ሲሆን ይህም በሁሉም የኮምፒዩተር ሳይንስ ውስጥ በብዛት ከተጠቀሱት 100 "ወረቀቶች" ውስጥ አንዱ ያደርገዋል።
ኳንድል
Quandl ለተጠቃሚዎቹ ኢኮኖሚያዊ፣ ፋይናንሺያል እና አማራጭ የመረጃ ስብስቦችን የሚሰጥ መድረክ ነው። ተጠቃሚዎች ነፃ ውሂብ ማውረድ፣ የሚከፈልበት ውሂብ መግዛት ወይም ውሂብ ለ Quandl መሸጥ ይችላሉ። ለልማት ጠቃሚ መሣሪያ ሊሆን ይችላል የግብይት ስልተ ቀመሮች, ለአብነት.
መደምደሚያ
እነዚህን መሳሪያዎች በማሰስ ለፕሮጀክቶችዎ ምርጥ ግብዓቶችን እንደሚያገኙ እርግጠኛ ነዎት። ለፍላጎቶችዎ በጣም ተስማሚ የሆነውን የውሂብ ስብስብ መምረጥዎን ያረጋግጡ እና ሁል ጊዜም ያስታውሱ፡ መጠኑን ብቻ ሳይሆን ጥራትንም ጭምር ነው። የመረጃ ቋቱ የማንኛውንም መሠረት ነው። የማሽን መማር ፕሮጀክት እና የተሳሳቱ መደምደሚያዎች ላይ የመድረስ አደጋን ለማስወገድ በጥራት መረጃ ላይ መገንባት አስፈላጊ ነው.
መልስ ይስጡ