እርግጠኛ ነኝ ስለ አርቴፊሻል ኢንተለጀንስ፣ እንዲሁም እንደ ማሽን መማሪያ እና የተፈጥሮ ቋንቋ ማቀነባበሪያ (NLP) ያሉ ቃላት።
በተለይ በየቀኑ በመቶዎች የሚቆጠሩ ካልሆነ በሺዎች የሚቆጠሩ የደንበኛ ግንኙነቶችን ለሚቆጣጠር ድርጅት የምትሰራ ከሆነ።
የማህበራዊ ሚዲያ ልጥፎች፣ ኢሜይሎች፣ ቻቶች፣ ክፍት የዳሰሳ ጥናቶች እና ሌሎች ምንጮች የመረጃ ትንተና ቀላል ሂደት አይደለም፣ እና ለሰዎች ብቻ በአደራ ሲሰጥ የበለጠ ከባድ ይሆናል።
ለዚህም ነው ብዙ ሰዎች ስለ እምቅ ችሎታ የሚጓጉት። ሰው ሰራሽ እውቀት ለዕለት ተዕለት ሥራቸው እና ለድርጅቶች .
በ AI የተጎላበተ የፅሁፍ ትንተና ቋንቋን በአካላዊ መልኩ ለመተርጎም ሰፋ ያሉ አቀራረቦችን ወይም ስልተ ቀመሮችን ይጠቀማል፣ ከነሱም አንዱ አርእስት ትንተና ነው፣ እሱም ከጽሁፎች ርዕሰ ጉዳዮችን በራስ-ሰር ለማግኘት ይጠቅማል።
ንግዶች በጣም ብዙ መረጃ ያላቸውን ሰራተኞች ከመጠን በላይ ከመጫን ይልቅ ቀላል ስራዎችን ወደ ማሽኖች ለማስተላለፍ የርዕስ ትንተና ሞዴሎችን መጠቀም ይችላሉ።
ኮምፒውተር ማለቂያ በሌለው የደንበኛ ዳሰሳ ዝርዝሮች ወይም በየማለዳው የድጋፍ ጉዳዮችን ማጣራት ከቻለ ቡድንዎ ምን ያህል ጊዜ መቆጠብ እና የበለጠ አስፈላጊ ስራ ላይ እንደሚያውል ያስቡ።
በዚህ መመሪያ ውስጥ፣ የርዕስ ሞዴሊንግ፣ የተለያዩ የአርእስት ሞዴሊንግ ዘዴዎችን እንመለከታለን፣ እና በእሱ ላይ የተወሰነ ልምድ እናገኛለን።
ርዕስ ሞዴሊንግ ምንድን ነው?
የርዕስ ሞዴሊንግ ቁጥጥር የማይደረግበት እና ቁጥጥር የሚደረግበት ስታቲስቲካዊ የሆነ የጽሑፍ ማዕድን ዓይነት ነው። የማሽን መማር ቴክኒኮች በኮርፐስ ውስጥ ያሉ አዝማሚያዎችን ለመለየት ጥቅም ላይ ይውላሉ ወይም ከፍተኛ መጠን ያለው ያልተደራጀ ጽሑፍ።
የእርስዎን ግዙፍ የሰነዶች ስብስብ ሊወስድ ይችላል እና ተመሳሳይነት ያለው ዘዴ በመጠቀም ቃላቶቹን ወደ የቃላት ስብስቦች ለማቀናጀት እና ርዕሰ ጉዳዮችን ለማግኘት።
ያ ትንሽ ውስብስብ እና ከባድ ይመስላል፣ ስለዚህ የርዕሱን ሞዴሊንግ ሂደት እናቅልለው!
በእጅህ ባለ ቀለም ማድመቂያዎች ስብስብ ያለው ጋዜጣ እያነበብህ እንደሆነ አስብ።
ያ የድሮ ዘመን አይደለምን?
እኔ በእነዚህ ቀናት, ጥቂት ሰዎች የህትመት ውስጥ ጋዜጦች ማንበብ; ሁሉም ነገር ዲጂታል ነው, እና ማድመቂያዎች ያለፈ ነገር ናቸው! አባትህ ወይም እናትህ አስመስለህ!
ስለዚህ, ጋዜጣውን በምታነብበት ጊዜ, አስፈላጊ የሆኑትን ቃላት ያጎላል.
አንድ ተጨማሪ ግምት!
የተለያዩ ጭብጦችን ቁልፍ ቃላት ለማጉላት የተለየ ቀለም ትጠቀማለህ። በቀረበው ቀለም እና ርእሶች ላይ በመመስረት ቁልፍ ቃላቶቹን ይመድባሉ.
በአንድ የተወሰነ ቀለም ምልክት የተደረገባቸው እያንዳንዱ የቃላት ስብስብ ለአንድ ርዕስ ቁልፍ ቃላት ዝርዝር ነው። የመረጡት የተለያዩ ቀለሞች መጠን የገጽታዎችን ብዛት ያሳያል።
ይህ በጣም መሠረታዊው ርዕስ ሞዴል ነው. ትላልቅ የጽሑፍ ስብስቦችን ለመረዳት, ለማደራጀት እና ለማጠቃለል ይረዳል.
ነገር ግን፣ ውጤታማ ለመሆን፣ አውቶማቲክ አርእስት ሞዴሎች ብዙ ይዘት እንደሚያስፈልጋቸው አስታውስ። አጭር ወረቀት ካለህ የድሮ ትምህርት ቤት ገብተህ ማድመቂያዎችን መጠቀም ትፈልግ ይሆናል!
መረጃውን ለማወቅ የተወሰነ ጊዜ ማጥፋትም ጠቃሚ ነው። ይህ የርዕስ ሞዴል ምን ማግኘት እንዳለበት መሰረታዊ ስሜት ይሰጥዎታል.
ለምሳሌ፣ ያ ማስታወሻ ደብተር ስለአሁን እና ስለቀድሞ ግንኙነቶችዎ ሊሆን ይችላል። ስለዚህ፣ የእኔ የጽሑፍ ማዕድን ሮቦት-ጓደኛ ተመሳሳይ ሀሳቦችን እንደሚያመጣ እጠብቃለሁ።
ይህ እርስዎ የለዩዋቸውን ጉዳዮች ጥራት በተሻለ ሁኔታ ለመተንተን እና አስፈላጊ ከሆነ የቁልፍ ቃል ስብስቦችን እንዲያስተካክሉ ይረዳዎታል።
የርዕስ ሞዴሊንግ አካላት
ፕሮባቢሊቲ ሞዴል
የዘፈቀደ ተለዋዋጮች እና የይሆናልነት ስርጭቶች በፕሮባቢሊቲ ሞዴሎች ውስጥ የአንድ ክስተት ወይም ክስተት ውክልና ውስጥ ተካተዋል።
የሚወስን ሞዴል ለአንድ ክስተት አንድ ነጠላ መደምደሚያ ይሰጣል፣ ፕሮባቢሊስት ሞዴል ግን የመፍትሄ እድል ስርጭትን ይሰጣል።
እነዚህ ሞዴሎች ስለ አንድ ሁኔታ ሙሉ በሙሉ እውቀት ስለሌለን እውነታውን ግምት ውስጥ ያስገባሉ. ሁል ጊዜ ሊታሰብበት የሚገባ የዘፈቀደነት አካል አለ።
ለምሳሌ የህይወት መድህን እንደምንሞት ባወቅንበት እውነታ ላይ ተወስኗል ነገርግን መቼ እንደሆነ አናውቅም። እነዚህ ሞዴሎች በከፊል የሚወሰኑ፣ ከፊል በዘፈቀደ ወይም ሙሉ በሙሉ በዘፈቀደ ሊሆኑ ይችላሉ።
የመረጃ መልሶ ማግኛ
የመረጃ መልሶ ማግኛ (IR) ከሰነድ ማከማቻዎች በተለይም የጽሑፍ መረጃን የሚያደራጅ፣ የሚያከማች፣ ሰርስሮ የሚያወጣ እና የሚገመግም የሶፍትዌር ፕሮግራም ነው።
ቴክኖሎጂው ተጠቃሚዎች የሚፈልጉትን መረጃ እንዲያገኙ ይረዳቸዋል ነገርግን ለጥያቄዎቻቸው መልሱን በግልፅ አያቀርብም። አስፈላጊውን መረጃ ሊሰጡ የሚችሉ ወረቀቶች መኖራቸውን እና ቦታውን ያሳውቃል.
አግባብነት ያላቸው ሰነዶች የተጠቃሚውን ፍላጎት የሚያሟሉ ናቸው. እንከን የለሽ የ IR ስርዓት የተመረጡ ሰነዶችን ብቻ ይመልሳል።
የርዕስ ወጥነት
የርእስ ወጥነት በርዕሱ ከፍተኛ ውጤት በሚያስገኙ ቃላት መካከል ያለውን የትርጉም ተመሳሳይነት ደረጃ በማስላት አንድን ርዕስ ያስቆጥራል። እነዚህ መለኪያዎች በትርጉም ሊተረጎሙ በሚችሉ ርዕሰ ጉዳዮች እና በስታቲስቲካዊ ማጣቀሻ ቅርሶች መካከል ያለውን ልዩነት ለመለየት ይረዳሉ።
የይገባኛል ጥያቄዎች ወይም እውነታዎች ቡድን እርስ በርስ የሚደጋገፉ ከሆነ, እነሱ ወጥነት ያላቸው ናቸው ይባላል.
በውጤቱም፣ የተቀናጀ የእውነታ ስብስብ ሁሉንም ወይም አብዛኞቹን እውነታዎች ባካተተ አውድ ውስጥ መረዳት ይቻላል። "ጨዋታው የቡድን ስፖርት ነው" "ጨዋታው በኳስ ነው የሚጫወተው" እና "ጨዋታው ከፍተኛ የሆነ አካላዊ ጥረት ይጠይቃል" ሁሉም የተቀናጁ እውነታዎች ምሳሌዎች ናቸው.
የተለያዩ የአርእስ ሞዴል ዘዴዎች
ይህ ወሳኝ ሂደት በተለያዩ ስልተ ቀመሮች ወይም ዘዴዎች ሊከናወን ይችላል. ከነሱ መካከል፡-
- ድብቅ ዲሪችሌት ድልድል (ኤልዲኤ)
- አሉታዊ ያልሆነ ማትሪክስ መፍቻ (NMF)
- ድብቅ የትርጉም ትንተና (LSA)
- ፕሮባቢሊስቲክ ድብቅ የትርጉም ትንተና (pLSA)
ድብቅ ዲሪችሌት ድልድል(ኤልዲኤ)
በአንድ ኮርፐስ ውስጥ ባሉ በርካታ ጽሑፎች መካከል ያለውን ግንኙነት ለማወቅ የLatent Dirichlet Allocation ስታትስቲካዊ እና ስዕላዊ ጽንሰ-ሀሳብ ጥቅም ላይ ይውላል።
የVariational Exception Maximization (VEM) አካሄድን በመጠቀም ከሙሉ የፅሁፍ አካል ትልቁ ግምት ተገኝቷል።
በተለምዶ, ከቃላት ቦርሳ ውስጥ ዋናዎቹ ጥቂት ቃላት ይመረጣሉ.
ይሁን እንጂ ዓረፍተ ነገሩ ሙሉ በሙሉ ትርጉም የለሽ ነው.
በዚህ ቴክኒክ መሠረት፣ እያንዳንዱ ጽሑፍ በርዕሰ-ጉዳይ ፕሮባቢሊቲካል ስርጭት፣ እና እያንዳንዱ ርዕስ በተጨባጭ የቃላት ስርጭት ይወከላል።
አሉታዊ ያልሆነ ማትሪክስ መፍቻ (NMF)
ማትሪክስ ከአሉታዊ ያልሆኑ እሴቶች ማምረቻ ጋር በጣም ቆራጭ ባህሪ የማውጣት አካሄድ ነው።
ብዙ ጥራቶች ሲኖሩ እና ባህሪያቱ ግልጽ ያልሆኑ ወይም ደካማ የመተንበይ አቅም ሲኖራቸው፣ NMF ጠቃሚ ነው። NMF ባህሪያትን በማጣመር ጉልህ ንድፎችን፣ ርዕሰ ጉዳዮችን ወይም ገጽታዎችን ማመንጨት ይችላል።
NMF እያንዳንዱን ባህሪ እንደ ዋናው የባህሪ ስብስብ ቀጥተኛ ጥምረት ያመነጫል።
እያንዳንዱ ባህሪ በባህሪው ላይ የእያንዳንዱን ባህሪ አስፈላጊነት የሚወክሉ የቁጥር ስብስቦችን ይዟል። እያንዳንዱ የቁጥር ባህሪ እና የእያንዳንዱ ምድብ ባህሪ እያንዳንዱ እሴት የራሱ የሆነ ቅንጅት አለው።
ሁሉም ቅንጅቶች አዎንታዊ ናቸው።
ድብቅ የትርጉም ትንተና
በሰነዶች ስብስብ ውስጥ በቃላት መካከል ግንኙነቶችን ለማውጣት ጥቅም ላይ የሚውለው ሌላው ክትትል የማይደረግበት የመማሪያ ዘዴ ነው ድብቅ የትርጉም ትንተና።
ይህ ትክክለኛ ሰነዶችን ለመምረጥ ይረዳናል. ዋናው ተግባራቱ የግዙፉን ኮርፐስ የጽሑፍ መረጃ መጠን መቀነስ ነው።
እነዚህ አላስፈላጊ መረጃዎች ከውሂቡ አስፈላጊውን ግንዛቤ ለማግኘት እንደ የጀርባ ጫጫታ ያገለግላሉ።
ፕሮባቢሊስቲክ ድብቅ የትርጉም ትንተና (pLSA)
ፕሮባብሊስቲክ ድብቅ የትርጉም ትንተና (PLSA)፣ አንዳንድ ጊዜ ፕሮባቢሊስቲክ ድብቅ የትርጉም መረጃ ጠቋሚ (PLSI፣በተለይ በመረጃ ማግኛ ክበቦች) በመባል የሚታወቀው፣ ባለሁለት ሁነታ እና የጋራ ክስተት መረጃዎችን ለመተንተን ስታቲስቲካዊ አካሄድ ነው።
እንደ እውነቱ ከሆነ፣ PLSA ከወጣበት ድብቅ የትርጉም ትንተና ጋር በሚመሳሰል መልኩ፣ የተስተዋሉ ተለዋዋጮች ዝቅተኛ-ልኬት ውክልና ከተወሰኑ የተደበቁ ተለዋዋጮች ጋር ባላቸው ዝምድና ሊገኝ ይችላል።
በPython ውስጥ ከርዕስ ሞዴል ጋር አብሮ መሥራት
አሁን፣ ከፓይዘን ጋር ባለው የርእሰ ጉዳይ ሞዴሊንግ ስራ ውስጥ እመራችኋለሁ የፕሮግራም ቋንቋ የገሃዱ ዓለም ምሳሌ በመጠቀም።
የምርምር መጣጥፎችን ሞዴል አደርጋለሁ። እዚህ የምጠቀምበት የውሂብ ስብስብ ከ kaggle.com የመጣ ነው። በዚህ ሥራ ውስጥ የምጠቀምባቸውን ሁሉንም ፋይሎች ከዚህ በቀላሉ ማግኘት ይችላሉ። ገጽ.
ሁሉንም አስፈላጊ ቤተ-መጻሕፍት በማስመጣት Pythonን በመጠቀም በርዕስ ሞዴልነት እንጀምር፡-
የሚከተለው እርምጃ በዚህ ተግባር ውስጥ የምጠቀምባቸውን ሁሉንም የውሂብ ስብስቦች ማንበብ ነው፡-
ገላጭ መረጃ ትንተና
EDA (Exploratory Data Analysis) ምስላዊ ክፍሎችን የሚጠቀም ስታቲስቲካዊ ዘዴ ነው። አዝማሚያዎችን፣ ቅጦችን እና ግምቶችን ለመፈተሽ እስታቲስቲካዊ ማጠቃለያዎችን እና ስዕላዊ መግለጫዎችን ይጠቀማል።
አርእስት ሞዴሊንግ ከመጀመሬ በፊት በመረጃው ውስጥ ማንኛቸውም ቅጦች ወይም ግንኙነቶች እንዳሉ ለማየት አንዳንድ የአሳሽ ዳታ ትንታኔዎችን አደርጋለሁ።
አሁን የሙከራ ውሂብ ስብስብ ባዶ እሴቶችን እናገኛለን፡-
አሁን በተለዋዋጮች መካከል ያለውን ግንኙነት ለመፈተሽ ሂስቶግራም እና ቦክስፕሎት እቀርፃለሁ።
በባቡር ስብስብ ውስጥ ያሉት የቁምፊዎች ብዛት በጣም ይለያያል።
በባቡር ውስጥ ቢያንስ 54 እና ቢበዛ 4551 ቁምፊዎች አሉን. 1065 አማካይ የቁምፊዎች ብዛት ነው።
የፈተናው ስብስብ 46 ቁምፊዎች ያሉት ሲሆን የስልጠናው ስብስብ 2841 ስላለው ከስልጠናው የበለጠ አስደሳች ይመስላል።
በውጤቱም, የሙከራው ስብስብ ከስልጠናው ስብስብ ጋር ተመሳሳይነት ያለው 1058 ቁምፊዎች መካከለኛ ነበር.
በመማር ስብስብ ውስጥ ያሉት የቃላት ብዛት ከደብዳቤዎች ቁጥር ጋር ተመሳሳይ የሆነ ንድፍ ይከተላል.
ቢያንስ 8 ቃላት እና ቢበዛ 665 ቃላት ተፈቅደዋል። በውጤቱም, መካከለኛው የቃላት ብዛት 153 ነው.
በአብስትራክት ውስጥ ቢያንስ ሰባት ቃላት እና በፈተና ስብስብ ውስጥ ቢበዛ 452 ቃላት ያስፈልጋሉ።
መካከለኛ, በዚህ ጉዳይ ላይ, 153 ነው, ይህም በስልጠና ስብስብ ውስጥ ካለው መካከለኛ ጋር ተመሳሳይ ነው.
ለርዕስ ሞዴሊንግ መለያዎችን መጠቀም
በርከት ያሉ አርእስት ሞዴሊንግ ስልቶች አሉ። በዚህ ልምምድ ውስጥ መለያዎችን እጠቀማለሁ; መለያዎቹን በመመርመር እንዴት ማድረግ እንዳለብን እንመልከት፡-
የርዕስ ሞዴሊንግ ትግበራዎች
- የጽሑፍ ማጠቃለያ የሰነድ ወይም የመፅሃፍ ርዕስን ለመለየት ጥቅም ላይ ሊውል ይችላል.
- የእጩ አድሎአዊነትን ከፈተና ውጤት ለማስወገድ ሊያገለግል ይችላል።
- የርዕስ ሞዴሊንግ በግራፍ-ተኮር ሞዴሎች ውስጥ በቃላት መካከል የትርጉም ግንኙነቶችን ለመገንባት ጥቅም ላይ ሊውል ይችላል።
- በደንበኛው ጥያቄ ውስጥ ቁልፍ ቃላትን በመፈለግ እና ምላሽ በመስጠት የደንበኞችን አገልግሎት ማሻሻል ይችላል። የሚያስፈልጋቸውን እርዳታ በተገቢው ጊዜ ስለሰጠሃቸው እና ምንም አይነት ችግር ሳታደርስባቸው ደንበኞች በአንተ ላይ የበለጠ እምነት ይኖራቸዋል። በውጤቱም, የደንበኛ ታማኝነት በከፍተኛ ሁኔታ ይጨምራል, እና የኩባንያው ዋጋ ይጨምራል.
መደምደሚያ
አርእስት ሞዴሊንግ በጽሁፎች ስብስብ ውስጥ ያሉትን ረቂቅ “ርዕሰ ጉዳዮችን” ለማግኘት የሚያገለግል የስታቲስቲክስ ሞዴሊንግ አይነት ነው።
በ ውስጥ ጥቅም ላይ የዋለው የስታቲስቲክስ ሞዴል ቅርጽ ነው የማሽን መማር እና በጽሁፎች ስብስብ ውስጥ ያሉትን ረቂቅ ፅንሰ-ሀሳቦችን ለማግኘት የተፈጥሮ ቋንቋን ማቀናበር።
በሰውነት ጽሑፍ ውስጥ ድብቅ የትርጉም ንድፎችን ለማግኘት በሰፊው ጥቅም ላይ የሚውል የጽሑፍ ማዕድን ዘዴ ነው።
መልስ ይስጡ