የምትወደው ገፀ ባህሪ ካንተ ጋር ሲነጋገር መስማት ፈልገህ ታውቃለህ? ተፈጥሯዊ ድምጽ ያለው ጽሑፍ-ወደ-ንግግር በማሽን መማሪያ እገዛ ቀስ በቀስ እውን እየሆነ ነው።
ለምሳሌ፣ የጉግል ኤንኤቲ ቲ ቲኤስ ሞዴል አዲሶቹን ለማብቃት ጥቅም ላይ እየዋለ ነው። ብጁ ድምጽ አገልግሎት. ይህ አገልግሎት ከቀረጻ የሰለጠነ ድምጽ ለማመንጨት የነርቭ መረቦችን ይጠቀማል። እንደ የድር መተግበሪያዎች ኡበርዱክ የእራስዎን የተዋሃደ ጽሑፍ ለመፍጠር እንዲመርጡ በመቶዎች የሚቆጠሩ ድምጾችን ያቅርቡ።
በዚህ ጽሑፍ ውስጥ፣ 15.ai በመባል የሚታወቀውን አስደናቂ እና እኩል የሆነ እንቆቅልሽ የሆነውን AI ሞዴል እንመለከታለን። ባልታወቀ ገንቢ የተፈጠረ፣ በጣም ቀልጣፋ እና ስሜት ቀስቃሽ ከሆኑት ውስጥ አንዱ ሊሆን ይችላል። የጽሑፍ-ወደ-ንግግር ሞዴሎች እስካሁን ድረስ.
15.ai ምንድን ነው?
15.አይ ስሜት ቀስቃሽ ከፍተኛ ታማኝነት የጽሑፍ-ወደ-ንግግር ድምጾችን ማመንጨት የሚችል AI የድር መተግበሪያ ነው። ተጠቃሚዎች ከተለያዩ ድምጾች ከ Spongebob Squarepants እስከ HAL 9000 ከ2001: A Space Odyssey መምረጥ ይችላሉ።
ፕሮግራሙን የተዘጋጀው ማንነታቸው ባልታወቀ የቀድሞ የ MIT ተመራማሪ 15 ስም ሲሆን ፕሮጀክቱ መጀመሪያ ላይ በዩኒቨርሲቲው የመጀመሪያ ምረቃ የምርምር ዕድሎች ፕሮግራም አካል እንደሆነ ገንቢው ገልጿል።
በ15.ai ውስጥ የሚገኙት አብዛኛዎቹ ድምጾች ከMy Little Pony የገጸ-ባህሪያት ስብስብ ላይ የሰለጠኑ ናቸው፡ ጓደኝነት አስማት ነው። የዝግጅቱ አድናቂዎች የሚወዷቸውን ገፀ ባህሪያቶች ትክክለኛ የፅሁፍ-ወደ-ንግግር ጀነሬተሮችን ለመፍጠር በማቀድ የውይይት ሰዓቶችን ለመሰብሰብ፣ ለመፃፍ እና ለማስኬድ የትብብር ጥረት ፈጥረዋል።
15.ai ምን ማድረግ ይችላል?
የ15.ai ዌብ አፕሊኬሽኑ የሚሠራው ሞዴሉ ከሰለጠነባቸው በደርዘን የሚቆጠሩ ልብ ወለድ ገፀ-ባህሪያትን በመምረጥ እና የግብአት ጽሑፍ በማቅረብ ነው። አመንጭን ጠቅ ካደረጉ በኋላ ተጠቃሚው የተሰጡትን መስመሮች የሚናገር የልብ ወለድ ገጸ ባህሪ ሶስት የድምጽ ቅንጥቦችን መቀበል አለበት።
ጀምሮ ጥልቀት ያለው ትምህርት ጥቅም ላይ የዋለው ሞዴል የማይታወቅ ነው፣ 15.ai በእያንዳንዱ ጊዜ ትንሽ የተለየ ንግግር ያወጣል። ተዋናዩ ትክክለኛውን ማድረስ ለማግኘት እንዴት ብዙ መውሰድ እንደሚፈልግ ሁሉ 15.ai ተጠቃሚው የሚወደውን ምርት እስኪያገኝ ድረስ የተለያዩ የአቅርቦት ዘይቤዎችን ይፈጥራል።
ፕሮጀክቱ ተጠቃሚዎች ስሜታዊ አውዶችን በመጠቀም የተፈጠረውን መስመር ስሜት እንዲቀይሩ የሚያስችል ልዩ ባህሪን ያካትታል። እነዚህ መለኪያዎች MIT'sን በመጠቀም የተጠቃሚ-የግቤት ስሜት ገላጭ ምስሎችን ስሜት መቀነስ ይችላሉ። DeepMoji ሞዴል.
እንደ ገንቢው ገለጻ፣ 15.aiን ከሌሎች ተመሳሳይ የቲቲኤስ ፕሮግራሞች የሚለየው ሞዴሉ “ስሜትን እና ተፈጥሯዊነትን ሳይነካ በመቆየት” ድምጾችን በትክክል ለመዝጋት በጣም ትንሽ በሆነ መረጃ ላይ የተመሰረተ መሆኑ ነው።
15.ai እንዴት ነው የሚሰራው?
ከ 15.ai በስተጀርባ ያለውን ቴክኖሎጂ እንመልከት.
በመጀመሪያ፣ የ15.ai ዋና ገንቢ ፕሮግራሙ የተለያየ ስሜት ያላቸውን ድምፆች ለማፍለቅ ብጁ ሞዴል ይጠቀማል ይላል። ደራሲው ገና በፕሮጀክቱ ላይ ዝርዝር ወረቀት ስላላተመ፣ ከመጋረጃው በስተጀርባ ስላለው ነገር ሰፋ ያለ ግምቶችን ማድረግ እንችላለን።
ፎነሞቹን በማውጣት ላይ
በመጀመሪያ, ፕሮግራሙ የመግቢያ ጽሑፉን እንዴት እንደሚተነተን እንመልከት. ፕሮግራሙ ንግግር ከማፍለቁ በፊት እያንዳንዱን ቃል ወደየራሳቸው የስልኮች ስብስብ መለወጥ አለበት። ለምሳሌ “ውሻ” የሚለው ቃል በሶስት ፎነሜሎች የተዋቀረ ነው፡- /d/፣/ɒ/፣ እና /ɡ/።
ግን 15.ai የትኞቹን ፎነሞች ለእያንዳንዱ ቃል መጠቀም እንዳለበት እንዴት ያውቃል?
በ 15.ai's About ገጽ መሰረት ፕሮግራሙ የመዝገበ-ቃላት ፍለጋ ሰንጠረዥን ይጠቀማል። ሠንጠረዡ የኦክስፎርድ መዝገበ ቃላት ኤፒአይን፣ ዊክሺነሪ እና የCMU አጠራር መዝገበ ቃላትን እንደ ምንጭ ይጠቀማል። 15.ai እንደ Reddit እና Urban Dictionary ያሉ ሌሎች ድህረ ገጾችን እንደ አዲስ ለተፈጠሩ ቃላት እና ሀረጎች ምንጭ ይጠቀማል።
በመዝገበ-ቃላቱ ውስጥ የትኛውም ቃል ከሌለ ፣ አጠራሩ የሚቀነሰው በሥነ-ድምጽ ህጎች በመጠቀም ነው ሊብሪቲኤስ የውሂብ ስብስብ. ይህ የውሂብ ስብስብ ኮርፐስ - በአፍ መፍቻ ቋንቋ ወይም ቀበሌኛ የተጻፈ ወይም የተነገሩ ቃላት ዳታ ስብስብ - በግምት 585 እንግሊዝኛ የሚናገሩ ሰዎች።
ስሜቶችን ማካተት
እንደ ገንቢው ከሆነ ሞዴሉ የግቤት ጽሑፉን የተገነዘበውን ስሜት ለመገመት ይሞክራል። ሞዴሉ ይህንን ተግባር በ DeepMoji በኩል ያከናውናል ስሜት ትንተና ሞዴል. ይህ ልዩ ሞዴል ቋንቋ ስሜትን ለመግለጽ እንዴት ጥቅም ላይ እንደሚውል የመረዳት ግብ ያለው በቢሊዮኖች በሚቆጠሩ ትዊቶች ላይ የሰለጠነ ነበር። የአምሳያው ውጤት ውጤቱን ወደሚፈለገው ስሜት ለማቀናበር በ TTS ሞዴል ውስጥ ተካቷል.
ፎነሞቹ እና ስሜቶቹ ከግቤት ጽሁፍ ከተወጡ በኋላ ንግግርን ለማዋሃድ ጊዜው አሁን ነው።
የድምፅ ክሎኒንግ እና ውህደት
እንደ 15.ai ያሉ የጽሑፍ-ወደ-ንግግር ሞዴሎች ብዙ ተናጋሪ ሞዴሎች በመባል ይታወቃሉ። እነዚህ ሞዴሎች በተለያዩ ድምፆች እንዴት እንደሚናገሩ ለመማር የተገነቡ ናቸው. ሞዴላችንን በትክክል ለማሰልጠን ልዩ የሆኑትን የድምጽ ባህሪያት የምናወጣበትን መንገድ መፈለግ እና ኮምፒዩተር ሊረዳው በሚችል መልኩ መወከል አለብን። ይህ ሂደት የድምጽ ማጉያ መክተት በመባል ይታወቃል።
የአሁኑ የጽሑፍ-ወደ-ንግግር ሞዴሎች ይጠቀማሉ የነርቭ ኔትወርኮች ትክክለኛውን የድምጽ ውጤት ለመፍጠር. የነርቭ አውታረመረብ በተለምዶ ሁለት ዋና ዋና ክፍሎችን ያቀፈ ነው-ኢንኮደር እና ዲኮደር።
ኢንኮደሩ በተለያዩ የግብአት ቬክተሮች ላይ ተመስርቶ ነጠላ ማጠቃለያ ቬክተር ለመገንባት ይሞክራል። ውጤቱ ምን መሆን እንዳለበት የሚያሳይ መረጃ ለመፍጠር ስለ ፎነሞቹ፣ ስሜት ቀስቃሽ ገጽታዎች እና የድምጽ ባህሪያት መረጃ ወደ ኢንኮደሩ ተቀምጧል። ዲኮደር ከዚያም ይህን ውክልና ወደ ኦዲዮ ይለውጠዋል እና በራስ የመተማመን ነጥብ ያስወጣል።
የ15.ai ዌብ አፕሊኬሽኑ ምርጥ ሶስት ውጤቶችን በተሻለ የመተማመን ነጥብ ይመልሳል።
ችግሮች
እንደ AI የመነጨ ይዘት እየጨመረ በመምጣቱ deepfakesእውነተኛ ሰዎችን መምሰል የሚችል የላቀ AI ማዳበር ከባድ የስነምግባር ጉዳይ ሊሆን ይችላል።
በአሁኑ ጊዜ፣ ከ15.ai የድር መተግበሪያ ውስጥ የምትመርጣቸው ድምጾች ሁሉም ምናባዊ ገፀ-ባህሪያት ናቸው። ነገር ግን፣ ያ መተግበሪያው በመስመር ላይ አንዳንድ ውዝግቦችን ከመፍጠር አላገደውም።
ጥቂት የድምጽ ተዋናዮች የድምፅ ክሎኒንግ ቴክኖሎጂን ወደ ኋላ ገፍተዋል። ከነሱ ስጋቶች መካከል ማስመሰል፣ ድምፃቸውን በግልፅ ይዘት መጠቀም እና ቴክኖሎጂው የድምጽ ተዋናዩን ሚና ከአገልግሎት ውጪ ሊያደርገው ይችላል።
በ2022 መጀመሪያ ላይ ቮይስቨርስ ኤንኤፍቲ የተባለ ኩባንያ 15.aiን ለገበያ ዘመቻቸው ይዘት ለማመንጨት እንደሚጠቀም ሲታወቅ ሌላ ውዝግብ ተከስቷል።
መደምደሚያ
ጽሑፍ-ወደ-ንግግር አስቀድሞ በዕለት ተዕለት ሕይወት ውስጥ በጣም ተስፋፍቷል። የድምጽ ረዳቶች፣ የጂፒኤስ አሳሾች። እና አውቶማቲክ የስልክ ጥሪዎች ቀድሞውኑ የተለመዱ ሆነዋል። ነገር ግን፣ እነዚህ መተግበሪያዎች በማሽን የተሰራ ንግግር መሆናቸውን ልንነግራቸው የምንችለው በግልፅ ሰው ያልሆኑ ናቸው።
ተፈጥሯዊ ድምጽ እና ስሜት ቀስቃሽ የTTS ቴክኖሎጂ ለአዳዲስ አፕሊኬሽኖች በር ሊከፍት ይችላል። ሆኖም፣ የድምጽ ክሎኒንግ ሥነ-ምግባር አሁንም በጥሩ ሁኔታ አጠራጣሪ ነው። ብዙ ተመራማሪዎች አልጎሪዝምን ከህዝብ ጋር ለማጋራት ለምን እንደፈለጉ በእርግጠኝነት ምክንያታዊ ነው።
መልስ ይስጡ