നിങ്ങളുടെ പ്രിയപ്പെട്ട കഥാപാത്രം നിങ്ങളോട് സംസാരിക്കുന്നത് കേൾക്കാൻ നിങ്ങൾ എപ്പോഴെങ്കിലും ആഗ്രഹിച്ചിട്ടുണ്ടോ? മെഷീൻ ലേണിംഗിന്റെ സഹായത്തോടെ സ്വാഭാവിക ശബ്ദമുള്ള ടെക്സ്റ്റ്-ടു-സ്പീച്ച് പതുക്കെ യാഥാർത്ഥ്യമാകുകയാണ്.
ഉദാഹരണത്തിന്, ഗൂഗിളിന്റെ NAT TTS മോഡൽ അവരുടെ പുതിയ പവർ ചെയ്യാൻ ഉപയോഗിക്കുന്നു ഇഷ്ടാനുസൃത ശബ്ദം സേവനം. റെക്കോർഡിംഗുകളിൽ നിന്ന് പരിശീലനം ലഭിച്ച ഒരു ശബ്ദം സൃഷ്ടിക്കാൻ ഈ സേവനം ന്യൂറൽ നെറ്റ്വർക്കുകൾ ഉപയോഗിക്കുന്നു. പോലുള്ള വെബ് ആപ്പുകൾ ഉബർഡക്ക് നിങ്ങളുടെ സ്വന്തം സിന്തസൈസ് ചെയ്ത ടെക്സ്റ്റ് സൃഷ്ടിക്കുന്നതിന് തിരഞ്ഞെടുക്കാൻ നൂറുകണക്കിന് ശബ്ദങ്ങൾ നൽകുക.
ഈ ലേഖനത്തിൽ, 15.ai എന്നറിയപ്പെടുന്ന ആകർഷകവും തുല്യമായ നിഗൂഢവുമായ AI മോഡലിനെ ഞങ്ങൾ പരിശോധിക്കും. ഒരു അജ്ഞാത ഡെവലപ്പർ സൃഷ്ടിച്ചത്, ഇത് ഏറ്റവും കാര്യക്ഷമവും വൈകാരികവുമായ ഒന്നായിരിക്കാം ടെക്സ്റ്റ്-ടു-സ്പീച്ച് മോഡലുകൾ ഇതുവരെ.
എന്താണ് 15.AI?
15.ഐ വൈകാരികമായ ഉയർന്ന വിശ്വാസ്യതയുള്ള ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ശബ്ദങ്ങൾ സൃഷ്ടിക്കാൻ കഴിവുള്ള ഒരു AI വെബ് ആപ്ലിക്കേഷനാണ്. ഉപയോക്താക്കൾക്ക് Spongebob Squarepants മുതൽ HAL 9000 വരെയുള്ള വിവിധ ശബ്ദങ്ങളിൽ നിന്ന് 2001: A Space Odyssey തിരഞ്ഞെടുക്കാം.
15 എന്ന പേരിൽ പ്രവർത്തിക്കുന്ന ഒരു അജ്ഞാത മുൻ എംഐടി ഗവേഷകനാണ് പ്രോഗ്രാം വികസിപ്പിച്ചത്. യൂണിവേഴ്സിറ്റിയുടെ ബിരുദ ഗവേഷണ അവസരങ്ങളുടെ പ്രോഗ്രാമിന്റെ ഭാഗമായാണ് പദ്ധതി ആദ്യം വിഭാവനം ചെയ്തതെന്ന് ഡവലപ്പർ പറഞ്ഞു.
15.AI-ൽ ലഭ്യമായ പല ശബ്ദങ്ങളും മൈ ലിറ്റിൽ പോണി: ഫ്രണ്ട്ഷിപ്പ് ഈസ് മാജിക് എന്നതിൽ നിന്നുള്ള കഥാപാത്രങ്ങളുടെ പൊതു ഡാറ്റാസെറ്റുകളിൽ പരിശീലനം നേടിയവയാണ്. ഷോയുടെ കടുത്ത ആരാധകർ അവരുടെ പ്രിയപ്പെട്ട കഥാപാത്രങ്ങളുടെ കൃത്യമായ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് ജനറേറ്ററുകൾ സൃഷ്ടിക്കുക എന്ന ലക്ഷ്യത്തോടെ മണിക്കൂറുകളോളം ഡയലോഗ് ശേഖരിക്കാനും ട്രാൻസ്ക്രൈബ് ചെയ്യാനും പ്രോസസ്സ് ചെയ്യാനും ഒരു സഹകരണ ശ്രമം നടത്തി.
15.AI ന് എന്ത് ചെയ്യാൻ കഴിയും?
മോഡൽ പരിശീലിപ്പിച്ച ഡസൻ കണക്കിന് സാങ്കൽപ്പിക കഥാപാത്രങ്ങളിൽ ഒന്ന് തിരഞ്ഞെടുത്ത് ഇൻപുട്ട് വാചകം സമർപ്പിച്ചുകൊണ്ട് 15.ai വെബ് ആപ്ലിക്കേഷൻ പ്രവർത്തിക്കുന്നു. ജനറേറ്റ് എന്നതിൽ ക്ലിക്ക് ചെയ്ത ശേഷം, നൽകിയിരിക്കുന്ന വരികൾ സംസാരിക്കുന്ന സാങ്കൽപ്പിക കഥാപാത്രത്തിന്റെ മൂന്ന് ഓഡിയോ ക്ലിപ്പുകൾ ഉപയോക്താവിന് ലഭിക്കണം.
പിന്നീട് ആഴത്തിലുള്ള പഠനം ഉപയോഗിച്ച മോഡൽ നിർണ്ണായകമല്ല, 15.AI ഓരോ തവണയും അല്പം വ്യത്യസ്തമായ സംഭാഷണം നൽകുന്നു. ശരിയായ ഡെലിവറി ലഭിക്കാൻ ഒരു നടന് ഒന്നിലധികം ടേക്കുകൾ ആവശ്യമായി വരുന്നത് പോലെ, ഉപയോക്താവ് അവർക്കിഷ്ടമുള്ള ഒരു ഔട്ട്പുട്ട് കണ്ടെത്തുന്നതുവരെ ഓരോ തവണയും 15.ai വ്യത്യസ്ത ഡെലിവറി ശൈലികൾ സൃഷ്ടിക്കുന്നു.
ഇമോഷണൽ സാന്ദർഭികവൽക്കരണങ്ങൾ ഉപയോഗിച്ച് ജനറേറ്റഡ് ലൈനിന്റെ വികാരം സ്വമേധയാ മാറ്റാൻ ഉപയോക്താക്കളെ അനുവദിക്കുന്ന ഒരു സവിശേഷ സവിശേഷത പ്രോജക്റ്റിൽ ഉൾപ്പെടുന്നു. ഈ പാരാമീറ്ററുകൾക്ക് MIT-കൾ ഉപയോഗിച്ച് ഉപയോക്തൃ-ഇൻപുട്ട് ഇമോജികളുടെ വികാരം മനസ്സിലാക്കാൻ കഴിയും ദീപ്മോജി മാതൃക.
ഡെവലപ്പർ പറയുന്നതനുസരിച്ച്, സമാനമായ മറ്റ് ടിടിഎസ് പ്രോഗ്രാമുകളിൽ നിന്ന് 15.AI-യെ വ്യത്യസ്തമാക്കുന്നത്, "വികാരങ്ങളും സ്വാഭാവികതയും കേടുകൂടാതെയിരിക്കുമ്പോൾ" ശബ്ദങ്ങൾ കൃത്യമായി ക്ലോൺ ചെയ്യുന്നതിന് മോഡൽ വളരെ കുറച്ച് ഡാറ്റയെ ആശ്രയിക്കുന്നു എന്നതാണ്.
15.AI എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?
15.AI-ന് പിന്നിലെ സാങ്കേതികവിദ്യയിലേക്ക് നോക്കാം.
ആദ്യം, 15.ai-യുടെ പ്രധാന ഡെവലപ്പർ പറയുന്നത്, വ്യത്യസ്തമായ വികാരങ്ങളുള്ള ശബ്ദങ്ങൾ സൃഷ്ടിക്കുന്നതിന് പ്രോഗ്രാം ഒരു ഇഷ്ടാനുസൃത മോഡൽ ഉപയോഗിക്കുന്നു എന്നാണ്. രചയിതാവ് പ്രോജക്റ്റിനെക്കുറിച്ച് വിശദമായ ഒരു പേപ്പർ ഇതുവരെ പ്രസിദ്ധീകരിച്ചിട്ടില്ലാത്തതിനാൽ, തിരശ്ശീലയ്ക്ക് പിന്നിൽ എന്താണ് സംഭവിക്കുന്നതെന്ന് നമുക്ക് വിശാലമായ അനുമാനങ്ങൾ മാത്രമേ നടത്താൻ കഴിയൂ.
ഫോണുകൾ വീണ്ടെടുക്കുന്നു
ആദ്യം, പ്രോഗ്രാം ഇൻപുട്ട് ടെക്സ്റ്റ് പാഴ്സ് ചെയ്യുന്നതെങ്ങനെയെന്ന് നോക്കാം. പ്രോഗ്രാമിന് സംഭാഷണം സൃഷ്ടിക്കുന്നതിന് മുമ്പ്, അത് ഓരോ വാക്കും അതത് ഫോണുകളുടെ ശേഖരത്തിലേക്ക് പരിവർത്തനം ചെയ്യണം. ഉദാഹരണത്തിന്, "നായ" എന്ന വാക്ക് മൂന്ന് ശബ്ദങ്ങൾ ഉൾക്കൊള്ളുന്നു: /d/, /ɒ/, /ɡ/.
എന്നാൽ ഓരോ വാക്കിനും ഏതൊക്കെ ഫോണുകൾ ഉപയോഗിക്കണമെന്ന് 15.AI എങ്ങനെ അറിയും?
15.ai യുടെ വിവര പേജ് അനുസരിച്ച്, പ്രോഗ്രാം ഒരു നിഘണ്ടു ലുക്ക്അപ്പ് പട്ടിക ഉപയോഗിക്കുന്നു. പട്ടിക ഓക്സ്ഫോർഡ് നിഘണ്ടുക്കളുടെ API, വിക്കിനിഘണ്ടു, CMU ഉച്ചാരണം നിഘണ്ടു എന്നിവ ഉറവിടങ്ങളായി ഉപയോഗിക്കുന്നു. 15.ai, Reddit, Urban Dictionary പോലുള്ള മറ്റ് വെബ്സൈറ്റുകൾ പുതുതായി രൂപപ്പെടുത്തിയ പദങ്ങൾക്കും ശൈലികൾക്കും ഉറവിടമായി ഉപയോഗിക്കുന്നു.
നിഘണ്ടുവിൽ നൽകിയിരിക്കുന്ന ഏതെങ്കിലും വാക്ക് നിലവിലില്ലെങ്കിൽ, മോഡൽ പഠിച്ച സ്വരശാസ്ത്ര നിയമങ്ങൾ ഉപയോഗിച്ച് അതിന്റെ ഉച്ചാരണം കുറയ്ക്കും. ലിബ്രിടിടിഎസ് ഡാറ്റാഗണം. ഈ ഡാറ്റാസെറ്റ് ഒരു കോർപ്പസ് ആണ്-ഒരു മാതൃഭാഷയിലോ ഭാഷയിലോ ഉള്ള ലിഖിതമോ സംസാരിക്കുന്നതോ ആയ വാക്കുകളുടെ ഒരു ഡാറ്റാസെറ്റ്-ഏകദേശം 585 മണിക്കൂർ ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ആളുകളുടെ.
വികാരങ്ങൾ ഉൾച്ചേർക്കുന്നു
ഡെവലപ്പർ പറയുന്നതനുസരിച്ച്, ഇൻപുട്ട് ടെക്സ്റ്റിന്റെ വികാരം ഊഹിക്കാൻ മോഡൽ ശ്രമിക്കുന്നു. ഡീപ്മോജി വഴിയാണ് മോഡൽ ഈ ടാസ്ക് നിർവ്വഹിക്കുന്നത് വികാര വിശകലനം മാതൃക. വികാരങ്ങൾ പ്രകടിപ്പിക്കാൻ ഭാഷ ഉപയോഗിക്കുന്നതെങ്ങനെയെന്ന് മനസിലാക്കുക എന്ന ലക്ഷ്യത്തോടെ ഇമോജികളുള്ള കോടിക്കണക്കിന് ട്വീറ്റുകളിലാണ് ഈ പ്രത്യേക മോഡൽ പരിശീലിപ്പിച്ചത്. ആവശ്യമുള്ള ഇമോഷനിലേക്ക് ഔട്ട്പുട്ട് കൈകാര്യം ചെയ്യുന്നതിനായി മോഡലിന്റെ ഫലം TTS മോഡലിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്.
ഇൻപുട്ട് ടെക്സ്റ്റിൽ നിന്ന് സ്വരസൂചകങ്ങളും വികാരങ്ങളും എക്സ്ട്രാക്റ്റുചെയ്തുകഴിഞ്ഞാൽ, സംഭാഷണം സമന്വയിപ്പിക്കാനുള്ള സമയമാണിത്.
വോയ്സ് ക്ലോണിംഗും സിന്തസിസും
15.AI പോലുള്ള ടെക്സ്റ്റ്-ടു-സ്പീച്ച് മോഡലുകൾ മൾട്ടി-സ്പീക്കർ മോഡലുകൾ എന്നറിയപ്പെടുന്നു. വ്യത്യസ്ത ശബ്ദങ്ങളിൽ എങ്ങനെ സംസാരിക്കണമെന്ന് പഠിക്കാൻ കഴിയുന്ന തരത്തിലാണ് ഈ മോഡലുകൾ നിർമ്മിച്ചിരിക്കുന്നത്. ഞങ്ങളുടെ മോഡലിനെ ശരിയായി പരിശീലിപ്പിക്കുന്നതിന്, തനതായ ശബ്ദ സവിശേഷതകൾ എക്സ്ട്രാക്റ്റുചെയ്യാനും കമ്പ്യൂട്ടറിന് മനസ്സിലാക്കാൻ കഴിയുന്ന രീതിയിൽ അതിനെ പ്രതിനിധീകരിക്കാനും ഞങ്ങൾ ഒരു വഴി കണ്ടെത്തണം. ഈ പ്രക്രിയയെ സ്പീക്കർ എംബെഡിംഗ് എന്ന് വിളിക്കുന്നു.
നിലവിലെ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് മോഡലുകൾ ഉപയോഗിക്കുന്നു ന്യൂറൽ നെറ്റ്വർക്കുകൾ യഥാർത്ഥ ഓഡിയോ ഔട്ട്പുട്ട് സൃഷ്ടിക്കാൻ. ന്യൂറൽ നെറ്റ്വർക്ക് സാധാരണയായി രണ്ട് പ്രധാന ഭാഗങ്ങൾ ഉൾക്കൊള്ളുന്നു: ഒരു എൻകോഡറും ഡീകോഡറും.
വിവിധ ഇൻപുട്ട് വെക്റ്ററുകളെ അടിസ്ഥാനമാക്കി ഒരൊറ്റ സംഗ്രഹ വെക്റ്റർ നിർമ്മിക്കാൻ എൻകോഡർ ശ്രമിക്കുന്നു. ഔട്ട്പുട്ട് എന്തായിരിക്കണം എന്നതിന്റെ ഒരു പ്രാതിനിധ്യം സൃഷ്ടിക്കുന്നതിന് ഫോണുകൾ, വികാരപരമായ വശങ്ങൾ, വോയ്സ് സവിശേഷതകൾ എന്നിവയെക്കുറിച്ചുള്ള വിവരങ്ങൾ എൻകോഡറിൽ സ്ഥാപിച്ചിരിക്കുന്നു. ഡീകോഡർ ഈ പ്രാതിനിധ്യത്തെ ഓഡിയോയാക്കി മാറ്റുകയും ഒരു കോൺഫിഡൻസ് സ്കോർ ഔട്ട്പുട്ട് ചെയ്യുകയും ചെയ്യുന്നു.
15.ai വെബ് ആപ്ലിക്കേഷൻ മികച്ച കോൺഫിഡൻസ് സ്കോറോടെ മികച്ച മൂന്ന് ഫലങ്ങൾ നൽകുന്നു.
പ്രശ്നങ്ങൾ
പോലുള്ള AI- സൃഷ്ടിച്ച ഉള്ളടക്കത്തിന്റെ ഉയർച്ചയോടെ ദെഎപ്ഫകെസ്, യഥാർത്ഥ ആളുകളെ അനുകരിക്കാൻ കഴിയുന്ന നൂതന AI വികസിപ്പിക്കുന്നത് ഗുരുതരമായ ഒരു ധാർമ്മിക പ്രശ്നമാണ്.
നിലവിൽ, 15.ai വെബ് ആപ്ലിക്കേഷനിൽ നിന്ന് നിങ്ങൾക്ക് തിരഞ്ഞെടുക്കാവുന്ന ശബ്ദങ്ങളെല്ലാം സാങ്കൽപ്പിക കഥാപാത്രങ്ങളാണ്. എന്നിരുന്നാലും, അത് ഓൺലൈനിൽ ചില വിവാദങ്ങൾ സൃഷ്ടിക്കുന്നതിൽ നിന്ന് ആപ്പിനെ തടഞ്ഞില്ല.
വോയ്സ് ക്ലോണിംഗ് സാങ്കേതികവിദ്യയുടെ ഉപയോഗത്തിൽ നിന്ന് കുറച്ച് വോയ്സ് അഭിനേതാക്കൾ പിന്നോട്ട് പോയി. ആൾമാറാട്ടം, വ്യക്തമായ ഉള്ളടക്കത്തിൽ അവരുടെ ശബ്ദത്തിന്റെ ഉപയോഗം, ശബ്ദ നടന്റെ റോളിനെ സാങ്കേതികവിദ്യ കാലഹരണപ്പെടുത്താനുള്ള സാധ്യത എന്നിവ അവരിൽ നിന്നുള്ള ആശങ്കകളിൽ ഉൾപ്പെടുന്നു.
2022-ൽ Voiceverse NFT എന്ന കമ്പനി തങ്ങളുടെ മാർക്കറ്റിംഗ് കാമ്പെയ്നിനായി ഉള്ളടക്കം സൃഷ്ടിക്കാൻ 15.ai ഉപയോഗിക്കുന്നതായി കണ്ടെത്തിയപ്പോൾ മറ്റൊരു വിവാദം ഉണ്ടായി.
തീരുമാനം
ദൈനംദിന ജീവിതത്തിൽ ടെക്സ്റ്റ് ടു സ്പീച്ച് ഇതിനകം തന്നെ പ്രചാരത്തിലുണ്ട്. വോയ്സ് അസിസ്റ്റന്റുമാർ, ജിപിഎസ് നാവിഗേറ്റർമാർ. കൂടാതെ ഓട്ടോമേറ്റഡ് ഫോൺ കോളുകൾ ഇതിനകം തന്നെ ഒരു സാധാരണ സ്ഥലമായി മാറിയിരിക്കുന്നു. എന്നിരുന്നാലും, ഈ ആപ്ലിക്കേഷനുകൾ വ്യത്യസ്തമായി മനുഷ്യരല്ലാത്തവയാണ്, അവ മെഷീൻ നിർമ്മിത സംഭാഷണമാണെന്ന് നമുക്ക് പറയാൻ കഴിയും.
പ്രകൃതിദത്തവും വൈകാരികവുമായ TTS സാങ്കേതികവിദ്യ പുതിയ ആപ്ലിക്കേഷനുകൾക്കായി വാതിൽ തുറന്നേക്കാം. എന്നിരുന്നാലും, വോയിസ് ക്ലോണിംഗിന്റെ നൈതികത ഇപ്പോഴും സംശയാസ്പദമാണ്. ഈ ഗവേഷകരിൽ പലരും അൽഗോരിതം പൊതുജനങ്ങളുമായി പങ്കിടാൻ വിമുഖത കാണിക്കുന്നത് എന്തുകൊണ്ടാണെന്ന് തീർച്ചയായും അർത്ഥമുണ്ട്.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക