ඔබේ ප්රියතම චරිතය ඔබ සමඟ කතා කරන ආකාරය ඇසීමට ඔබට කවදා හෝ අවශ්ය වී තිබේද? යන්ත්ර ඉගෙනීමේ සහාය ඇතිව ස්වභාවික-ශබ්ද පෙළ-කට-කථනය ක්රමක්රමයෙන් යථාර්ථයක් වෙමින් පවතී.
උදාහරණයක් ලෙස, Google හි NAT TTS ආකෘතිය ඔවුන්ගේ නව බලගැන්වීම සඳහා භාවිතා වේ අභිරුචි හඬ සේවාව. මෙම සේවාව පටිගත කිරීම් වලින් පුහුණු කරන ලද හඬක් උත්පාදනය කිරීමට ස්නායුක ජාල භාවිතා කරයි. වැනි වෙබ් යෙදුම් උබර්ඩක් ඔබේම සංස්ලේෂණය කළ පෙළ නිර්මාණය කිරීමට ඔබට තෝරා ගැනීමට කටහඬ සිය ගණනක් ලබා දෙන්න.
මෙම ලිපියෙන්, අපි 15.ai ලෙස හඳුන්වන ආකර්ෂණීය හා සමානව ප්රහේලිකාවක් වන AI ආකෘතිය දෙස බලමු. නිර්නාමික සංවර්ධකයෙකු විසින් නිර්මාණය කරන ලද, එය වඩාත් කාර්යක්ෂම හා චිත්තවේගීය එකක් විය හැකිය පෙළ-කට-කථන ආකෘති මේතාක්.
15.ai යනු කුමක්ද?
15.අයි චිත්තවේගීය අධි-විශ්වාසනීය පෙළ-කට-කථන හඬ ජනනය කිරීමේ හැකියාව ඇති AI වෙබ් යෙදුමකි. පරිශීලකයින්ට Spongebob Squarepants සිට HAL 9000 දක්වා 2001: A Space Odyssey දක්වා විවිධ හඬවල් වලින් තෝරාගත හැක.
මෙම වැඩසටහන 15 යන නමින් සේවය කරන නිර්නාමික හිටපු MIT පර්යේෂකයෙකු විසින් සංවර්ධනය කරන ලදී. මෙම ව්යාපෘතිය මුලින්ම විශ්ව විද්යාලයේ උපාධි අපේක්ෂක පර්යේෂණ අවස්ථා වැඩසටහනේ කොටසක් ලෙස සංකල්පනය කරන ලද බව සංවර්ධකයා ප්රකාශ කර ඇත.
15.ai හි ඇති බොහෝ කටහඬවල් My Little Pony: Friendship is Magic වෙතින් චරිතවල පොදු දත්ත කට්ටල මත පුහුණු කර ඇත. ප්රදර්ශනයේ උද්යෝගිමත් රසිකයින් ඔවුන්ගේ ප්රියතම චරිතවල නිවැරදි පාඨයෙන් කථනයට උත්පාදක යන්ත්ර සෑදීමේ අරමුණින් පැය ගණනක සංවාද එකතු කිරීමට, පිටපත් කිරීමට සහ ක්රියාවට නැංවීමට සහයෝගී ප්රයත්නයක් ගෙන ඇත.
15.ai හට කුමක් කළ හැකිද?
15.ai වෙබ් යෙදුම ක්රියා කරන්නේ ආකෘතිය පුහුණු කර ඇති ප්රබන්ධ චරිත දුසිම් ගණනකින් එකක් තෝරාගෙන ආදාන පෙළ ඉදිරිපත් කිරීමෙනි. උත්පාදනය ක්ලික් කිරීමෙන් පසු, පරිශීලකයාට ලබා දී ඇති පේළි කථා කරන ප්රබන්ධ චරිතයේ ශ්රව්ය ක්ලිප් තුනක් ලැබිය යුතුය.
සිට ගැඹුරු ඉගෙනුම භාවිතා කරන ලද ආකෘතිය නිර්ණය නොවන, 15.ai සෑම අවස්ථාවකම තරමක් වෙනස් කථාවක් ප්රතිදානය කරයි. නළුවෙකුට නිවැරදි බෙදා හැරීමක් ලබා ගැනීම සඳහා බහුවිධ ගත කිරීම් අවශ්ය වන ආකාරය හා සමානව, 15.ai පරිශීලකයා ඔවුන් කැමති ප්රතිදානයක් සොයා ගන්නා තෙක් සෑම අවස්ථාවකම විවිධ බෙදා හැරීමේ මෝස්තර ජනනය කරයි.
චිත්තවේගීය සන්දර්භගත කරන්නන් භාවිතයෙන් ජනනය කරන ලද රේඛාවේ හැඟීම් අතින් වෙනස් කිරීමට පරිශීලකයින්ට ඉඩ සලසන අද්විතීය විශේෂාංගයක් ව්යාපෘතියට ඇතුළත් වේ. මෙම පරාමිතිවලට MIT භාවිතා කරමින් පරිශීලක ආදාන ඉමෝජිවල හැඟීම් අඩු කිරීමට හැකි වේ DeepMoji ආකෘතිය.
සංවර්ධකයාට අනුව, අනෙකුත් සමාන TTS වැඩසටහන් වලින් 15.ai වෙන් කරන්නේ, "හැඟීම් සහ ස්වභාවික භාවය නොවෙනස්ව තබා ගනිමින්" හඬ නිවැරදිව ක්ලෝන කිරීමට ආකෘතිය ඉතා කුඩා දත්ත මත රඳා පවතී.
15.ai වැඩ කරන්නේ කෙසේද?
15.ai පිටුපස ඇති තාක්ෂණය දෙස බලමු.
පළමුව, 15.ai හි ප්රධාන සංවර්ධකයා පවසන්නේ මෙම වැඩසටහන විවිධ චිත්තවේගී තත්ත්වයන් සහිත හඬ උත්පාදනය කිරීමට අභිරුචි ආකෘතියක් භාවිතා කරන බවයි. කතුවරයා තවමත් ව්යාපෘතිය පිළිබඳ සවිස්තරාත්මක පත්රිකාවක් ප්රකාශයට පත් කර නොමැති බැවින්, අපට කළ හැක්කේ තිරය පිටුපස සිදුවන දේ පිළිබඳ පුළුල් උපකල්පන පමණි.
දුරකථන ඇමතුම් ලබා ගැනීම
පළමුව, වැඩසටහන ආදාන පෙළ විග්රහ කරන්නේ කෙසේදැයි බලමු. වැඩසටහනට කථනය ජනනය කිරීමට පෙර, එය එක් එක් වචනය එහි අදාළ ශබ්ද කෝෂ එකතුව බවට පරිවර්තනය කළ යුතුය. උදාහරණයක් ලෙස, "බල්ලා" යන වචනය ශබ්ද තුනකින් සමන්විත වේ: /d/, /ɒ/, සහ /ɡ/.
නමුත් 15.ai එක් එක් වචනය සඳහා භාවිතා කළ යුතු ශබ්ද කෝෂ දන්නේ කෙසේද?
15.ai හි About පිටුවට අනුව, වැඩසටහන ශබ්ද කෝෂ බැලීමේ වගුවක් භාවිතා කරයි. වගුව Oxford Dictionaries API, Wiktionary සහ CMU උච්චාරණ ශබ්දකෝෂය මූලාශ්ර ලෙස භාවිතා කරයි. 15.ai විසින් අලුතින් නිර්මාණය කරන ලද පද සහ වාක්ය ඛණ්ඩ සඳහා මූලාශ්ර ලෙස Reddit සහ Urban Dictionary වැනි වෙනත් වෙබ් අඩවි භාවිතා කරයි.
කිසියම් වචනයක් ශබ්ද කෝෂයේ නොපවතියි නම්, එහි උච්චාරණය ආදර්ශයෙන් ඉගෙන ගෙන ඇති ශබ්ද විද්යාත්මක රීති භාවිතයෙන් අඩු කරනු ලැබේ. LibriTTS දත්ත කට්ටලය. මෙම දත්ත කට්ටලය යනු ස්වදේශීය භාෂාවකින් හෝ උපභාෂාවකින් ලිඛිත හෝ කථන වචනවල දත්ත කට්ටලයක් වන අතර එය ඉංග්රීසි කතා කරන පුද්ගලයින්ගේ දළ වශයෙන් පැය 585කි.
හැඟීම් කාවැද්දීම
සංවර්ධකයාට අනුව, ආකෘතිය ආදාන පෙළෙහි සංජානනීය හැඟීම් අනුමාන කිරීමට උත්සාහ කරයි. මෙම ආකෘතිය DeepMoji හරහා මෙම කාර්යය ඉටු කරයි මනෝ විශ්ලේෂණයකි ආකෘතිය. මෙම විශේෂිත ආකෘතිය හැඟීම් ප්රකාශ කිරීමට භාෂාව භාවිතා කරන ආකාරය අවබෝධ කර ගැනීමේ අරමුණින් ඉමෝජි සහිත ට්වීට් බිලියන ගණනක් පිළිබඳව පුහුණු කරන ලදී. ආකෘතියේ ප්රතිඵලය TTS ආකෘතියට ඇතුළත් කර අපේක්ෂිත චිත්තවේගයන් වෙත ප්රතිදානය හසුරුවයි.
ආදාන පෙළෙන් ශබ්ද සහ හැඟීම් උපුටා ගත් පසු, දැන් කථනය සංස්ලේෂණය කිරීමට කාලයයි.
හඬ ක්ලෝනීකරණය සහ සංශ්ලේෂණය
15.ai වැනි Text-to-speech ආකෘති බහු-කථික ආකෘති ලෙස හැඳින්වේ. විවිධ කටහඬින් කතා කරන ආකාරය ඉගෙන ගැනීමට හැකි වන පරිදි මෙම ආකෘති ගොඩනගා ඇත. අපගේ ආකෘතිය නිසියාකාරව පුහුණු කිරීම සඳහා, අප විසින් අනන්ය හඬ විශේෂාංග උකහා ගැනීමට ක්රමයක් සොයා ගත යුතු අතර එය පරිගණකයකට තේරුම් ගත හැකි ආකාරයෙන් නිරූපණය කළ යුතුය. මෙම ක්රියාවලිය ස්පීකර් කාවැද්දීම ලෙස හැඳින්වේ.
වත්මන් පෙළ සිට කථන ආකෘති භාවිතා වේ ස්නායු ජාල සැබෑ ශ්රව්ය ප්රතිදානය නිර්මාණය කිරීමට. ස්නායුක ජාලය සාමාන්යයෙන් ප්රධාන කොටස් දෙකකින් සමන්විත වේ: කේතකයක් සහ විකේතකයක්.
කේතකය විවිධ ආදාන දෛශික මත පදනම්ව තනි සාරාංශ දෛශිකයක් තැනීමට උත්සාහ කරයි. ප්රතිදානය කුමක් විය යුතුද යන්න නිරූපණය කිරීම සඳහා ශබ්ද විකාශන, චිත්තවේගීය අංග සහ හඬ විශේෂාංග පිළිබඳ තොරතුරු කේතකය තුළට දමනු ලැබේ. විකේතකය පසුව මෙම නිරූපණය ශ්රව්ය බවට පරිවර්තනය කර විශ්වාස ලකුණු ප්රතිදානය කරයි.
15.ai වෙබ් යෙදුම පසුව හොඳම විශ්වාසනීය ලකුණු සමඟ ඉහළම ප්රතිඵල තුන ලබා දෙයි.
ගැටලු
වැනි AI-උත්පාදිත අන්තර්ගතයේ නැගීම සමඟ deepfakes, සැබෑ මිනිසුන් අනුකරණය කළ හැකි උසස් AI සංවර්ධනය කිරීම බරපතල සදාචාරාත්මක ගැටලුවක් විය හැකිය.
දැනට, ඔබට 15.ai වෙබ් යෙදුමෙන් තෝරා ගත හැකි කටහඬවල් සියල්ලම කල්පිත චරිත වේ. කෙසේ වෙතත්, එය අන්තර්ජාලය හරහා යම් මතභේදයක් ඇති කර ගැනීමෙන් යෙදුම නතර කළේ නැත.
හඬ නළුවන් කිහිප දෙනෙක් හඬ ක්ලෝනකරණ තාක්ෂණය භාවිතා කිරීම පසුපසට තල්ලු කර ඇත. ඔවුන්ගෙන් ලැබෙන සැලකිලි අතරට පෙනී සිටීම, ඔවුන්ගේ කටහඬ පැහැදිලි අන්තර්ගතයේ භාවිතා කිරීම සහ තාක්ෂණයෙන් හඬ නළුවාගේ භූමිකාව යල්පැනීමට ඇති හැකියාව ඇතුළත් වේ.
තවත් මතභේදයක් ඇති වූයේ 2022 දී Voiceverse NFT නම් සමාගමක් ඔවුන්ගේ අලෙවිකරණ ව්යාපාරය සඳහා අන්තර්ගතය උත්පාදනය කිරීම සඳහා 15.ai භාවිතා කරන බව සොයා ගැනීමත් සමඟය.
නිගමනය
අකුරු-කථනය දැනටමත් දෛනික ජීවිතය තුළ බහුලව පවතී. හඬ සහායකයින්, GPS නාවිකයන්. සහ ස්වයංක්රීය දුරකථන ඇමතුම් දැනටමත් පොදු තැනක් වී ඇත. කෙසේ වෙතත්, මෙම යෙදුම් පැහැදිලිවම මනුෂ්ය නොවන බැවින් ඒවා යන්ත්රයෙන් සාදන ලද කථන බව අපට පැවසිය හැකිය.
ස්වභාවික ශබ්ද සහ චිත්තවේගීය TTS තාක්ෂණය නව යෙදුම් සඳහා දොර විවෘත කළ හැකිය. කෙසේ වෙතත්, කටහඬ ක්ලෝනීකරණයේ ආචාර ධර්ම තවමත් ප්රශ්නකාරී ය. මෙම පර්යේෂකයන් බොහෝ දෙනෙක් ඇල්ගොරිතම මහජනයා සමඟ බෙදා ගැනීමට මැලි වී ඇත්තේ මන්දැයි නිසැකවම අර්ථවත් කරයි.
ඔබමයි