Երբևէ ցանկացե՞լ եք լսել ձեր սիրած կերպարը ձեզ հետ խոսելիս: Մեքենայի ուսուցման օգնությամբ բնական հնչողությամբ տեքստի փոխանցումը կամաց-կամաց իրականություն է դառնում:
Օրինակ, Google-ի NAT TTS մոդելն օգտագործվում է իրենց նորը սնուցելու համար Պատվերով ձայն սպասարկում. Այս ծառայությունը օգտագործում է նեյրոնային ցանցեր՝ ձայնագրություններից պատրաստված ձայն ստեղծելու համար: Վեբ հավելվածներ, ինչպիսիք են Uberduck ապահովել հարյուրավոր ձայներ, որոնցից կարող եք ընտրել ձեր սեփական սինթեզված տեքստը ստեղծելու համար:
Այս հոդվածում մենք կանդրադառնանք տպավորիչ և նույնքան հանելուկային AI մոդելին, որը հայտնի է որպես 15.ai: Ստեղծվել է անանուն մշակողի կողմից, այն կարող է լինել ամենաարդյունավետ և էմոցիոնալներից մեկը տեքստից խոսքի մոդելներ մինչ օրս:
Ի՞նչ է 15.ai-ն:
15.ai AI վեբ հավելված է, որն ի վիճակի է առաջացնել հուզական բարձր հավատարմություն տեքստից խոսքի ձայներ: Օգտատերերը կարող են ընտրել տարբեր ձայներից՝ Սպունգ Բոբ քառակուսի շալվարից մինչև HAL 9000 2001 թ.-ից. Տիեզերական ոդիսական:
Ծրագիրը մշակվել է MIT-ի անանուն նախկին հետազոտողի կողմից, որն աշխատում է 15 անունով: Մշակողը հայտարարել է, որ նախագիծն ի սկզբանե ստեղծվել է որպես համալսարանի բակալավրիատի հետազոտական հնարավորությունների ծրագրի մաս:
15.ai-ում հասանելի ձայներից շատերը պատրաստված են My Little Pony-ի կերպարների հանրային տվյալների հավաքածուների վրա. Friendship is Magic: Շոուի մոլի երկրպագուները համատեղ ջանքեր են գործադրել հավաքելու, արտագրելու և մշակելու ժամեր երկխոսություն՝ նպատակ ունենալով ստեղծել իրենց սիրելի հերոսների տեքստից խոսքի ճշգրիտ գեներատորներ:
Ի՞նչ կարող է անել 15.ai-ն:
15.ai վեբ հավելվածն աշխատում է՝ ընտրելով տասնյակ գեղարվեստական կերպարներից մեկը, որոնց վրա մոդելը վերապատրաստվել է և մուտքագրելով տեքստ: «Ստեղծել» սեղմելուց հետո օգտատերը պետք է ստանա տվյալ տողերով խոսող հորինված կերպարի երեք աուդիո հոլովակ:
Քանի որ խորը ուսուցում Օգտագործված մոդելը ոչ դետերմինիստական է, 15.ai-ն ամեն անգամ մի փոքր այլ ելույթ է թողարկում: Ինչպես դերասանը կարող է պահանջել մի քանի անգամ՝ ճիշտ առաքում ստանալու համար, 15.ai-ն ամեն անգամ ստեղծում է առաքման տարբեր ոճեր, մինչև օգտագործողը գտնի իր հավանած արդյունքը:
Նախագիծը ներառում է եզակի առանձնահատկություն, որը թույլ է տալիս օգտատերերին ձեռքով փոխել առաջացած գծի էմոցիաները՝ օգտագործելով էմոցիոնալ կոնտեքստուալիզատորներ: Այս պարամետրերը կարող են եզրակացնել օգտատերերի կողմից մուտքագրված էմոջիների տրամադրությունը MIT-ի միջոցով DeepMoji մոդելը:
Ըստ մշակողի, այն, ինչ առանձնացնում է 15.ai-ն այլ նմանատիպ TTS ծրագրերից, այն է, որ մոդելը հենվում է շատ քիչ տվյալների վրա՝ ձայները ճշգրիտ կլոնավորելու համար՝ «պահպանելով հույզերն ու բնականությունը»:
Ինչպե՞ս է աշխատում 15.ai-ն:
Եկեք նայենք 15.ai-ի հիմքում ընկած տեխնոլոգիային:
Նախ, 15.ai-ի հիմնական ծրագրավորողն ասում է, որ ծրագիրը օգտագործում է հատուկ մոդել՝ տարբեր զգացմունքներով ձայներ առաջացնելու համար: Քանի որ հեղինակը դեռ պետք է մանրամասն փաստաթուղթ հրապարակի նախագծի վերաբերյալ, մենք կարող ենք միայն լայն ենթադրություններ անել, թե ինչ է կատարվում կուլիսներում:
Հեռախոսների առբերում
Նախ, եկեք տեսնենք, թե ինչպես է ծրագիրը վերլուծում մուտքագրված տեքստը: Նախքան ծրագիրը կարող է խոսք առաջացնել, այն պետք է փոխակերպի յուրաքանչյուր առանձին բառ հնչյունների իր համապատասխան հավաքածուի: Օրինակ՝ «շուն» բառը կազմված է երեք հնչյուններից՝ /d/, /ɒ/ և /ɡ/:
Բայց ինչպե՞ս 15.ai-ն գիտի, թե որ հնչյուններն օգտագործել յուրաքանչյուր բառի համար:
Ըստ 15.ai-ի Օգտվողի էջի, ծրագիրն օգտագործում է բառարանի որոնման աղյուսակ: Աղյուսակը որպես աղբյուր օգտագործում է Oxford Dictionaries API-ն, Վիքիբառարանը և CMU-ի արտասանության բառարանը: 15.ai-ն օգտագործում է այլ կայքեր, ինչպիսիք են Reddit-ը և Urban Dictionary-ը, որպես նոր ստեղծած տերմինների և արտահայտությունների աղբյուրներ:
Եթե որևէ բառ գոյություն չունի բառարանում, ապա դրա արտասանությունը ձևակերպվում է հնչյունաբանական կանոնների միջոցով, որոնք մոդելը սովորել է LibriTTS տվյալների բազա։ Այս տվյալների հավաքածուն կազմված է` մայրենի լեզվով կամ բարբառով գրավոր կամ խոսակցական բառերի հավաքածու, որը բաղկացած է մոտավորապես 585 ժամ անգլերեն խոսող մարդկանցից:
Զգացմունքների ներդրում
Ըստ մշակողի՝ մոդելը փորձում է կռահել մուտքագրված տեքստի ընկալվող զգացմունքը։ Մոդելը կատարում է այս խնդիրը DeepMoji-ի միջոցով զգայական վերլուծություն մոդել. Այս կոնկրետ մոդելը վերապատրաստվել է միլիարդավոր թվիթերի վրա էմոջիներով՝ նպատակ ունենալով հասկանալ, թե ինչպես է լեզուն օգտագործվում զգացմունքներն արտահայտելու համար: Մոդելի արդյունքը ներդրված է TTS մոդելի մեջ՝ ելքը դեպի ցանկալի էմոցիան շահարկելու համար:
Երբ հնչյուններն ու զգացմունքները դուրս բերվեն մուտքագրված տեքստից, այժմ խոսքը սինթեզելու ժամանակն է:
Ձայնի կլոնավորում և սինթեզ
Տեքստից խոսող մոդելները, ինչպիսիք են 15.ai-ն, հայտնի են որպես բազմախոս մոդելներ: Այս մոդելները ստեղծվել են այնպես, որ կարողանան սովորել, թե ինչպես խոսել տարբեր ձայներով: Մեր մոդելը ճիշտ վարժեցնելու համար մենք պետք է ճանապարհ գտնենք ձայնային եզակի առանձնահատկությունները հանելու և այն համակարգչին հասկանալի ձևով ներկայացնելու համար: Այս գործընթացը հայտնի է որպես խոսնակների ներկառուցում:
Ընթացիկ տեքստի խոսքի մոդելների օգտագործումը նյարդային ցանցեր իրական ձայնային ելք ստեղծելու համար: Նյարդային ցանցը սովորաբար բաղկացած է երկու հիմնական մասից՝ կոդավորիչ և ապակոդավորիչ:
Կոդավորիչը փորձում է ստեղծել մեկ ամփոփիչ վեկտոր՝ հիմնված տարբեր մուտքային վեկտորների վրա: Հնչյունների, էմոցիոնալ ասպեկտների և ձայնային առանձնահատկությունների մասին տեղեկությունները տեղադրվում են կոդավորիչում, որպեսզի ստեղծվի ներկայացում, թե ինչպիսին պետք է լինի ելքը: Ապակոդավորիչը այնուհետև այս ներկայացումը վերածում է աուդիոի և թողարկում վստահության միավոր:
Այնուհետև 15.ai վեբ հավելվածը վերադարձնում է լավագույն երեք արդյունքները՝ վստահության լավագույն գնահատականով:
Հարցեր
AI-ի կողմից ստեղծված բովանդակության աճով, ինչպիսիք են deepfakes, զարգացած AI-ի զարգացումը, որը կարող է ընդօրինակել իրական մարդկանց, կարող է լուրջ էթիկական խնդիր լինել:
Ներկայումս ձայները, որոնք կարող եք ընտրել 15.ai վեբ հավելվածից, բոլորն էլ հորինված կերպարներ են: Այնուամենայնիվ, դա չխանգարեց, որ հավելվածը համացանցում որոշ հակասություններ հավաքի:
Մի քանի ձայնային դերասաններ հետ են մղել ձայնի կլոնավորման տեխնոլոգիայի կիրառումը: Նրանց մտահոգությունները ներառում են անձնավորումը, իրենց ձայնի օգտագործումը բացահայտ բովանդակության մեջ և հավանականությունը, որ տեխնոլոգիան կարող է հնացած դարձնել ձայնային դերակատարի դերը:
Մեկ այլ հակասություն տեղի ունեցավ ավելի վաղ՝ 2022 թվականին, երբ պարզվեց, որ Voiceverse NFT կոչվող ընկերությունը օգտագործում է 15.ai-ն՝ իրենց մարքեթինգային արշավի համար բովանդակություն ստեղծելու համար:
Եզրափակում
Տեքստ-խոսքն արդեն բավականին տարածված է առօրյա կյանքում: Ձայնային օգնականներ, GPS նավիգատորներ: իսկ ավտոմատացված հեռախոսազանգերն արդեն սովորական են դարձել: Այնուամենայնիվ, այս հավելվածները հստակորեն այնքան մարդկային չեն, որ մենք կարող ենք ասել, որ դրանք մեքենայական խոսք են:
Բնական հնչողությամբ և էմոցիոնալ TTS տեխնոլոգիան կարող է դուռ բացել նոր հավելվածների համար: Այնուամենայնիվ, ձայնի կլոնավորման էթիկան լավագույն դեպքում դեռ կասկածելի է: Իհարկե, իմաստ ունի, թե ինչու այս հետազոտողներից շատերը դժկամությամբ են կիսվել ալգորիթմով հանրության հետ:
Թողնել գրառում