15.ai – Բնական և զգացմունքային տեքստի փոխանցում՝ օգտագործելով նեյրոնային ցանցեր

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է 15.ai-ն:+-
- Ի՞նչ կարող է անել 15.ai-ն:
Ինչպե՞ս է աշխատում 15.ai-ն:+-
Հարցեր
Եզրափակում

Երբևէ ցանկացե՞լ եք լսել ձեր սիրած կերպարը ձեզ հետ խոսելիս: Մեքենայի ուսուցման օգնությամբ բնական հնչողությամբ տեքստի փոխանցումը կամաց-կամաց իրականություն է դառնում:

Օրինակ, Google-ի NAT TTS մոդելն օգտագործվում է իրենց նորը սնուցելու համար Պատվերով ձայն սպասարկում. Այս ծառայությունը օգտագործում է նեյրոնային ցանցեր՝ ձայնագրություններից պատրաստված ձայն ստեղծելու համար: Վեբ հավելվածներ, ինչպիսիք են Uberduck ապահովել հարյուրավոր ձայներ, որոնցից կարող եք ընտրել ձեր սեփական սինթեզված տեքստը ստեղծելու համար:

Այս հոդվածում մենք կանդրադառնանք տպավորիչ և նույնքան հանելուկային AI մոդելին, որը հայտնի է որպես 15.ai: Ստեղծվել է անանուն մշակողի կողմից, այն կարող է լինել ամենաարդյունավետ և էմոցիոնալներից մեկը տեքստից խոսքի մոդելներ մինչ օրս:

Ի՞նչ է 15.ai-ն:

15.ai AI վեբ հավելված է, որն ի վիճակի է առաջացնել հուզական բարձր հավատարմություն տեքստից խոսքի ձայներ: Օգտատերերը կարող են ընտրել տարբեր ձայներից՝ Սպունգ Բոբ քառակուսի շալվարից մինչև HAL 9000 2001 թ.-ից. Տիեզերական ոդիսական:

Ծրագիրը մշակվել է MIT-ի անանուն նախկին հետազոտողի կողմից, որն աշխատում է 15 անունով: Մշակողը հայտարարել է, որ նախագիծն ի սկզբանե ստեղծվել է որպես համալսարանի բակալավրիատի հետազոտական հնարավորությունների ծրագրի մաս:

15.ai-ում հասանելի ձայներից շատերը պատրաստված են My Little Pony-ի կերպարների հանրային տվյալների հավաքածուների վրա. Friendship is Magic: Շոուի մոլի երկրպագուները համատեղ ջանքեր են գործադրել հավաքելու, արտագրելու և մշակելու ժամեր երկխոսություն՝ նպատակ ունենալով ստեղծել իրենց սիրելի հերոսների տեքստից խոսքի ճշգրիտ գեներատորներ:

Ի՞նչ կարող է անել 15.ai-ն:

15.ai վեբ հավելվածն աշխատում է՝ ընտրելով տասնյակ գեղարվեստական կերպարներից մեկը, որոնց վրա մոդելը վերապատրաստվել է և մուտքագրելով տեքստ: «Ստեղծել» սեղմելուց հետո օգտատերը պետք է ստանա տվյալ տողերով խոսող հորինված կերպարի երեք աուդիո հոլովակ:

15.ai-ի հիմնական վեբ հավելվածը

Քանի որ խորը ուսուցում Օգտագործված մոդելը ոչ դետերմինիստական է, 15.ai-ն ամեն անգամ մի փոքր այլ ելույթ է թողարկում: Ինչպես դերասանը կարող է պահանջել մի քանի անգամ՝ ճիշտ առաքում ստանալու համար, 15.ai-ն ամեն անգամ ստեղծում է առաքման տարբեր ոճեր, մինչև օգտագործողը գտնի իր հավանած արդյունքը:

Նախագիծը ներառում է եզակի առանձնահատկություն, որը թույլ է տալիս օգտատերերին ձեռքով փոխել առաջացած գծի էմոցիաները՝ օգտագործելով էմոցիոնալ կոնտեքստուալիզատորներ: Այս պարամետրերը կարող են եզրակացնել օգտատերերի կողմից մուտքագրված էմոջիների տրամադրությունը MIT-ի միջոցով DeepMoji մոդելը:

Ըստ մշակողի, այն, ինչ առանձնացնում է 15.ai-ն այլ նմանատիպ TTS ծրագրերից, այն է, որ մոդելը հենվում է շատ քիչ տվյալների վրա՝ ձայները ճշգրիտ կլոնավորելու համար՝ «պահպանելով հույզերն ու բնականությունը»:

Ինչպե՞ս է աշխատում 15.ai-ն:

Եկեք նայենք 15.ai-ի հիմքում ընկած տեխնոլոգիային:

Նախ, 15.ai-ի հիմնական ծրագրավորողն ասում է, որ ծրագիրը օգտագործում է հատուկ մոդել՝ տարբեր զգացմունքներով ձայներ առաջացնելու համար: Քանի որ հեղինակը դեռ պետք է մանրամասն փաստաթուղթ հրապարակի նախագծի վերաբերյալ, մենք կարող ենք միայն լայն ենթադրություններ անել, թե ինչ է կատարվում կուլիսներում:

Հեռախոսների առբերում

Նախ, եկեք տեսնենք, թե ինչպես է ծրագիրը վերլուծում մուտքագրված տեքստը: Նախքան ծրագիրը կարող է խոսք առաջացնել, այն պետք է փոխակերպի յուրաքանչյուր առանձին բառ հնչյունների իր համապատասխան հավաքածուի: Օրինակ՝ «շուն» բառը կազմված է երեք հնչյուններից՝ /d/, /ɒ/ և /ɡ/:

Բայց ինչպե՞ս 15.ai-ն գիտի, թե որ հնչյուններն օգտագործել յուրաքանչյուր բառի համար:

Ըստ 15.ai-ի Օգտվողի էջի, ծրագիրն օգտագործում է բառարանի որոնման աղյուսակ: Աղյուսակը որպես աղբյուր օգտագործում է Oxford Dictionaries API-ն, Վիքիբառարանը և CMU-ի արտասանության բառարանը: 15.ai-ն օգտագործում է այլ կայքեր, ինչպիսիք են Reddit-ը և Urban Dictionary-ը, որպես նոր ստեղծած տերմինների և արտահայտությունների աղբյուրներ:

Եթե որևէ բառ գոյություն չունի բառարանում, ապա դրա արտասանությունը ձևակերպվում է հնչյունաբանական կանոնների միջոցով, որոնք մոդելը սովորել է LibriTTS տվյալների բազա։ Այս տվյալների հավաքածուն կազմված է` մայրենի լեզվով կամ բարբառով գրավոր կամ խոսակցական բառերի հավաքածու, որը բաղկացած է մոտավորապես 585 ժամ անգլերեն խոսող մարդկանցից:

Զգացմունքների ներդրում

15.ai մոդելը քաղում է տեքստի ընկալվող զգացմունքները

Ըստ մշակողի՝ մոդելը փորձում է կռահել մուտքագրված տեքստի ընկալվող զգացմունքը։ Մոդելը կատարում է այս խնդիրը DeepMoji-ի միջոցով զգայական վերլուծություն մոդել. Այս կոնկրետ մոդելը վերապատրաստվել է միլիարդավոր թվիթերի վրա էմոջիներով՝ նպատակ ունենալով հասկանալ, թե ինչպես է լեզուն օգտագործվում զգացմունքներն արտահայտելու համար: Մոդելի արդյունքը ներդրված է TTS մոդելի մեջ՝ ելքը դեպի ցանկալի էմոցիան շահարկելու համար:

Երբ հնչյուններն ու զգացմունքները դուրս բերվեն մուտքագրված տեքստից, այժմ խոսքը սինթեզելու ժամանակն է:

Ձայնի կլոնավորում և սինթեզ

Տեքստից խոսող մոդելները, ինչպիսիք են 15.ai-ն, հայտնի են որպես բազմախոս մոդելներ: Այս մոդելները ստեղծվել են այնպես, որ կարողանան սովորել, թե ինչպես խոսել տարբեր ձայներով: Մեր մոդելը ճիշտ վարժեցնելու համար մենք պետք է ճանապարհ գտնենք ձայնային եզակի առանձնահատկությունները հանելու և այն համակարգչին հասկանալի ձևով ներկայացնելու համար: Այս գործընթացը հայտնի է որպես խոսնակների ներկառուցում:

Ընթացիկ տեքստի խոսքի մոդելների օգտագործումը նյարդային ցանցեր իրական ձայնային ելք ստեղծելու համար: Նյարդային ցանցը սովորաբար բաղկացած է երկու հիմնական մասից՝ կոդավորիչ և ապակոդավորիչ:

նմուշ բազմախոս համակարգ

Կոդավորիչը փորձում է ստեղծել մեկ ամփոփիչ վեկտոր՝ հիմնված տարբեր մուտքային վեկտորների վրա: Հնչյունների, էմոցիոնալ ասպեկտների և ձայնային առանձնահատկությունների մասին տեղեկությունները տեղադրվում են կոդավորիչում, որպեսզի ստեղծվի ներկայացում, թե ինչպիսին պետք է լինի ելքը: Ապակոդավորիչը այնուհետև այս ներկայացումը վերածում է աուդիոի և թողարկում վստահության միավոր:

Այնուհետև 15.ai վեբ հավելվածը վերադարձնում է լավագույն երեք արդյունքները՝ վստահության լավագույն գնահատականով:

աուդիո ելքերը և դրանց համապատասխան վստահության միավորները

Հարցեր

AI-ի կողմից ստեղծված բովանդակության աճով, ինչպիսիք են deepfakes, զարգացած AI-ի զարգացումը, որը կարող է ընդօրինակել իրական մարդկանց, կարող է լուրջ էթիկական խնդիր լինել:

Ներկայումս ձայները, որոնք կարող եք ընտրել 15.ai վեբ հավելվածից, բոլորն էլ հորինված կերպարներ են: Այնուամենայնիվ, դա չխանգարեց, որ հավելվածը համացանցում որոշ հակասություններ հավաքի:

Մի քանի ձայնային դերասաններ հետ են մղել ձայնի կլոնավորման տեխնոլոգիայի կիրառումը: Նրանց մտահոգությունները ներառում են անձնավորումը, իրենց ձայնի օգտագործումը բացահայտ բովանդակության մեջ և հավանականությունը, որ տեխնոլոգիան կարող է հնացած դարձնել ձայնային դերակատարի դերը:

Մեկ այլ հակասություն տեղի ունեցավ ավելի վաղ՝ 2022 թվականին, երբ պարզվեց, որ Voiceverse NFT կոչվող ընկերությունը օգտագործում է 15.ai-ն՝ իրենց մարքեթինգային արշավի համար բովանդակություն ստեղծելու համար:

Եզրափակում

Տեքստ-խոսքն արդեն բավականին տարածված է առօրյա կյանքում: Ձայնային օգնականներ, GPS նավիգատորներ: իսկ ավտոմատացված հեռախոսազանգերն արդեն սովորական են դարձել: Այնուամենայնիվ, այս հավելվածները հստակորեն այնքան մարդկային չեն, որ մենք կարող ենք ասել, որ դրանք մեքենայական խոսք են:

Բնական հնչողությամբ և էմոցիոնալ TTS տեխնոլոգիան կարող է դուռ բացել նոր հավելվածների համար: Այնուամենայնիվ, ձայնի կլոնավորման էթիկան լավագույն դեպքում դեռ կասկածելի է: Իհարկե, իմաստ ունի, թե ինչու այս հետազոտողներից շատերը դժկամությամբ են կիսվել ալգորիթմով հանրության հետ:

15.ai – Բնական և էմոցիոնալ տեքստի փոխանցում՝ նեյրոնային ցանցերի միջոցով