ოდესმე გსურდათ გესმოდეთ თქვენი საყვარელი პერსონაჟის საუბარი? ბუნებრივი ჟღერადობის ტექსტი-მეტყველება ნელ-ნელა რეალობად იქცევა მანქანური სწავლის დახმარებით.
მაგალითად, Google-ის NAT TTS მოდელი გამოიყენება მათი ახლის გასაძლიერებლად მორგებული ხმა სერვისი. ეს სერვისი იყენებს ნერვულ ქსელებს ჩანაწერებიდან მომზადებული ხმის შესაქმნელად. ვებ აპლიკაციები, როგორიცაა უბერდუკი გთავაზობთ ასობით ხმას, რომელთაგან შეგიძლიათ აირჩიოთ თქვენი საკუთარი სინთეზირებული ტექსტის შესაქმნელად.
ამ სტატიაში ჩვენ გადავხედავთ შთამბეჭდავ და თანაბრად იდუმალ AI მოდელს, რომელიც ცნობილია როგორც 15.ai. შექმნილია ანონიმური დეველოპერის მიერ, ის შეიძლება იყოს ერთ-ერთი ყველაზე ეფექტური და ემოციური ტექსტის მეტყველების მოდელები ჯერჯერობით.
რა არის 15.ai?
15.აი არის ხელოვნური ინტელექტის ვებ-აპლიკაცია, რომელსაც შეუძლია შექმნას ემოციური მაღალი სიზუსტის ტექსტი მეტყველების ხმები. მომხმარებლებს შეუძლიათ აირჩიონ სხვადასხვა ხმებიდან Spongebob SquarePants-დან HAL 9000-მდე 2001 წლიდან: კოსმოსური ოდისეა.
პროგრამა შეიმუშავა MIT-ის ანონიმურმა ყოფილმა მკვლევარმა, რომელიც მუშაობდა სახელწოდებით 15. დეველოპერმა განაცხადა, რომ პროექტი თავდაპირველად ჩაფიქრებული იყო, როგორც უნივერსიტეტის ბაკალავრიატის კვლევის შესაძლებლობების პროგრამის ნაწილი.
15.ai-ში ხელმისაწვდომი ბევრი ხმა მომზადებულია My Little Pony-ის პერსონაჟების საჯარო მონაცემთა ნაკრებებზე: Friendship is Magic. შოუს გულშემატკივრებმა შექმნეს ერთობლივი ძალისხმევა, რათა შეაგროვონ, გადმოწერონ და დაამუშავონ საათობით დიალოგი, რათა შექმნან მათი საყვარელი პერსონაჟების ზუსტი ტექსტის მეტყველების გენერატორები.
რა შეუძლია 15.ai-ს?
15.ai ვებ-აპლიკაცია მუშაობს ათობით გამოგონილი პერსონაჟიდან ერთ-ერთის არჩევით, რომელზეც მოდელმა გაიარა ტრენინგი და შეყვანის ტექსტის გაგზავნით. გენერირებაზე დაწკაპუნების შემდეგ მომხმარებელმა უნდა მიიღოს მოცემულ სტრიქონებზე მოლაპარაკე გამოგონილი პერსონაჟის სამი აუდიო კლიპი.
მას შემდეგ, რაც ღრმა სწავლება გამოყენებული მოდელი არადეტერმინისტულია, 15.ai ყოველ ჯერზე გამოსცემს ოდნავ განსხვავებულ მეტყველებას. ისევე, როგორც მსახიობმა შეიძლება მოითხოვოს მრავალი გადაღება სწორი მიწოდების მისაღებად, 15.ai ყოველ ჯერზე წარმოქმნის მიწოდების სხვადასხვა სტილს, სანამ მომხმარებელი არ იპოვის გამოსავალს, რომელიც მოსწონს.
პროექტი მოიცავს უნიკალურ ფუნქციას, რომელიც მომხმარებლებს საშუალებას აძლევს ხელით შეცვალონ გენერირებული ხაზის ემოცია ემოციური კონტექსტუალიზატორების გამოყენებით. ამ პარამეტრებს შეუძლიათ გამოიტანონ მომხმარებლის მიერ შეყვანილი emojis-ის განწყობა MIT-ის გამოყენებით DeepMoji მოდელი.
დეველოპერის თქმით, ის, რაც 15.ai-ს გამოარჩევს სხვა მსგავსი TTS პროგრამებისგან, არის ის, რომ მოდელი ეყრდნობა ძალიან მცირე მონაცემებს ხმების ზუსტად კლონირებისთვის, ხოლო „ემოციებისა და ბუნებრიობის ხელუხლებლად შენარჩუნებისას“.
როგორ მუშაობს 15.ai?
მოდით შევხედოთ ტექნოლოგიას 15.ai-ს უკან.
პირველ რიგში, 15.ai-ს მთავარი დეველოპერი ამბობს, რომ პროგრამა იყენებს მორგებულ მოდელს ემოციების განსხვავებული მდგომარეობის მქონე ხმების შესაქმნელად. ვინაიდან ავტორს ჯერ არ გამოუქვეყნებია დეტალური ნაშრომი პროექტის შესახებ, ჩვენ შეგვიძლია მხოლოდ ფართო ვარაუდების გაკეთება იმის შესახებ, თუ რა ხდება კულისებში.
ფონემების მოძიება
ჯერ ვნახოთ, როგორ აანალიზებს პროგრამა შეყვანის ტექსტს. სანამ პროგრამა შეძლებს მეტყველების გენერირებას, მან უნდა გადაიყვანოს თითოეული სიტყვა ფონემების შესაბამის კრებულში. მაგალითად, სიტყვა "ძაღლი" შედგება სამი ფონემისგან: /d/, /ɒ/ და /ɡ/.
მაგრამ როგორ იცის 15.ai-მა რომელი ფონემები გამოიყენოს თითოეული სიტყვისთვის?
15.ai-ს შესახებ გვერდის მიხედვით, პროგრამა იყენებს ლექსიკონის საძიებო ცხრილს. ცხრილი იყენებს Oxford Dictionaries API, Wiktionary და CMU Pronouncing Dictionary წყაროდ. 15.ai იყენებს სხვა საიტებს, როგორიცაა Reddit და Urban Dictionary, როგორც წყაროები ახლად შექმნილი ტერმინებისა და ფრაზებისთვის.
თუ რომელიმე მოცემული სიტყვა ლექსიკონში არ არსებობს, მისი გამოთქმა გამოითვლება ფონოლოგიური წესების გამოყენებით, რომლებიც მოდელმა ისწავლა. LibriTTS მონაცემთა ნაკრები. ეს მონაცემთა ნაკრები არის კორპუსი - წერილობითი ან სალაპარაკო სიტყვების ნაკრები მშობლიურ ენაზე ან დიალექტზე - ინგლისურად მოლაპარაკე ხალხის დაახლოებით 585 საათის განმავლობაში.
ემოციების ჩანერგვა
დეველოპერის თქმით, მოდელი ცდილობს გამოიცნოს შეყვანილი ტექსტის აღქმული ემოცია. მოდელი ამ ამოცანას DeepMoji-ის მეშვეობით ასრულებს განწყობის ანალიზი მოდელი. ამ კონკრეტულ მოდელს ავარჯიშებდნენ მილიარდობით ტვიტერზე emojis-ით, რათა გაეგოთ, თუ როგორ გამოიყენება ენა ემოციების გამოხატვისთვის. მოდელის შედეგი ჩართულია TTS მოდელში, რათა მანიპულირებდეს გამომავალს სასურველი ემოციისკენ.
მას შემდეგ, რაც ფონემები და გრძნობები ამოღებულია შეყვანის ტექსტიდან, ახლა დროა მეტყველების სინთეზირება.
ხმის კლონირება და სინთეზი
ტექსტის გადაცემის მოდელები, როგორიცაა 15.ai, ცნობილია როგორც მრავალხმიანი მოდელები. ეს მოდელები შექმნილია იმისთვის, რომ ისწავლონ სხვადასხვა ხმით საუბარი. იმისათვის, რომ სწორად მოვარჯულოთ ჩვენი მოდელი, ჩვენ უნდა ვიპოვოთ გზა, რომ ამოვიცნოთ უნიკალური ხმის მახასიათებლები და წარმოვადგინოთ ის ისე, რომ კომპიუტერმა გაიგოს. ეს პროცესი ცნობილია როგორც დინამიკის ჩაშენება.
ტექსტის მეტყველების ამჟამინდელი მოდელების გამოყენება ნეირონული ქსელები რეალური აუდიო გამოსავლის შესაქმნელად. ნერვული ქსელი, როგორც წესი, შედგება ორი ძირითადი ნაწილისაგან: შიფრატორი და დეკოდერი.
ენკოდერი ცდილობს შექმნას ერთი შემაჯამებელი ვექტორი სხვადასხვა შეყვანის ვექტორებზე დაყრდნობით. ინფორმაცია ფონემების, ემოციური ასპექტების და ხმის მახასიათებლების შესახებ მოთავსებულია ენკოდერში, რათა შეიქმნას წარმოდგენა იმის შესახებ, თუ რა უნდა იყოს გამომავალი. შემდეგ დეკოდერი გარდაქმნის ამ წარმოდგენას აუდიოში და გამოსცემს ნდობის ქულას.
შემდეგ 15.ai ვებ აპლიკაცია აბრუნებს საუკეთესო სამ შედეგს საუკეთესო ნდობის ქულით.
საკითხებში
ხელოვნური ინტელექტის გამომუშავებული კონტენტის ზრდასთან ერთად, როგორიცაა deepfakesმოწინავე ხელოვნური ინტელექტის განვითარება, რომელსაც შეუძლია რეალური ადამიანების მიბაძვა, შეიძლება სერიოზული ეთიკური საკითხი იყოს.
ამჟამად, ხმები, რომლებიც შეგიძლიათ აირჩიოთ 15.ai ვებ აპლიკაციიდან, ყველა გამოგონილი პერსონაჟია. თუმცა, ამან არ შეუშალა ხელი აპს ონლაინ კამათის მოპოვებაში.
რამდენიმე ხმის მსახიობმა უარი თქვა ხმის კლონირების ტექნოლოგიის გამოყენებაზე. მათგან შეშფოთება მოიცავს იმიტაციას, მათი ხმის გამოყენებას აშკარა კონტენტში და შესაძლებლობას, რომ ტექნოლოგიამ შესაძლოა მოძველებული გახადოს ხმის მსახიობის როლი.
კიდევ ერთი დაპირისპირება მოხდა ადრე 2022 წელს, როდესაც აღმოჩნდა, რომ კომპანია სახელად Voiceverse NFT იყენებდა 15.ai-ს მარკეტინგული კამპანიისთვის კონტენტის შესაქმნელად.
დასკვნა
ტექსტის მეტყველება უკვე საკმაოდ გავრცელებულია ყოველდღიურ ცხოვრებაში. ხმის ასისტენტები, GPS ნავიგატორები. და ავტომატური სატელეფონო ზარები უკვე ჩვეულებრივი გახდა. თუმცა, ეს აპლიკაციები აშკარად საკმარისად არაადამიანურია, რომ შეგვიძლია ვთქვათ, რომ ისინი მანქანური მეტყველებაა.
ბუნებრივი ჟღერადობის და ემოციური TTS ტექნოლოგიამ შესაძლოა ახალი აპლიკაციების კარი გააღოს. თუმცა, ხმის კლონირების ეთიკა საუკეთესო შემთხვევაში ჯერ კიდევ საეჭვოა. რა თქმა უნდა, ლოგიკურია, თუ რატომ არ სურდა ამ მკვლევართა უმრავლესობას ალგორითმის საზოგადოებასთან გაზიარება.
დატოვე პასუხი