શું તમે ક્યારેય તમારા મનપસંદ પાત્રની તમારી સાથે વાત સાંભળવા માંગતા હતા? મશીન લર્નિંગની મદદથી કુદરતી-ધ્વનિયુક્ત ટેક્સ્ટ-ટુ-સ્પીચ ધીમે ધીમે વાસ્તવિકતા બની રહ્યું છે.
ઉદાહરણ તરીકે, Google ના NAT TTS મોડલનો ઉપયોગ તેમના નવા પાવર માટે કરવામાં આવી રહ્યો છે કસ્ટમ વૉઇસ સેવા આ સેવા રેકોર્ડિંગમાંથી પ્રશિક્ષિત વૉઇસ જનરેટ કરવા માટે ન્યુરલ નેટવર્કનો ઉપયોગ કરે છે. વેબ એપ્લિકેશન્સ જેમ કે ઉબેરડુક તમારા પોતાના સંશ્લેષિત ટેક્સ્ટ બનાવવા માટે તમને પસંદ કરવા માટે સેંકડો અવાજો પ્રદાન કરો.
આ લેખમાં, અમે 15.ai તરીકે ઓળખાતા પ્રભાવશાળી અને સમાન ભેદી AI મોડલને જોઈશું. એક અનામી વિકાસકર્તા દ્વારા બનાવેલ, તે સૌથી કાર્યક્ષમ અને ભાવનાત્મક હોઈ શકે છે ટેક્સ્ટ-ટુ-સ્પીચ મોડલ્સ અત્યાર સુધી.
15.ai શું છે?
15.એઆઈ એક એઆઈ વેબ એપ્લિકેશન છે જે ભાવનાત્મક ઉચ્ચ-વફાદારી ટેક્સ્ટ-ટુ-સ્પીચ અવાજો જનરેટ કરવામાં સક્ષમ છે. વપરાશકર્તાઓ 9000: A Space Odyssey થી Spongebob Squarepants થી HAL 2001 સુધીના વિવિધ અવાજોમાંથી પસંદ કરી શકે છે.
આ પ્રોગ્રામ 15 નામ હેઠળ કામ કરતા એક અનામી ભૂતપૂર્વ MIT સંશોધક દ્વારા વિકસાવવામાં આવ્યો હતો. વિકાસકર્તાએ જણાવ્યું છે કે આ પ્રોજેક્ટ શરૂઆતમાં યુનિવર્સિટીના અંડરગ્રેજ્યુએટ રિસર્ચ ઓપોર્ચ્યુનિટીઝ પ્રોગ્રામના ભાગ રૂપે કલ્પના કરવામાં આવ્યો હતો.
15.ai માં ઉપલબ્ધ ઘણા અવાજો My Little Pony: Friendship is Magic ના પાત્રોના જાહેર ડેટાસેટ્સ પર પ્રશિક્ષિત છે. શોના ઉત્સુક ચાહકોએ તેમના મનપસંદ પાત્રોના સચોટ ટેક્સ્ટ-ટુ-સ્પીચ જનરેટર બનાવવાના ધ્યેય સાથે સંવાદના કલાકો એકત્રિત કરવા, ટ્રાન્સક્રિપ્ટ કરવા અને પ્રક્રિયા કરવા માટે એક સહયોગી પ્રયાસની રચના કરી છે.
15.ai શું કરી શકે?
15.ai વેબ એપ્લિકેશન ડઝનેક કાલ્પનિક પાત્રોમાંથી એકને પસંદ કરીને અને ઇનપુટ ટેક્સ્ટ સબમિટ કરીને કાર્ય કરે છે જેના પર મોડેલને તાલીમ આપવામાં આવી છે. જનરેટ પર ક્લિક કર્યા પછી, વપરાશકર્તાને આપેલ લીટીઓ બોલતા કાલ્પનિક પાત્રની ત્રણ ઓડિયો ક્લિપ્સ પ્રાપ્ત કરવી જોઈએ.
ત્યારથી ઊંડા શિક્ષણ વપરાયેલ મોડેલ બિનનિર્ધારિત છે, 15.ai દરેક વખતે થોડી અલગ ભાષણ આપે છે. યોગ્ય ડિલિવરી મેળવવા માટે અભિનેતાને કેવી રીતે બહુવિધ ટેકની જરૂર પડી શકે છે તે જ રીતે, 15.ai દરેક વખતે અલગ-અલગ ડિલિવરી શૈલીઓ જનરેટ કરે છે જ્યાં સુધી વપરાશકર્તાને તેમને ગમતું આઉટપુટ ન મળે.
આ પ્રોજેક્ટમાં એક અનોખી સુવિધાનો સમાવેશ થાય છે જે વપરાશકર્તાઓને ભાવનાત્મક સંદર્ભકનો ઉપયોગ કરીને જનરેટેડ લાઇનની લાગણીઓને મેન્યુઅલી બદલવાની મંજૂરી આપે છે. આ પરિમાણો એમઆઈટીનો ઉપયોગ કરીને વપરાશકર્તા-ઈનપુટ ઈમોજીસની લાગણીને અનુમાનિત કરવામાં સક્ષમ છે. ડીપમોજી મોડેલ
ડેવલપરના જણાવ્યા મુજબ, અન્ય સમાન TTS પ્રોગ્રામ્સ સિવાય 15.ai જે સેટ કરે છે તે એ છે કે મોડલ "લાગણીઓ અને પ્રાકૃતિકતાને અકબંધ રાખીને" અવાજોને સચોટ રીતે ક્લોન કરવા માટે ખૂબ ઓછા ડેટા પર આધાર રાખે છે.
15.ai કેવી રીતે કામ કરે છે?
ચાલો 15.ai પાછળની ટેક્નોલોજી જોઈએ.
સૌપ્રથમ, 15.ai ના મુખ્ય વિકાસકર્તા કહે છે કે પ્રોગ્રામ લાગણીની વિવિધ સ્થિતિઓ સાથે અવાજો ઉત્પન્ન કરવા માટે કસ્ટમ મોડેલનો ઉપયોગ કરે છે. લેખકે હજી સુધી પ્રોજેક્ટ પર વિગતવાર પેપર પ્રકાશિત કરવાનું બાકી હોવાથી, અમે પડદા પાછળ શું થઈ રહ્યું છે તેની વ્યાપક ધારણાઓ જ કરી શકીએ છીએ.
Phonemes પુનઃપ્રાપ્ત કરી રહ્યા છીએ
પ્રથમ, ચાલો જોઈએ કે પ્રોગ્રામ ઇનપુટ ટેક્સ્ટને કેવી રીતે પાર્સ કરે છે. પ્રોગ્રામ ભાષણ જનરેટ કરી શકે તે પહેલાં, તેણે દરેક વ્યક્તિગત શબ્દને તેના સંબંધિત ફોનમના સંગ્રહમાં રૂપાંતરિત કરવું આવશ્યક છે. ઉદાહરણ તરીકે, "કૂતરો" શબ્દ ત્રણ ફોનેમથી બનેલો છે: /d/, /ɒ/, અને /ɡ/.
પરંતુ 15.ai કેવી રીતે જાણી શકે છે કે દરેક શબ્દ માટે કયા ફોનેમ્સનો ઉપયોગ કરવો?
15.ai ના અબાઉટ પેજ મુજબ, પ્રોગ્રામ ડિક્શનરી લુકઅપ ટેબલનો ઉપયોગ કરે છે. કોષ્ટક Oxford Dictionaries API, Wiktionary, અને CMU ઉચ્ચારણ શબ્દકોશનો સ્ત્રોત તરીકે ઉપયોગ કરે છે. 15.ai અન્ય વેબસાઈટ જેમ કે Reddit અને Urban Dictionary નો ઉપયોગ નવા બનાવેલા શબ્દો અને શબ્દસમૂહો માટે સ્ત્રોત તરીકે કરે છે.
જો આપેલ કોઈપણ શબ્દ શબ્દકોશમાં અસ્તિત્વમાં નથી, તો તેના ઉચ્ચારને ઉચ્ચારણના નિયમોનો ઉપયોગ કરીને અનુમાનિત કરવામાં આવે છે જે મોડેલમાંથી શીખ્યા છે. LibriTTS ડેટાસેટ આ ડેટાસેટ એ એક કોર્પસ છે – મૂળ ભાષા અથવા બોલીમાં લખેલા અથવા બોલાતા શબ્દોનો ડેટાસેટ – લગભગ 585 કલાક અંગ્રેજી બોલતા લોકોનો.
એમ્બેડિંગ લાગણીઓ
વિકાસકર્તાના જણાવ્યા મુજબ, મોડેલ ઇનપુટ ટેક્સ્ટની કથિત લાગણીનો અનુમાન લગાવવાનો પ્રયાસ કરે છે. આ મોડેલ ડીપમોજી દ્વારા આ કાર્યને પૂર્ણ કરે છે ભાવના વિશ્લેષણ મોડેલ આ વિશિષ્ટ મોડેલને લાગણીઓને વ્યક્ત કરવા માટે ભાષાનો ઉપયોગ કેવી રીતે થાય છે તે સમજવાના ધ્યેય સાથે ઇમોજીસ સાથે અબજો ટ્વીટ્સ પર તાલીમ આપવામાં આવી હતી. ઇચ્છિત લાગણી તરફ આઉટપુટની હેરફેર કરવા માટે મોડેલનું પરિણામ TTS મોડેલમાં એમ્બેડ કરવામાં આવ્યું છે.
એકવાર ઇનપુટ ટેક્સ્ટમાંથી ફોનમ્સ અને સેન્ટિમેન્ટ કાઢવામાં આવ્યા પછી, હવે ભાષણને સંશ્લેષણ કરવાનો સમય છે.
વૉઇસ ક્લોનિંગ અને સિન્થેસિસ
ટેક્સ્ટ-ટુ-સ્પીચ મોડલ જેમ કે 15.ai મલ્ટિ-સ્પીકર મોડલ તરીકે ઓળખાય છે. આ મૉડલ અલગ-અલગ અવાજોમાં કેવી રીતે બોલવું તે શીખવા માટે સક્ષમ થવા માટે બનાવવામાં આવ્યા છે. અમારા મૉડલને યોગ્ય રીતે તાલીમ આપવા માટે, અમારે યુનિક વૉઇસ ફીચર્સ કાઢવાનો રસ્તો શોધવો જોઈએ અને કમ્પ્યુટર સમજી શકે તે રીતે તેને રજૂ કરવું જોઈએ. આ પ્રક્રિયાને સ્પીકર એમ્બેડિંગ તરીકે ઓળખવામાં આવે છે.
વર્તમાન ટેક્સ્ટ-ટુ-સ્પીચ મોડલ્સનો ઉપયોગ કરે છે ન્યુરલ નેટવર્ક્સ વાસ્તવિક ઓડિયો આઉટપુટ બનાવવા માટે. ન્યુરલ નેટવર્કમાં સામાન્ય રીતે બે મુખ્ય ભાગો હોય છે: એક એન્કોડર અને ડીકોડર.
એન્કોડર વિવિધ ઇનપુટ વેક્ટર પર આધારિત એક સારાંશ વેક્ટર બનાવવાનો પ્રયાસ કરે છે. આઉટપુટ શું હોવું જોઈએ તેની રજૂઆત બનાવવા માટે ફોનમ્સ, ભાવનાત્મક પાસાઓ અને અવાજની સુવિધાઓ વિશેની માહિતી એન્કોડરમાં મૂકવામાં આવે છે. પછી ડીકોડર આ રજૂઆતને ઓડિયોમાં રૂપાંતરિત કરે છે અને કોન્ફિડન્સ સ્કોર આઉટપુટ કરે છે.
15.ai વેબ એપ્લિકેશન પછી શ્રેષ્ઠ આત્મવિશ્વાસ સ્કોર સાથે ટોચના ત્રણ પરિણામો આપે છે.
મુદ્દાઓ
જેમ કે AI-જનરેટેડ સામગ્રીના ઉદય સાથે deepfakes, વાસ્તવિક લોકોની નકલ કરી શકે તેવા અદ્યતન AI વિકસાવવા એ ગંભીર નૈતિક સમસ્યા બની શકે છે.
હાલમાં, 15.ai વેબ એપ્લિકેશનમાંથી તમે જે અવાજો પસંદ કરી શકો છો તે બધા કાલ્પનિક પાત્રો છે. જો કે, તે એપ્લિકેશનને કેટલાક વિવાદો ઓનલાઈન મેળવવાથી રોકી શકી નથી.
કેટલાક વોઈસ એક્ટર્સે વોઈસ ક્લોનિંગ ટેક્નોલોજીના ઉપયોગ પર પીછેહઠ કરી છે. તેમની ચિંતાઓમાં ઢોંગ, સ્પષ્ટ સામગ્રીમાં તેમના અવાજનો ઉપયોગ અને ટેક્નોલોજી અવાજ અભિનેતાની ભૂમિકાને અપ્રચલિત કરી શકે તેવી સંભાવનાનો સમાવેશ કરે છે.
2022 ની શરૂઆતમાં બીજો વિવાદ થયો જ્યારે Voiceverse NFT નામની કંપની તેમના માર્કેટિંગ ઝુંબેશ માટે સામગ્રી જનરેટ કરવા માટે 15.ai નો ઉપયોગ કરી રહી હોવાનું જાણવા મળ્યું હતું.
ઉપસંહાર
દૈનિક જીવનમાં ટેક્સ્ટ-ટુ-સ્પીચ પહેલેથી જ પ્રચલિત છે. વૉઇસ સહાયકો, જીપીએસ નેવિગેટર્સ. અને ઓટોમેટેડ ફોન કોલ્સ પહેલાથી જ સામાન્ય બની ગયા છે. જો કે, આ એપ્લીકેશનો સ્પષ્ટપણે બિન-માનવીય છે કે અમે કહી શકીએ કે તેઓ મશીન-નિર્મિત ભાષણ છે.
નેચરલ-સાઉન્ડિંગ અને ઇમોટીવ TTS ટેક્નોલોજી નવી એપ્લિકેશનો માટે દરવાજા ખોલી શકે છે. જો કે, વૉઇસ ક્લોનિંગની નૈતિકતા હજુ પણ શ્રેષ્ઠ રીતે શંકાસ્પદ છે. તે ચોક્કસપણે અર્થપૂર્ણ છે કે શા માટે આમાંના ઘણા સંશોધકો લોકો સાથે અલ્ગોરિધમ શેર કરવામાં અનિચ્છા ધરાવે છે.
એક જવાબ છોડો