શું તમે તમારા મનપસંદ કલાકારનો નવો રેકોર્ડ બનાવવા માટે AI નો ઉપયોગ કરી શકો છો?
મશીન લર્નિંગમાં તાજેતરની સફળતાઓ દર્શાવે છે કે મોડેલો હવે ટેક્સ્ટ અને ઈમેજીસ જેવા જટિલ ડેટાને સમજવામાં સક્ષમ છે. ઓપનએઆઈનું જ્યુકબોક્સ સાબિત કરે છે કે મ્યુઝિક પણ ન્યુરલ નેટવર્ક દ્વારા ચોક્કસ રીતે મોડેલ કરી શકાય છે.
મ્યુઝિક મોડલ માટે એક જટિલ પદાર્થ છે. તમારે ટેમ્પો, લાઉડનેસ અને પિચ જેવી સરળ સુવિધાઓ અને ગીતો, વાદ્યો અને સંગીતની રચના જેવી વધુ જટિલ સુવિધાઓ બંનેને ધ્યાનમાં લેવી પડશે.
અદ્યતન ઉપયોગ કરીને મશીન શિક્ષણ તકનીકો, ઓપનએઆઈએ કાચા ઓડિયોને રજૂઆતમાં રૂપાંતરિત કરવાનો માર્ગ શોધી કાઢ્યો છે જેનો ઉપયોગ અન્ય મોડેલો કરી શકે છે.
આ લેખ Jukebox શું કરી શકે છે, તે કેવી રીતે કાર્ય કરે છે અને ટેક્નોલોજીની વર્તમાન મર્યાદાઓ સમજાવશે.
Jukebox AI શું છે?
જ્યુકબોક્સ OpenAI દ્વારા ન્યુરલ નેટ મોડલ છે જે ગાયન સાથે સંગીત જનરેટ કરી શકે છે. મોડેલ વિવિધ શૈલીઓ અને કલાકારોની શૈલીમાં સંગીત ઉત્પન્ન કરી શકે છે.
ઉદાહરણ તરીકે, જ્યુકબોક્સ એલ્વિસ પ્રેસ્લીની શૈલીમાં રોક ગીત અથવા કેન્યે વેસ્ટની શૈલીમાં હિપ હોપ ટ્યુન બનાવી શકે છે. તમે આની મુલાકાત લઈ શકો છો વેબસાઇટ તમારા મનપસંદ સંગીત કલાકારો અને શૈલીઓના અવાજને કેપ્ચર કરવા માટે મોડેલ કેટલું અસરકારક છે તે શોધવા માટે.
મોડેલને ઇનપુટ તરીકે શૈલી, કલાકાર અને ગીતોની જરૂર છે. આ ઇનપુટ લાખો કલાકારો અને ગીતના ડેટા પર પ્રશિક્ષિત મોડેલને માર્ગદર્શન આપે છે.
Jukebox કેવી રીતે કામ કરે છે?
ચાલો જોઈએ કે કેવી રીતે જુકબોક્સ લાખો ગીતો પર પ્રશિક્ષિત મોડેલમાંથી નવલકથા કાચો ઓડિયો જનરેટ કરવાનું સંચાલન કરે છે.
એન્કોડિંગ પ્રક્રિયા
જ્યારે કેટલાક મ્યુઝિક જનરેશન મોડલ્સ MIDI તાલીમ ડેટાનો ઉપયોગ કરે છે, ત્યારે જ્યુકબોક્સને વાસ્તવિક કાચી ઓડિયો ફાઇલ પર તાલીમ આપવામાં આવે છે. ઓડિયોને એક અલગ જગ્યામાં સંકુચિત કરવા માટે, જ્યુકબોક્સ VQ-VAE તરીકે ઓળખાતા ઓટો-એન્કોડર અભિગમનો ઉપયોગ કરે છે.
VQ-VAE વેક્ટર ક્વોન્ટાઈઝ્ડ વેરિએશનલ ઓટોએનકોડર માટે વપરાય છે, જે થોડું જટિલ લાગે છે, તેથી ચાલો તેને તોડીએ.
પ્રથમ, ચાલો સમજવાનો પ્રયત્ન કરીએ કે આપણે અહીં શું કરવા માંગીએ છીએ. ગીતો અથવા શીટ મ્યુઝિકની તુલનામાં, કાચી ઑડિઓ ફાઇલ ખૂબ જ જટિલ છે. જો આપણે ઇચ્છીએ છીએ કે અમારું મોડેલ ગીતોમાંથી "શીખવું" હોય, તો આપણે તેને વધુ સંકુચિત અને સરળ રજૂઆતમાં રૂપાંતરિત કરવું પડશે. માં મશીન શિક્ષણ, અમે આને અંતર્ગત પ્રતિનિધિત્વ કહીએ છીએ a સુપ્ત જગ્યા.
An ઓટોએનકોડ એક અસુરક્ષિત શિક્ષણ તકનીક છે જે a નો ઉપયોગ કરે છે મજ્જાતંતુકીય નેટવર્ક આપેલ ડેટા વિતરણ માટે બિન-રેખીય સુપ્ત રજૂઆતો શોધવા માટે. ઓટોએનકોડર બે ભાગો ધરાવે છે: એક એન્કોડર અને ડીકોડર.
આ એન્કોડર કાચા ડેટાના સમૂહમાંથી ગુપ્ત જગ્યા શોધવાનો પ્રયાસ કરે છે જ્યારે ડીકોડર તેને તેના મૂળ ફોર્મેટમાં પુનઃનિર્માણ કરવાનો પ્રયાસ કરવા માટે સુપ્ત રજૂઆતનો ઉપયોગ કરે છે. ઓટોએનકોડર અનિવાર્યપણે શીખે છે કે કેવી રીતે કાચા ડેટાને એવી રીતે સંકુચિત કરવો કે જેથી પુનઃનિર્માણની ભૂલ ઓછી થાય.
હવે જ્યારે આપણે જાણીએ છીએ કે ઓટોએનકોડર શું કરે છે, ચાલો એ સમજવાનો પ્રયત્ન કરીએ કે આપણે “વિવિધ” ઓટોએનકોડરનો અર્થ શું કરીએ છીએ. લાક્ષણિક ઓટોએનકોડર્સની તુલનામાં, વૈવિધ્યસભર ઓટોએનકોડર્સ સુપ્ત જગ્યા પહેલા ઉમેરે છે.
ગણિતમાં ડૂબકી માર્યા વિના, સંભવિત અગાઉ ઉમેરવાથી સુપ્ત વિતરણને નજીકથી કોમ્પેક્ટેડ રાખે છે. VAE અને VQ-VAE વચ્ચેનો મુખ્ય તફાવત એ છે કે બાદમાં સતત એકને બદલે એક અલગ ગુપ્ત રજૂઆતનો ઉપયોગ કરે છે.
દરેક VQ-VAE સ્તર સ્વતંત્ર રીતે ઇનપુટને એન્કોડ કરે છે. નીચેના સ્તરનું એન્કોડિંગ ઉચ્ચ-ગુણવત્તાવાળા પુનર્નિર્માણનું ઉત્પાદન કરે છે. ઉચ્ચ-સ્તરની એન્કોડિંગ આવશ્યક સંગીતની માહિતી જાળવી રાખે છે.
ટ્રાન્સફોર્મર્સનો ઉપયોગ
હવે અમારી પાસે VQ-VAE દ્વારા એન્કોડ કરેલ સંગીત કોડ્સ છે, અમે પ્રયાસ કરી શકીએ છીએ સંગીત પેદા કરો આ સંકુચિત સ્વતંત્ર જગ્યામાં.
જ્યુકબોક્સ વાપરે છે સ્વયંસંચાલિત ટ્રાન્સફોર્મર્સ આઉટપુટ ઓડિયો બનાવવા માટે. ટ્રાન્સફોર્મર્સ એ ન્યુરલ નેટવર્કનો એક પ્રકાર છે જે અનુક્રમિત ડેટા સાથે શ્રેષ્ઠ કામ કરે છે. ટોકન્સનો ક્રમ જોતાં, ટ્રાન્સફોર્મર મોડલ આગામી ટોકનની આગાહી કરવાનો પ્રયાસ કરશે.
જ્યુકબોક્સ સ્પાર્સ ટ્રાન્સફોર્મર્સના સરળ પ્રકારનો ઉપયોગ કરે છે. એકવાર અગાઉના તમામ મોડલ્સને તાલીમ આપવામાં આવે તે પછી, ટ્રાન્સફોર્મર સંકુચિત કોડ્સ જનરેટ કરે છે જે પછી VQ-VAE ડીકોડરનો ઉપયોગ કરીને કાચા ઑડિયોમાં ફરીથી ડીકોડ કરવામાં આવે છે.
જ્યુકબોક્સમાં કલાકાર અને શૈલીની સ્થિતિ
જ્યુકબોક્સના જનરેટિવ મોડલને તાલીમના પગલા દરમિયાન વધારાના શરતી સંકેતો આપીને વધુ નિયંત્રણક્ષમ બનાવવામાં આવે છે.
પ્રથમ મૉડલ દરેક ગીત માટે કલાકારો અને શૈલીના લેબલ્સ દ્વારા પ્રદાન કરવામાં આવે છે. આ ઑડિઓ અનુમાનની એન્ટ્રોપી ઘટાડે છે અને મોડેલને વધુ સારી ગુણવત્તા પ્રાપ્ત કરવાની મંજૂરી આપે છે. લેબલ્સ અમને મોડેલને ચોક્કસ શૈલીમાં ચલાવવા માટે પણ સક્ષમ કરે છે.
કલાકાર અને શૈલી ઉપરાંત, તાલીમ સમય દરમિયાન સમય સંકેતો ઉમેરવામાં આવે છે. આ સંકેતોમાં ગીતની લંબાઈ, ચોક્કસ નમૂનાનો પ્રારંભ સમય અને વીતી ગયેલા ગીતના અપૂર્ણાંકનો સમાવેશ થાય છે. આ વધારાની માહિતી મૉડલને ઑડિયો પેટર્ન સમજવામાં મદદ કરે છે જે એકંદર માળખા પર આધાર રાખે છે.
ઉદાહરણ તરીકે, મોડેલ શીખી શકે છે કે જીવંત સંગીત માટે તાળીઓ ગીતના અંતે થાય છે. મૉડલ એ પણ શીખી શકે છે, ઉદાહરણ તરીકે, કેટલીક શૈલીઓમાં અન્ય કરતાં લાંબા ઇન્સ્ટ્રુમેન્ટલ વિભાગો હોય છે.
ગીતો
અગાઉના વિભાગમાં ઉલ્લેખિત કન્ડિશન્ડ મોડલ્સ વિવિધ પ્રકારના ગાયન અવાજો ઉત્પન્ન કરવામાં સક્ષમ છે. જો કે, આ અવાજો અસંગત અને ઓળખી ન શકાય તેવા હોય છે.
જનરેટિવ મોડલને નિયંત્રિત કરવા માટે જ્યારે તે ગીતની રચનાની વાત આવે છે, સંશોધકો તાલીમ સમયે વધુ સંદર્ભ પ્રદાન કરે છે. વાસ્તવિક ઑડિયો પરના સમય માટે ગીતના ડેટાને નકશામાં મદદ કરવા માટે, સંશોધકોએ ઉપયોગ કર્યો સ્પ્લેટર અવાજ કાઢવા માટે અને NUS AutoLyricsAlign ગીતોના શબ્દ-સ્તરની ગોઠવણી મેળવવા માટે.
જ્યુકબોક્સ મોડલની મર્યાદાઓ
જ્યુકબોક્સની મુખ્ય મર્યાદાઓમાંની એક તેની વિશાળ સંગીત રચનાઓની સમજ છે. ઉદાહરણ તરીકે, આઉટપુટની ટૂંકી 20-સેકન્ડની ક્લિપ પ્રભાવશાળી લાગે છે, પરંતુ શ્રોતાઓ જોશે કે કોરસ અને શ્લોકોનું પુનરાવર્તન કરવાની લાક્ષણિક સંગીત રચના અંતિમ આઉટપુટમાં ગેરહાજર છે.
મોડેલ રેન્ડર કરવામાં પણ ધીમું છે. એક મિનિટનો ઑડિયો સંપૂર્ણપણે રેન્ડર કરવામાં લગભગ 9 કલાકનો સમય લાગે છે. આ જનરેટ કરી શકાય તેવા ગીતોની સંખ્યાને મર્યાદિત કરે છે અને મોડેલને ઇન્ટરેક્ટિવ એપ્લિકેશન્સમાં ઉપયોગમાં લેવાથી અટકાવે છે.
છેલ્લે, સંશોધકોએ નોંધ્યું છે કે નમૂના ડેટાસેટ મુખ્યત્વે અંગ્રેજીમાં છે અને મુખ્યત્વે પશ્ચિમી સંગીત સંમેલનો દર્શાવે છે. AI સંશોધકો અન્ય ભાષાઓ અને બિન-પશ્ચિમી સંગીત શૈલીઓમાં સંગીત પેદા કરવા પર ભવિષ્યના સંશોધન પર ધ્યાન કેન્દ્રિત કરી શકે છે.
ઉપસંહાર
જ્યુકબોક્સ પ્રોજેક્ટ કાચો ઓડિયો જેવા જટિલ ડેટાની ચોક્કસ સુપ્ત રજૂઆતો બનાવવા માટે મશીન લર્નિંગ મોડલ્સની વધતી જતી ક્ષમતાને પ્રકાશિત કરે છે. જેવા પ્રોજેક્ટ્સમાં જોવા મળે છે તેમ ટેક્સ્ટમાં સમાન સફળતાઓ થઈ રહી છે જીપીટી-3, અને છબીઓ, જેમ કે OpenAI માં જોવા મળે છે DALL-E2.
જ્યારે આ જગ્યામાં સંશોધન પ્રભાવશાળી રહ્યું છે, ત્યાં હજુ પણ બૌદ્ધિક સંપદા અધિકારો વિશે ચિંતાઓ છે અને આ મોડેલોની સમગ્ર સર્જનાત્મક ઉદ્યોગો પર શું અસર પડી શકે છે. સંશોધકો અને ક્રિએટિવોએ આ મોડલ્સમાં સુધારો કરવાનું ચાલુ રાખી શકાય તેની ખાતરી કરવા માટે નજીકથી સહયોગ કરવાનું ચાલુ રાખવું જોઈએ.
ભાવિ જનરેટિવ મ્યુઝિક મૉડલ્સ ટૂંક સમયમાં સંગીતકારો માટેના સાધન તરીકે અથવા પ્રોજેક્ટ્સ માટે કસ્ટમ મ્યુઝિકની જરૂર હોય તેવા ક્રિએટિવ્સ માટે એપ્લિકેશન તરીકે કાર્ય કરી શકશે.
એક જવાબ છોડો