మీకు ఇష్టమైన కళాకారుడి నుండి కొత్త రికార్డును సృష్టించడానికి మీరు AIని ఉపయోగించవచ్చా?
మెషీన్ లెర్నింగ్లో ఇటీవలి పురోగతులు మోడల్లు ఇప్పుడు టెక్స్ట్ మరియు ఇమేజ్ల వంటి సంక్లిష్ట డేటాను అర్థం చేసుకోగలవని చూపించాయి. OpenAI యొక్క జూక్బాక్స్ సంగీతాన్ని కూడా న్యూరల్ నెట్వర్క్ ద్వారా ఖచ్చితంగా రూపొందించవచ్చని రుజువు చేస్తుంది.
సంగీతం అనేది మోడల్కి సంక్లిష్టమైన వస్తువు. మీరు టెంపో, లౌడ్నెస్ మరియు పిచ్ వంటి సాధారణ లక్షణాలను మరియు సాహిత్యం, వాయిద్యాలు మరియు సంగీత నిర్మాణం వంటి మరింత సంక్లిష్టమైన లక్షణాలను పరిగణనలోకి తీసుకోవాలి.
అధునాతన ఉపయోగించి యంత్ర అభ్యాసం పద్ధతులు, OpenAI ముడి ఆడియోను ఇతర మోడల్లు ఉపయోగించగల ప్రాతినిధ్యంగా మార్చడానికి ఒక మార్గాన్ని కనుగొంది.
ఈ కథనం జూక్బాక్స్ ఏమి చేయగలదో, అది ఎలా పని చేస్తుందో మరియు సాంకేతికత యొక్క ప్రస్తుత పరిమితులను వివరిస్తుంది.
జూక్బాక్స్ AI అంటే ఏమిటి?
జ్యూక్ OpenAI ద్వారా ఒక న్యూరల్ నెట్ మోడల్, ఇది పాడటంతో సంగీతాన్ని రూపొందించగలదు. మోడల్ వివిధ కళా ప్రక్రియలు మరియు కళాకారుల శైలులలో సంగీతాన్ని ఉత్పత్తి చేయగలదు.
ఉదాహరణకు, జూక్బాక్స్ ఎల్విస్ ప్రెస్లీ శైలిలో రాక్ పాటను లేదా కాన్యే వెస్ట్ శైలిలో హిప్ హాప్ ట్యూన్ను రూపొందించగలదు. మీరు దీన్ని సందర్శించవచ్చు వెబ్సైట్ మీకు ఇష్టమైన సంగీత కళాకారులు మరియు కళా ప్రక్రియల ధ్వనిని సంగ్రహించడంలో మోడల్ ఎంత ప్రభావవంతంగా ఉందో అన్వేషించడానికి.
మోడల్కు శైలి, కళాకారుడు మరియు సాహిత్యం ఇన్పుట్గా అవసరం. ఈ ఇన్పుట్ మిలియన్ల మంది ఆర్టిస్టులు మరియు లిరిక్ డేటాపై శిక్షణ పొందిన మోడల్కి మార్గనిర్దేశం చేస్తుంది.
జూక్బాక్స్ ఎలా పని చేస్తుంది?
మిలియన్ల కొద్దీ పాటలపై శిక్షణ పొందిన మోడల్ నుండి జ్యూక్బాక్స్ నవల రా ఆడియోను ఎలా రూపొందిస్తుందో చూద్దాం.
ఎన్కోడింగ్ ప్రక్రియ
కొన్ని మ్యూజిక్ జనరేషన్ మోడల్లు MIDI శిక్షణ డేటాను ఉపయోగిస్తుండగా, జ్యూక్బాక్స్ అసలు ముడి ఆడియో ఫైల్పై శిక్షణ పొందింది. ఆడియోను వివిక్త స్థలంలోకి కుదించడానికి, జ్యూక్బాక్స్ VQ-VAE అని పిలువబడే ఆటో-ఎన్కోడర్ విధానాన్ని ఉపయోగిస్తుంది.
VQ-VAE వెక్టర్ క్వాంటిస్డ్ వేరియేషనల్ ఆటోఎన్కోడర్ని సూచిస్తుంది, ఇది కొంచెం క్లిష్టంగా అనిపించవచ్చు, కాబట్టి దానిని విచ్ఛిన్నం చేద్దాం.
ముందుగా, మనం ఇక్కడ ఏమి చేయాలనుకుంటున్నామో అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం. లిరిక్స్ లేదా షీట్ మ్యూజిక్తో పోలిస్తే, రా ఆడియో ఫైల్ చాలా క్లిష్టంగా ఉంటుంది. మేము పాటల నుండి మా మోడల్ "నేర్చుకో"ాలనుకుంటే, మేము దానిని మరింత కుదించబడిన మరియు సరళీకృత ప్రాతినిధ్యంగా మార్చాలి. లో యంత్ర అభ్యాసం, మేము దీనిని అంతర్లీన ప్రాతినిధ్యం అని పిలుస్తాము a గుప్త స్థలం.
An ఆటోఎన్కోడ్ aని ఉపయోగించే పర్యవేక్షించబడని అభ్యాస సాంకేతికత నాడీ నెట్వర్క్ ఇచ్చిన డేటా పంపిణీ కోసం నాన్-లీనియర్ లాటెంట్ ప్రాతినిధ్యాలను కనుగొనడానికి. ఆటోఎన్కోడర్ రెండు భాగాలను కలిగి ఉంటుంది: ఎన్కోడర్ మరియు డీకోడర్.
మా ఎన్కోడర్ ముడి డేటా సమితి నుండి గుప్త స్థలాన్ని కనుగొనడానికి ప్రయత్నిస్తుంది డికోడర్ దానిని తిరిగి దాని అసలు ఆకృతికి పునర్నిర్మించడానికి ప్రయత్నించడానికి గుప్త ప్రాతినిధ్యాన్ని ఉపయోగిస్తుంది. పునర్నిర్మాణ లోపాన్ని తగ్గించే విధంగా ముడి డేటాను ఎలా కుదించాలో ఆటోఎన్కోడర్ తప్పనిసరిగా నేర్చుకుంటుంది.
ఆటోఎన్కోడర్ ఏమి చేస్తుందో ఇప్పుడు మనకు తెలుసు, “వైవిధ్యమైన” ఆటోఎన్కోడర్ అంటే ఏమిటో అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం. సాధారణ ఆటోఎన్కోడర్లతో పోలిస్తే, వైవిధ్యమైన ఆటోఎన్కోడర్లు గుప్త స్థలానికి ముందు జోడించబడతాయి.
గణితంలోకి ప్రవేశించకుండా, ముందుగా సంభావ్యతను జోడించడం వలన గుప్త పంపిణీని దగ్గరగా కుదించబడుతుంది. VAE మరియు VQ-VAE మధ్య ప్రధాన వ్యత్యాసం ఏమిటంటే, రెండోది నిరంతరాయంగా కాకుండా వివిక్త గుప్త ప్రాతినిధ్యాన్ని ఉపయోగిస్తుంది.
ప్రతి VQ-VAE స్థాయి స్వతంత్రంగా ఇన్పుట్ను ఎన్కోడ్ చేస్తుంది. దిగువ స్థాయి ఎన్కోడింగ్ అత్యధిక-నాణ్యత పునర్నిర్మాణాన్ని ఉత్పత్తి చేస్తుంది. అగ్ర-స్థాయి ఎన్కోడింగ్ అవసరమైన సంగీత సమాచారాన్ని కలిగి ఉంటుంది.
ట్రాన్స్ఫార్మర్లను ఉపయోగించడం
ఇప్పుడు మేము VQ-VAE ద్వారా ఎన్కోడ్ చేసిన మ్యూజిక్ కోడ్లను కలిగి ఉన్నాము, మేము ప్రయత్నించవచ్చు సంగీతాన్ని రూపొందించండి ఈ కంప్రెస్డ్ డిస్క్రీట్ స్పేస్లో.
జూక్బాక్స్ ఉపయోగిస్తుంది ఆటోరిగ్రెసివ్ ట్రాన్స్ఫార్మర్లు అవుట్పుట్ ఆడియోని సృష్టించడానికి. ట్రాన్స్ఫార్మర్లు ఒక రకమైన న్యూరల్ నెట్వర్క్, ఇవి క్రమం చేయబడిన డేటాతో ఉత్తమంగా పని చేస్తాయి. టోకెన్ల శ్రేణిని బట్టి, ట్రాన్స్ఫార్మర్ మోడల్ తదుపరి టోకెన్ను అంచనా వేయడానికి ప్రయత్నిస్తుంది.
జూక్బాక్స్ స్పర్స్ ట్రాన్స్ఫార్మర్స్ యొక్క సరళీకృత వేరియంట్ను ఉపయోగిస్తుంది. అన్ని మునుపటి మోడల్లు శిక్షణ పొందిన తర్వాత, ట్రాన్స్ఫార్మర్ కంప్రెస్డ్ కోడ్లను ఉత్పత్తి చేస్తుంది, అవి VQ-VAE డీకోడర్ని ఉపయోగించి తిరిగి రా ఆడియోలోకి డీకోడ్ చేయబడతాయి.
జూక్బాక్స్లో ఆర్టిస్ట్ మరియు జానర్ కండిషనింగ్
శిక్షణ దశలో అదనపు షరతులతో కూడిన సంకేతాలను అందించడం ద్వారా జూక్బాక్స్ ఉత్పాదక నమూనా మరింత నియంత్రించబడుతుంది.
మొదటి మోడల్లు ప్రతి పాటకు కళాకారులు మరియు జానర్ లేబుల్ల ద్వారా అందించబడతాయి. ఇది ఆడియో ప్రిడిక్షన్ యొక్క ఎంట్రోపీని తగ్గిస్తుంది మరియు మోడల్ మెరుగైన నాణ్యతను సాధించడానికి అనుమతిస్తుంది. లేబుల్లు మోడల్ను నిర్దిష్ట శైలిలో నడిపించడానికి కూడా మాకు సహాయపడతాయి.
కళాకారుడు మరియు కళా ప్రక్రియతో పాటు, శిక్షణ సమయంలో సమయ సంకేతాలు జోడించబడతాయి. ఈ సంకేతాలలో పాట యొక్క పొడవు, నిర్దిష్ట నమూనా యొక్క ప్రారంభ సమయం మరియు గడిచిన పాట యొక్క భిన్నం ఉంటాయి. ఈ అదనపు సమాచారం మోడల్ మొత్తం నిర్మాణంపై ఆధారపడే ఆడియో నమూనాలను అర్థం చేసుకోవడంలో సహాయపడుతుంది.
ఉదాహరణకు, లైవ్ మ్యూజిక్ కోసం చప్పట్లు కొట్టడం పాట చివరిలో జరుగుతుందని మోడల్ తెలుసుకోవచ్చు. ఉదాహరణకు, కొన్ని కళా ప్రక్రియలు ఇతరులకన్నా ఎక్కువ వాయిద్య విభాగాలను కలిగి ఉన్నాయని మోడల్ కూడా తెలుసుకోవచ్చు.
సాహిత్యం
మునుపటి విభాగంలో పేర్కొన్న కండిషన్డ్ మోడల్లు వివిధ రకాల గాన స్వరాలను ఉత్పత్తి చేయగలవు. అయితే, ఈ స్వరాలు అసంబద్ధంగా మరియు గుర్తించలేనివిగా ఉంటాయి.
లిరిక్ జనరేషన్ విషయానికి వస్తే ఉత్పాదక నమూనాను నియంత్రించడానికి, పరిశోధకులు శిక్షణ సమయంలో మరింత సందర్భాన్ని అందిస్తారు. వాస్తవ ఆడియోలోని సమయానికి లిరిక్ డేటాను మ్యాప్ చేయడంలో సహాయం చేయడానికి, పరిశోధకులు ఉపయోగించారు స్ప్లీటర్ గాత్రాన్ని సంగ్రహించడానికి మరియు NUS ఆటోలిరిక్స్ సమలేఖనం సాహిత్యం యొక్క పద-స్థాయి అమరికలను పొందేందుకు.
జూక్బాక్స్ మోడల్ పరిమితులు
జూక్బాక్స్ యొక్క ప్రధాన పరిమితుల్లో ఒకటి పెద్ద సంగీత నిర్మాణాలపై దాని అవగాహన. ఉదాహరణకు, అవుట్పుట్ యొక్క చిన్న 20-సెకన్ల క్లిప్ ఆకట్టుకునేలా అనిపించవచ్చు, అయితే శ్రోతలు చివరి అవుట్పుట్లో పునరావృతం చేసే బృందగానాలు మరియు పద్యాల యొక్క సాధారణ సంగీత నిర్మాణం లేదని గమనించవచ్చు.
మోడల్ రెండర్ చేయడం కూడా నెమ్మదిగా ఉంది. ఒక నిమిషం ఆడియోను పూర్తిగా రెండర్ చేయడానికి దాదాపు 9 గంటల సమయం పడుతుంది. ఇది ఉత్పత్తి చేయగల పాటల సంఖ్యను పరిమితం చేస్తుంది మరియు ఇంటరాక్టివ్ అప్లికేషన్లలో మోడల్ను ఉపయోగించకుండా నిరోధిస్తుంది.
చివరగా, నమూనా డేటాసెట్ ప్రాథమికంగా ఆంగ్లంలో ఉందని మరియు ప్రధానంగా పాశ్చాత్య సంగీత సమావేశాలను ప్రదర్శిస్తుందని పరిశోధకులు గుర్తించారు. AI పరిశోధకులు ఇతర భాషలలో మరియు పాశ్చాత్యేతర సంగీత శైలులలో సంగీతాన్ని రూపొందించడంపై భవిష్యత్తులో పరిశోధనను కేంద్రీకరించవచ్చు.
ముగింపు
జ్యూక్బాక్స్ ప్రాజెక్ట్ ముడి ఆడియో వంటి సంక్లిష్ట డేటా యొక్క ఖచ్చితమైన గుప్త ప్రాతినిధ్యాలను రూపొందించడానికి మెషిన్ లెర్నింగ్ మోడల్ల పెరుగుతున్న సామర్థ్యాన్ని హైలైట్ చేస్తుంది. వంటి ప్రాజెక్ట్లలో చూసినట్లుగా, టెక్స్ట్లో ఇలాంటి పురోగతులు జరుగుతున్నాయి GPT-3, మరియు చిత్రాలు, OpenAI లలో చూసినట్లుగా డాల్-E2.
ఈ ప్రదేశంలో పరిశోధన ఆకట్టుకునేలా ఉన్నప్పటికీ, మేధో సంపత్తి హక్కులు మరియు ఈ నమూనాలు మొత్తం సృజనాత్మక పరిశ్రమలపై చూపే ప్రభావం గురించి ఇప్పటికీ ఆందోళనలు ఉన్నాయి. పరిశోధకులు మరియు క్రియేటివ్లు ఈ మోడల్లు మెరుగుపడటం కొనసాగించగలరని నిర్ధారించుకోవడానికి సన్నిహితంగా సహకరించడం కొనసాగించాలి.
భవిష్యత్ ఉత్పాదక సంగీత నమూనాలు త్వరలో సంగీతకారుల కోసం ఒక సాధనంగా లేదా ప్రాజెక్ట్ల కోసం అనుకూల సంగీతం అవసరమయ్యే క్రియేటివ్ల కోసం ఒక అప్లికేషన్గా పని చేయగలవు.
సమాధానం ఇవ్వూ