జ్యూక్‌బాక్స్ AI - న్యూరల్ నెట్‌వర్క్‌లను ఉపయోగించి సంగీతాన్ని రూపొందించడం

విషయ సూచిక[దాచు][చూపండి]

జూక్‌బాక్స్ AI అంటే ఏమిటి?
జూక్‌బాక్స్ ఎలా పని చేస్తుంది?+-
జూక్‌బాక్స్ మోడల్ పరిమితులు
ముగింపు

మీకు ఇష్టమైన కళాకారుడి నుండి కొత్త రికార్డును సృష్టించడానికి మీరు AIని ఉపయోగించవచ్చా?

మెషీన్ లెర్నింగ్‌లో ఇటీవలి పురోగతులు మోడల్‌లు ఇప్పుడు టెక్స్ట్ మరియు ఇమేజ్‌ల వంటి సంక్లిష్ట డేటాను అర్థం చేసుకోగలవని చూపించాయి. OpenAI యొక్క జూక్‌బాక్స్ సంగీతాన్ని కూడా న్యూరల్ నెట్‌వర్క్ ద్వారా ఖచ్చితంగా రూపొందించవచ్చని రుజువు చేస్తుంది.

సంగీతం అనేది మోడల్‌కి సంక్లిష్టమైన వస్తువు. మీరు టెంపో, లౌడ్‌నెస్ మరియు పిచ్ వంటి సాధారణ లక్షణాలను మరియు సాహిత్యం, వాయిద్యాలు మరియు సంగీత నిర్మాణం వంటి మరింత సంక్లిష్టమైన లక్షణాలను పరిగణనలోకి తీసుకోవాలి.

అధునాతన ఉపయోగించి యంత్ర అభ్యాసం పద్ధతులు, OpenAI ముడి ఆడియోను ఇతర మోడల్‌లు ఉపయోగించగల ప్రాతినిధ్యంగా మార్చడానికి ఒక మార్గాన్ని కనుగొంది.

ఈ కథనం జూక్‌బాక్స్ ఏమి చేయగలదో, అది ఎలా పని చేస్తుందో మరియు సాంకేతికత యొక్క ప్రస్తుత పరిమితులను వివరిస్తుంది.

జూక్‌బాక్స్ AI అంటే ఏమిటి?

జ్యూక్ OpenAI ద్వారా ఒక న్యూరల్ నెట్ మోడల్, ఇది పాడటంతో సంగీతాన్ని రూపొందించగలదు. మోడల్ వివిధ కళా ప్రక్రియలు మరియు కళాకారుల శైలులలో సంగీతాన్ని ఉత్పత్తి చేయగలదు.

జ్యూక్‌బాక్స్ AI తెలిసిన కళాకారుల నుండి పాటలను రూపొందిస్తుంది

ఉదాహరణకు, జూక్‌బాక్స్ ఎల్విస్ ప్రెస్లీ శైలిలో రాక్ పాటను లేదా కాన్యే వెస్ట్ శైలిలో హిప్ హాప్ ట్యూన్‌ను రూపొందించగలదు. మీరు దీన్ని సందర్శించవచ్చు వెబ్సైట్ మీకు ఇష్టమైన సంగీత కళాకారులు మరియు కళా ప్రక్రియల ధ్వనిని సంగ్రహించడంలో మోడల్ ఎంత ప్రభావవంతంగా ఉందో అన్వేషించడానికి.

మోడల్‌కు శైలి, కళాకారుడు మరియు సాహిత్యం ఇన్‌పుట్‌గా అవసరం. ఈ ఇన్‌పుట్ మిలియన్ల మంది ఆర్టిస్టులు మరియు లిరిక్ డేటాపై శిక్షణ పొందిన మోడల్‌కి మార్గనిర్దేశం చేస్తుంది.

జూక్‌బాక్స్ ఎలా పని చేస్తుంది?

మిలియన్ల కొద్దీ పాటలపై శిక్షణ పొందిన మోడల్ నుండి జ్యూక్‌బాక్స్ నవల రా ఆడియోను ఎలా రూపొందిస్తుందో చూద్దాం.

ఎన్‌కోడింగ్ ప్రక్రియ

కొన్ని మ్యూజిక్ జనరేషన్ మోడల్‌లు MIDI శిక్షణ డేటాను ఉపయోగిస్తుండగా, జ్యూక్‌బాక్స్ అసలు ముడి ఆడియో ఫైల్‌పై శిక్షణ పొందింది. ఆడియోను వివిక్త స్థలంలోకి కుదించడానికి, జ్యూక్‌బాక్స్ VQ-VAE అని పిలువబడే ఆటో-ఎన్‌కోడర్ విధానాన్ని ఉపయోగిస్తుంది.

VQ-VAE వెక్టర్ క్వాంటిస్డ్ వేరియేషనల్ ఆటోఎన్‌కోడర్‌ని సూచిస్తుంది, ఇది కొంచెం క్లిష్టంగా అనిపించవచ్చు, కాబట్టి దానిని విచ్ఛిన్నం చేద్దాం.

ముందుగా, మనం ఇక్కడ ఏమి చేయాలనుకుంటున్నామో అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం. లిరిక్స్ లేదా షీట్ మ్యూజిక్‌తో పోలిస్తే, రా ఆడియో ఫైల్ చాలా క్లిష్టంగా ఉంటుంది. మేము పాటల నుండి మా మోడల్ "నేర్చుకో"ాలనుకుంటే, మేము దానిని మరింత కుదించబడిన మరియు సరళీకృత ప్రాతినిధ్యంగా మార్చాలి. లో యంత్ర అభ్యాసం, మేము దీనిని అంతర్లీన ప్రాతినిధ్యం అని పిలుస్తాము a గుప్త స్థలం.

గుప్త స్థలం అనేది నమూనా ఇన్‌పుట్ యొక్క కంప్రెస్డ్ వెర్షన్

An ఆటోఎన్‌కోడ్ aని ఉపయోగించే పర్యవేక్షించబడని అభ్యాస సాంకేతికత నాడీ నెట్వర్క్ ఇచ్చిన డేటా పంపిణీ కోసం నాన్-లీనియర్ లాటెంట్ ప్రాతినిధ్యాలను కనుగొనడానికి. ఆటోఎన్‌కోడర్ రెండు భాగాలను కలిగి ఉంటుంది: ఎన్‌కోడర్ మరియు డీకోడర్.

మా ఎన్కోడర్ ముడి డేటా సమితి నుండి గుప్త స్థలాన్ని కనుగొనడానికి ప్రయత్నిస్తుంది డికోడర్ దానిని తిరిగి దాని అసలు ఆకృతికి పునర్నిర్మించడానికి ప్రయత్నించడానికి గుప్త ప్రాతినిధ్యాన్ని ఉపయోగిస్తుంది. పునర్నిర్మాణ లోపాన్ని తగ్గించే విధంగా ముడి డేటాను ఎలా కుదించాలో ఆటోఎన్‌కోడర్ తప్పనిసరిగా నేర్చుకుంటుంది.

ఆటోఎన్‌కోడర్ ఏమి చేస్తుందో ఇప్పుడు మనకు తెలుసు, “వైవిధ్యమైన” ఆటోఎన్‌కోడర్ అంటే ఏమిటో అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం. సాధారణ ఆటోఎన్‌కోడర్‌లతో పోలిస్తే, వైవిధ్యమైన ఆటోఎన్‌కోడర్‌లు గుప్త స్థలానికి ముందు జోడించబడతాయి.

గణితంలోకి ప్రవేశించకుండా, ముందుగా సంభావ్యతను జోడించడం వలన గుప్త పంపిణీని దగ్గరగా కుదించబడుతుంది. VAE మరియు VQ-VAE మధ్య ప్రధాన వ్యత్యాసం ఏమిటంటే, రెండోది నిరంతరాయంగా కాకుండా వివిక్త గుప్త ప్రాతినిధ్యాన్ని ఉపయోగిస్తుంది. ఎన్‌కోడింగ్ మరియు డీకోడింగ్ కోసం జ్యూక్‌బాక్స్ AI ఆర్కిటెక్చర్ యొక్క రేఖాచిత్రం

ప్రతి VQ-VAE స్థాయి స్వతంత్రంగా ఇన్‌పుట్‌ను ఎన్‌కోడ్ చేస్తుంది. దిగువ స్థాయి ఎన్‌కోడింగ్ అత్యధిక-నాణ్యత పునర్నిర్మాణాన్ని ఉత్పత్తి చేస్తుంది. అగ్ర-స్థాయి ఎన్‌కోడింగ్ అవసరమైన సంగీత సమాచారాన్ని కలిగి ఉంటుంది.

ట్రాన్స్ఫార్మర్లను ఉపయోగించడం

జ్యూక్‌బాక్స్ AI ట్రాక్‌లో తదుపరి ఆడియో క్లిప్‌ను రూపొందించడానికి ట్రాన్స్‌ఫార్మర్‌లను ఉపయోగిస్తుంది

ఇప్పుడు మేము VQ-VAE ద్వారా ఎన్‌కోడ్ చేసిన మ్యూజిక్ కోడ్‌లను కలిగి ఉన్నాము, మేము ప్రయత్నించవచ్చు సంగీతాన్ని రూపొందించండి ఈ కంప్రెస్డ్ డిస్క్రీట్ స్పేస్‌లో.

జూక్‌బాక్స్ ఉపయోగిస్తుంది ఆటోరిగ్రెసివ్ ట్రాన్స్ఫార్మర్లు అవుట్‌పుట్ ఆడియోని సృష్టించడానికి. ట్రాన్స్‌ఫార్మర్లు ఒక రకమైన న్యూరల్ నెట్‌వర్క్, ఇవి క్రమం చేయబడిన డేటాతో ఉత్తమంగా పని చేస్తాయి. టోకెన్ల శ్రేణిని బట్టి, ట్రాన్స్‌ఫార్మర్ మోడల్ తదుపరి టోకెన్‌ను అంచనా వేయడానికి ప్రయత్నిస్తుంది.

జూక్‌బాక్స్ స్పర్స్ ట్రాన్స్‌ఫార్మర్స్ యొక్క సరళీకృత వేరియంట్‌ను ఉపయోగిస్తుంది. అన్ని మునుపటి మోడల్‌లు శిక్షణ పొందిన తర్వాత, ట్రాన్స్‌ఫార్మర్ కంప్రెస్డ్ కోడ్‌లను ఉత్పత్తి చేస్తుంది, అవి VQ-VAE డీకోడర్‌ని ఉపయోగించి తిరిగి రా ఆడియోలోకి డీకోడ్ చేయబడతాయి.

జూక్‌బాక్స్‌లో ఆర్టిస్ట్ మరియు జానర్ కండిషనింగ్

ప్రారంభ జ్యూక్‌బాక్స్ AI మోడల్ పాట ఒక నిర్దిష్ట శైలి లేదా కళాకారుడిలా ఎలా అనిపిస్తుందో అర్థం చేసుకోవడానికి ప్రయత్నిస్తుంది

శిక్షణ దశలో అదనపు షరతులతో కూడిన సంకేతాలను అందించడం ద్వారా జూక్‌బాక్స్ ఉత్పాదక నమూనా మరింత నియంత్రించబడుతుంది.

మొదటి మోడల్‌లు ప్రతి పాటకు కళాకారులు మరియు జానర్ లేబుల్‌ల ద్వారా అందించబడతాయి. ఇది ఆడియో ప్రిడిక్షన్ యొక్క ఎంట్రోపీని తగ్గిస్తుంది మరియు మోడల్ మెరుగైన నాణ్యతను సాధించడానికి అనుమతిస్తుంది. లేబుల్‌లు మోడల్‌ను నిర్దిష్ట శైలిలో నడిపించడానికి కూడా మాకు సహాయపడతాయి.

కళాకారుడు మరియు కళా ప్రక్రియతో పాటు, శిక్షణ సమయంలో సమయ సంకేతాలు జోడించబడతాయి. ఈ సంకేతాలలో పాట యొక్క పొడవు, నిర్దిష్ట నమూనా యొక్క ప్రారంభ సమయం మరియు గడిచిన పాట యొక్క భిన్నం ఉంటాయి. ఈ అదనపు సమాచారం మోడల్ మొత్తం నిర్మాణంపై ఆధారపడే ఆడియో నమూనాలను అర్థం చేసుకోవడంలో సహాయపడుతుంది.

ఉదాహరణకు, లైవ్ మ్యూజిక్ కోసం చప్పట్లు కొట్టడం పాట చివరిలో జరుగుతుందని మోడల్ తెలుసుకోవచ్చు. ఉదాహరణకు, కొన్ని కళా ప్రక్రియలు ఇతరులకన్నా ఎక్కువ వాయిద్య విభాగాలను కలిగి ఉన్నాయని మోడల్ కూడా తెలుసుకోవచ్చు.

సాహిత్యం

మునుపటి విభాగంలో పేర్కొన్న కండిషన్డ్ మోడల్‌లు వివిధ రకాల గాన స్వరాలను ఉత్పత్తి చేయగలవు. అయితే, ఈ స్వరాలు అసంబద్ధంగా మరియు గుర్తించలేనివిగా ఉంటాయి.

లిరిక్ జనరేషన్ విషయానికి వస్తే ఉత్పాదక నమూనాను నియంత్రించడానికి, పరిశోధకులు శిక్షణ సమయంలో మరింత సందర్భాన్ని అందిస్తారు. వాస్తవ ఆడియోలోని సమయానికి లిరిక్ డేటాను మ్యాప్ చేయడంలో సహాయం చేయడానికి, పరిశోధకులు ఉపయోగించారు స్ప్లీటర్ గాత్రాన్ని సంగ్రహించడానికి మరియు NUS ఆటోలిరిక్స్ సమలేఖనం సాహిత్యం యొక్క పద-స్థాయి అమరికలను పొందేందుకు.

జూక్‌బాక్స్ మోడల్ పరిమితులు

జూక్‌బాక్స్ యొక్క ప్రధాన పరిమితుల్లో ఒకటి పెద్ద సంగీత నిర్మాణాలపై దాని అవగాహన. ఉదాహరణకు, అవుట్‌పుట్ యొక్క చిన్న 20-సెకన్ల క్లిప్ ఆకట్టుకునేలా అనిపించవచ్చు, అయితే శ్రోతలు చివరి అవుట్‌పుట్‌లో పునరావృతం చేసే బృందగానాలు మరియు పద్యాల యొక్క సాధారణ సంగీత నిర్మాణం లేదని గమనించవచ్చు.

మోడల్ రెండర్ చేయడం కూడా నెమ్మదిగా ఉంది. ఒక నిమిషం ఆడియోను పూర్తిగా రెండర్ చేయడానికి దాదాపు 9 గంటల సమయం పడుతుంది. ఇది ఉత్పత్తి చేయగల పాటల సంఖ్యను పరిమితం చేస్తుంది మరియు ఇంటరాక్టివ్ అప్లికేషన్‌లలో మోడల్‌ను ఉపయోగించకుండా నిరోధిస్తుంది.

చివరగా, నమూనా డేటాసెట్ ప్రాథమికంగా ఆంగ్లంలో ఉందని మరియు ప్రధానంగా పాశ్చాత్య సంగీత సమావేశాలను ప్రదర్శిస్తుందని పరిశోధకులు గుర్తించారు. AI పరిశోధకులు ఇతర భాషలలో మరియు పాశ్చాత్యేతర సంగీత శైలులలో సంగీతాన్ని రూపొందించడంపై భవిష్యత్తులో పరిశోధనను కేంద్రీకరించవచ్చు.

ముగింపు

జ్యూక్‌బాక్స్ ప్రాజెక్ట్ ముడి ఆడియో వంటి సంక్లిష్ట డేటా యొక్క ఖచ్చితమైన గుప్త ప్రాతినిధ్యాలను రూపొందించడానికి మెషిన్ లెర్నింగ్ మోడల్‌ల పెరుగుతున్న సామర్థ్యాన్ని హైలైట్ చేస్తుంది. వంటి ప్రాజెక్ట్‌లలో చూసినట్లుగా, టెక్స్ట్‌లో ఇలాంటి పురోగతులు జరుగుతున్నాయి GPT-3, మరియు చిత్రాలు, OpenAI లలో చూసినట్లుగా డాల్-E2.

ఈ ప్రదేశంలో పరిశోధన ఆకట్టుకునేలా ఉన్నప్పటికీ, మేధో సంపత్తి హక్కులు మరియు ఈ నమూనాలు మొత్తం సృజనాత్మక పరిశ్రమలపై చూపే ప్రభావం గురించి ఇప్పటికీ ఆందోళనలు ఉన్నాయి. పరిశోధకులు మరియు క్రియేటివ్‌లు ఈ మోడల్‌లు మెరుగుపడటం కొనసాగించగలరని నిర్ధారించుకోవడానికి సన్నిహితంగా సహకరించడం కొనసాగించాలి.

భవిష్యత్ ఉత్పాదక సంగీత నమూనాలు త్వరలో సంగీతకారుల కోసం ఒక సాధనంగా లేదా ప్రాజెక్ట్‌ల కోసం అనుకూల సంగీతం అవసరమయ్యే క్రియేటివ్‌ల కోసం ఒక అప్లికేషన్‌గా పని చేయగలవు.

జ్యూక్‌బాక్స్ AI – న్యూరల్ నెట్‌వర్క్‌లను ఉపయోగించి సంగీతాన్ని రూపొందించడం

జూక్‌బాక్స్ AI అంటే ఏమిటి?