An urrainn dhut AI a chleachdadh gus clàr ùr a chruthachadh bhon neach-ealain as fheàrr leat?
Tha leasachaidhean o chionn ghoirid ann an ionnsachadh innealan air sealltainn gu bheil modailean a-nis comasach air dàta iom-fhillte leithid teacsa agus ìomhaighean a thuigsinn. Tha Jukebox aig OpenAI a’ dearbhadh gum faod eadhon ceòl a bhith air a mhodaladh gu mionaideach le lìonra neural.
Tha ceòl na nì iom-fhillte air modail. Feumaidh tu aire a thoirt do gach cuid feartan sìmplidh leithid tempo, neart, agus pitch agus feartan nas iom-fhillte leithid faclan, ionnsramaidean, agus structar ciùil.
A 'cleachdadh adhartach ionnsachadh innealan dòighean-obrach, tha OpenAI air dòigh a lorg gus claisneachd amh a thionndadh gu riochdachadh a dh’ fhaodas modalan eile a chleachdadh.
Mìnichidh an artaigil seo dè as urrainn do Jukebox a dhèanamh, mar a tha e ag obair, agus na crìochan a th’ aig an teicneòlas an-dràsta.
Dè a th’ ann an Jukebox AI?
Jukebox na mhodail lìon neural le OpenAI as urrainn ceòl a ghineadh le seinn. Faodaidh am modail ceòl a dhèanamh ann an grunn ghnèithean agus stoidhlichean luchd-ealain.
Mar eisimpleir, faodaidh Jukebox òran roc a dhèanamh ann an stoidhle Elvis Presley no fonn hip hop ann an stoidhle Kanye West. Faodaidh tu tadhal air seo Bidh gus sgrùdadh a dhèanamh air dè cho èifeachdach sa tha am modail ann a bhith a’ glacadh fuaim an luchd-ealain agus na gnèithean ciùil as fheàrr leat.
Feumaidh am modail gnè, neach-ealain, agus faclan mar chur-a-steach. Bidh an cuir a-steach seo a’ stiùireadh modal air a thrèanadh air milleanan de luchd-ealain agus dàta liriceach.
Ciamar a tha Jukebox ag obair?
Bheir sinn sùil air mar a thèid aig Jukebox air claisneachd amh ùr a ghineadh bho mhodail air a thrèanadh air milleanan de dh’òrain.
Pròiseas còdachaidh
Fhad ‘s a bhios cuid de mhodalan gineadh ciùil a’ cleachdadh dàta trèanaidh MIDI, tha Jukebox air a thrèanadh air an fhìor fhaidhle claisneachd amh. Gus an claisneachd a dhlùthadh gu àite air leth, bidh Jukebox a’ cleachdadh dòigh-obrach fèin-chòdachadh ris an canar VQ-VAE.
VQ-VAE a’ seasamh airson Vector Quantized Varitional Autoencoder, a dh’ fhaodadh a bhith beagan toinnte, mar sin brisidh sinn sìos e.
An toiseach, feuchaidh sinn ri tuigsinn dè a tha sinn airson a dhèanamh an seo. An coimeas ri faclan no ceòl duilleig, tha faidhle claisneachd amh tòrr nas iom-fhillte. Ma tha sinn airson gum bi am modail againn “ag ionnsachadh” bho òrain, feumaidh sinn a thionndadh gu riochdachadh nas teann agus nas sìmplidhe. Anns ionnsachadh innealan, is e a chanas sinn ris an riochdachadh bunaiteach seo àite falaichte.
An fèin-chòdaiche na dhòigh ionnsachaidh gun stiùireadh a tha a’ cleachdadh a lìon neònach gus riochdachaidhean falaichte neo-shreathach a lorg airson cuairteachadh dàta sònraichte. Tha dà phàirt anns an autoencoder: encoder agus decoder.
Tha encoder a’ feuchainn ris an àite falaichte a lorg bho sheata de dhàta amh fhad ‘s a tha an decoder cleachdadh an riochdachadh falaichte gus feuchainn ri ath-chruthachadh air ais dhan chruth thùsail aige. Bidh an autoencoder gu bunaiteach ag ionnsachadh mar a dhlùthaicheas e an dàta amh ann an dòigh a lughdaicheas mearachd ath-thogail.
A-nis gu bheil fios againn dè a bhios autoencoder a’ dèanamh, feuchaidh sinn ri tuigsinn dè tha sinn a’ ciallachadh le autoencoder “caochlaideach”. An coimeas ri autoencoders àbhaisteach, bidh fèin-chòdairean caochlaideach a’ cur ris ron àite falaichte.
Gun a bhith a’ dàibheadh a-steach don mhatamataig, le bhith a’ cur ro-ràdh probabilistic a’ cumail an cuairteachadh falaichte gu dlùth. Is e am prìomh eadar-dhealachadh eadar VAE agus VQ-VAE gu bheil an dàrna fear a’ cleachdadh riochdachadh falaichte falaichte seach fear leantainneach.
Bidh gach ìre VQ-VAE gu neo-eisimeileach a’ còdachadh an cuir a-steach. Bidh an còdachadh ìre ìosal a’ toirt a-mach ath-thogail den chàileachd as àirde. Tha an còdachadh àrd-ìre a 'gleidheadh fiosrachadh ciùil riatanach.
A ' cleachdadh transformers
A-nis gu bheil na còdan ciùil air an còdachadh le VQ-VAE, is urrainn dhuinn feuchainn ceòl a chruthachadh anns an àite air leth teann seo.
Bidh Jukebox a’ cleachdadh cruth-atharraichean fèin-ghluasadach gus an toradh claisneachd a chruthachadh. Is e seòrsa de lìonra neural a th’ ann an cruth-atharrachaidh a bhios ag obair as fheàrr le dàta ann an òrdugh. Le sreath de chomharran, feuchaidh modal cruth-atharrachaidh ris an ath chomharra a ro-innse.
Bidh Jukebox a’ cleachdadh tionndadh nas sìmplidhe de Sparse Transformers. Aon uair ‘s gu bheil a h-uile modal roimhe air a thrèanadh, bidh an cruth-atharrachaidh a’ gineadh còdan teann a tha an uairsin air an dì-chòdachadh air ais gu claisneachd amh a ’cleachdadh an decoder VQ-VAE.
Suidheachadh neach-ealain agus gnè ann an Jukebox
Tha modal ginealach Jukebox air a dhèanamh nas smachdail le bhith a’ toirt seachad comharran cumhach a bharrachd tron cheum trèanaidh.
Tha na ciad mhodalan air an toirt seachad le luchd-ealain agus bileagan gnè airson gach òran. Bidh seo a’ lughdachadh entropy an ro-innse claisneachd agus a’ leigeil leis a’ mhodail càileachd nas fheàrr a choileanadh. Tha na bileagan cuideachd a’ toirt cothrom dhuinn am modail a stiùireadh ann an stoidhle sònraichte.
A bharrachd air an neach-ealain agus gnè, thèid comharran tìm a chur ris rè ùine trèanaidh. Tha na comharran sin a’ toirt a-steach fad an òrain, àm tòiseachaidh sampall sònraichte, agus bloigh an òrain a chaidh seachad. Tha am fiosrachadh a bharrachd seo a’ cuideachadh a’ mhodail gus pàtrain claisneachd a thuigsinn a tha an urra ris an structar iomlan.
Mar eisimpleir, is dòcha gun ionnsaich am modail gu bheil am moladh airson ceòl beò a’ tachairt aig deireadh òran. Faodaidh am modail ionnsachadh cuideachd, mar eisimpleir, gu bheil earrannan ionnsramaid nas fhaide aig cuid de ghnèithean na cuid eile.
Lyrics
Tha na modailean le cumhachan air an deach iomradh a thoirt san earrann roimhe seo comasach air measgachadh de ghuthan seinn a ghineadh. Ach, tha na guthan sin buailteach a bhith mì-chinnteach agus neo-aithnichte.
Gus smachd a chumail air a 'mhodail ginealach nuair a thig e gu ginealach liriceach, bidh an luchd-rannsachaidh a' toirt seachad barrachd co-theacsa aig àm trèanaidh. Gus cuideachadh le bhith a’ mapadh dàta liriceach chun àm air an fhìor fhuaim, chleachd an luchd-rannsachaidh Spleadair guthan a thoirt a-mach agus Co-thaobhadh AutoLyrics NUS gus co-thaobhadh ìre facal fhaighinn de na faclan.
Cuingeachaidhean air Modail Jukebox
Is e aon de na prìomh chuingealachaidhean aig Jukebox a thuigse air structaran ciùil nas motha. Mar eisimpleir, is dòcha gu bheil criomag ghoirid 20-diog den toradh a’ faireachdainn drùidhteach, ach mothaichidh luchd-èisteachd gu bheil an structar ciùil àbhaisteach airson sèistean is rannan ath-aithris neo-làthaireach san toradh deireannach.
Tha am modail cuideachd slaodach ri thoirt seachad. Bheir e timcheall air 9 uairean airson aon mhionaid de chlaistinn a thoirt seachad. Tha seo a’ cuingealachadh na h-àireimh de dh’òrain a dh’fhaodar a chruthachadh agus a’ cur casg air a’ mhodail a bhith air a chleachdadh ann an tagraidhean eadar-ghnìomhach.
Mu dheireadh, tha an luchd-rannsachaidh air mothachadh gu bheil an seata dàta sampall sa Bheurla sa mhòr-chuid agus a’ taisbeanadh gnàthasan ciùil an Iar sa mhòr-chuid. Faodaidh luchd-rannsachaidh AI fòcas a chuir air rannsachadh san àm ri teachd air ceòl a chruthachadh ann an cànanan eile agus stoidhlichean ciùil taobh a-muigh an Iar.
Co-dhùnadh
Tha am pròiseact Jukebox a’ soilleireachadh comas fàsmhor mhodalan ionnsachaidh inneal gus riochdachaidhean falaichte neo-mhearachdach a chruthachadh de dhàta iom-fhillte leithid claisneachd amh. Tha adhartasan coltach ris a’ tachairt anns an teacsa, mar a chithear ann am pròiseactan mar GPT-3, agus dealbhan, mar a chithear ann an OpenAI DALL-E2.
Ged a tha an rannsachadh san raon seo air a bhith drùidhteach, tha draghan ann fhathast mu chòraichean seilbh inntleachdail agus a’ bhuaidh a dh’ fhaodadh a bhith aig na modailean sin air gnìomhachasan cruthachail san fharsaingeachd. Bu chòir do luchd-rannsachaidh agus luchd-cruthachaidh cumail orra a’ co-obrachadh gu dlùth gus dèanamh cinnteach gun lean na modailean sin a’ leasachadh.
Is dòcha gum bi modalan ciùil ginealach san àm ri teachd comasach air a bhith nan inneal airson luchd-ciùil no mar thagradh airson luchd-cruthachaidh a dh’ fheumas ceòl àbhaisteach airson pròiseactan.
Leave a Reply