קענען איר נוצן אַי צו שאַפֿן אַ נייַע רעקאָרד פון דיין באַליבסטע קינסטלער?
לעצטע ברייקטרוז אין מאַשין לערנען האָבן געוויזן אַז מאָדעלס זענען איצט טויגעוודיק צו פֿאַרשטיין קאָמפּלעקס דאַטן אַזאַ ווי טעקסט און בילדער. די דזשוקעבאָקס פון OpenAI פּראָוועס אַז אפילו מוזיק קענען זיין מאָדעלעד דורך אַ נעוראַל נעץ.
מוזיק איז אַ קאָמפּלעקס כייפעץ צו מאָדעל. איר האָבן צו נעמען אין באַטראַכטונג ביידע פּשוט פֿעיִקייטן אַזאַ ווי טעמפּאָ, הילכיקייט און פּעך און מער קאָמפּליצירט פֿעיִקייטן אַזאַ ווי ליריקס, ינסטראַמאַנץ און מוזיקאַליש סטרוקטור.
ניצן אַוואַנסירטע מאַשין וויסן טעקניקס, OpenAI האט געפֿונען אַ וועג צו גער רוי אַודיאָ אין אַ פאַרטרעטונג וואָס אנדערע מאָדעלס קענען נוצן.
דער אַרטיקל וועט דערקלערן וואָס דזשוקעבאָקס קענען טאָן, ווי עס אַרבעט און די קראַנט לימיטיישאַנז פון די טעכנאָלאָגיע.
וואָס איז Jukebox AI?
דזשוקעבאָקס איז אַ נעוראַל נעץ מאָדעל פון OpenAI וואָס קענען דזשענערייט מוזיק מיט געזאַנג. דער מאָדעל קענען פּראָדוצירן מוזיק אין אַ פאַרשיידנקייַט פון זשאַנראַז און קינסטלער סטיילז.
פֿאַר בייַשפּיל, דזשוקעבאָקס קענען פּראָדוצירן אַ שטיין ליד אין די נוסח פון עלוויס פּרעסלי אָדער אַ לענד האָפּקען ניגן אין די נוסח פון קאַניע וועסט. איר קענען באַזוכן דעם וועבזייַטל צו ויספאָרשן ווי עפעקטיוו דער מאָדעל איז אין קאַפּטשערינג די געזונט פון דיין באַליבסטע מוזיקאַליש אַרטיס און זשאַנראַז.
דער מאָדעל ריקווייערז אַ זשאַנראַ, קינסטלער און ליריקס ווי אַרייַנשרייַב. דער אַרייַנשרייַב פירער אַ מאָדעל טריינד אויף מיליאַנז פון אַרטיס און ליריק דאַטן.
ווי אַזוי אַרבעט דזשוקעבאָקס?
לאָמיר זען ווי דזשוקעבאָקס געראטן צו דזשענערייט ראָמאַן רוי אַודיאָ פֿון אַ מאָדעל טריינד אויף מיליאַנז פון לידער.
קאָדירונג פּראָצעס
בשעת עטלעכע מוזיק דור מאָדעלס נוצן MIDI טריינינג דאַטן, דזשוקעבאָקס איז טריינד אויף די פאַקטיש רוי אַודיאָ טעקע. צו קאָמפּרעס די אַודיאָ אין אַ דיסקרעטע פּלאַץ, דזשוקעבאָקס ניצט אַן אַוטאָ-ענקאָדער צוגאַנג באקאנט ווי VQ-VAE.
VQ-VAE שטייט פֿאַר Vector Quantized Variational Autoencoder, וואָס קען געזונט אַ ביסל קאָמפּליצירט, אַזוי לאָזן ס ברעכן עס אַראָפּ.
ערשטער, לאָמיר פּרובירן צו פֿאַרשטיין וואָס מיר ווילן צו טאָן דאָ. קאַמפּערד מיט ליריקס אָדער בויגן מוזיק, אַ רוי אַודיאָ טעקע איז פיל מער קאָמפּליצירט. אויב מיר וועלן אַז אונדזער מאָדעל זאָל "לערנען" פון לידער, מיר וועלן האָבן צו יבערמאַכן עס אין אַ מער קאַמפּרעסט און סימפּלאַפייד פאַרטרעטונג. אין מאַשין וויסן, רופ ן מי ר ד י דאזיק ע אונטערלײגנדיק ע פארטרעטונג א לייטאַנט פּלאַץ.
An אַוטאָענקאָדע איז אַן אַנסופּערווייזד לערנען טעכניק וואָס ניצט אַ נעוראַל נעץ צו געפֿינען ניט-לינעאַר לייטאַנט רעפּראַזאַנטיישאַנז פֿאַר אַ געגעבן דאַטן פאַרשפּרייטונג. די אַוטאָענקאָדער באשטייט פון צוויי טיילן: אַ ענקאָדער און דיקאָודער.
די ענקאָדער פרוווט צו געפֿינען די לייטאַנט פּלאַץ פון אַ סכום פון רוי דאַטן בשעת די דעקאָדער ניצט די לייטאַנט פאַרטרעטונג צו פּרובירן צו רעקאָנסטרוירן עס צוריק אין זיין אָריגינעל פֿאָרמאַט. דער אַוטאָענקאָדער יסענשאַלי לערנט ווי צו קאָמפּרעס די רוי דאַטן אין אַזאַ אַ וועג אַז מינאַמייז די ריקאַנסטראַקשאַן טעות.
איצט אַז מיר וויסן וואָס אַ אַוטאָענקאָדער טוט, לאָזן אונדז פּרובירן צו פֿאַרשטיין וואָס מיר מיינען מיט אַ "וואַרייישאַנאַל" אַוטאָענקאָדער. קאַמפּערד מיט טיפּיש אַוטאָענקאָדערס, ווערייישאַן אַוטאָענקאָדערס לייגן אַ פריערדיקן צו די לייטאַנט פּלאַץ.
אָן דייווינג אין די מאטעמאטיק, אַדינג אַ פּראָבאַביליסטיק פריערדיק האלט די לייטאַנט פאַרשפּרייטונג ענג קאַמפּאַקטיד. דער הויפּט חילוק צווישן אַ VAE און אַ VQ-VAE איז אַז די יענער ניצט אַ דיסקרעטע לייטאַנט פאַרטרעטונג אלא ווי אַ קעסיידערדיק.
יעדער VQ-VAE מדרגה ינקאָודז ינדיפּענדאַנטלי די אַרייַנשרייַב. די קאָדירונג פון די דנאָ מדרגה גיט די העכסטן קוואַליטעט ריקאַנסטראַקשאַן. די שפּיץ-מדרגה קאָדירונג ריטיין יקערדיק מוזיקאַליש אינפֿאָרמאַציע.
ניצן טראַנספאָרמערס
איצט אַז מיר האָבן די מוזיק קאָודז קאָדעד דורך VQ-VAE, מיר קענען פּרובירן צו דזשענערייט מוזיק אין דעם קאַמפּרעסט דיסקרעטע פּלאַץ.
דזשוקעבאָקס ניצט אַוטאָרעגרעסיוו טראַנספאָרמערס צו שאַפֿן די רעזולטאַט אַודיאָ. טראַנספאָרמערס זענען אַ טיפּ פון נעוראַל נעץ וואָס אַרבעט בעסטער מיט סיקוואַנס דאַטן. געגעבן אַ סיקוואַנס פון טאָקענס, אַ טראַנספאָרמער מאָדעל וועט פּרובירן צו פאָרויסזאָגן די ווייַטער סימען.
דזשוקעבאָקס ניצט אַ סימפּלאַפייד וואַריאַנט פון ספּאַרס טראַנספאָרמערס. אַמאָל אַלע פריערדיקע מאָדעלס זענען טריינד, די טראַנספאָרמער דזשענערייץ קאַמפּרעסט קאָודז וואָס זענען דאַן דיקאָודיד צוריק אין רוי אַודיאָ מיט די VQ-VAE דיקאָודער.
קינסטלער און זשאַנראַ קאַנדישאַנינג אין דזשוקעבאָקס
Jukebox ס גענעראַטיווע מאָדעל איז געמאכט מער קאַנטראָולאַבאַל דורך פּראַוויידינג נאָך קאַנדישאַנאַל סיגנאַלז בעשאַס די טריינינג שריט.
די ערשטע מאָדעלס זענען צוגעשטעלט דורך קינסטלער און זשאַנראַ לאַבעלס פֿאַר יעדער ליד. דאָס ראַדוסאַז די ענטראָפּיע פון די אַודיאָ פּראָגנאָז און אַלאַוז די מאָדעל צו דערגרייכן בעסער קוואַליטעט. די לאַבעלס אויך געבן אונדז צו פירן די מאָדעל אין אַ באַזונדער סטיל.
אַחוץ דעם קינסטלער און זשאַנראַ, טיימינג סיגנאַלז זענען צוגעגעבן בעשאַס טריינינג צייט. די סיגנאַלז אַרייַננעמען די לענג פון די ליד, די אָנהייב צייט פון אַ באַזונדער מוסטער און די בראָכצאָל פון די ליד וואָס איז דורכגעגאנגען. די נאָך אינפֿאָרמאַציע העלפּס די מאָדעל פֿאַרשטיין אַודיאָ פּאַטערנז וואָס פאַרלאָזנ זיך די קוילעלדיק סטרוקטור.
פֿאַר בייַשפּיל, דער מאָדעל קען לערנען אַז די אַפּלאָדיסמענטן פֿאַר לעבן מוזיק כאַפּאַנז אין די סוף פון אַ ליד. דער מאָדעל קען אויך לערנען, למשל, אַז עטלעכע זשאַנראַז האָבן מער ינסטרומענטאַל סעקשאַנז ווי אנדערע.
ליריקס
די קאַנדישאַנד מאָדעלס דערמאנט אין די פריערדיקע אָפּטיילונג זענען ביכולת צו דזשענערייט אַ פאַרשיידנקייַט פון געזאַנג קולות. אָבער, די קולות טענד צו זיין ינקאָוכיראַנט און אַנרעקאַגנייזאַבאַל.
צו קאָנטראָלירן די גענעראַטיווע מאָדעל ווען עס קומט צו ליריק דור, די ריסערטשערז צושטעלן מער קאָנטעקסט אין טריינינג צייט. צו העלפֿן די ליריק דאַטן צו די טיימינג פון די פאַקטיש אַודיאָ, די ריסערטשערז געוויינט ספּלעעטער צו עקסטראַקט וואָקאַלס און NUS AutoLyrics Align צו קריגן וואָרט-מדרגה אַליינמאַנץ פון די ליריקס.
לימיטיישאַנז פון דזשוקעבאָקס מאָדעל
איינער פון די הויפּט לימיטיישאַנז פון דזשוקעבאָקס איז זיין פארשטאנד פון גרעסערע מוזיקאַליש סטראַקטשערז. פֿאַר בייַשפּיל, אַ קורץ 20-רגע קלעמערל פון דער רעזולטאַט קען זיין ימפּרעסיוו, אָבער צוהערערס וועלן באַמערקן אַז די טיפּיש מוזיקאַליש סטרוקטור פון ריפּיטינג טשאָרוס און ווערסעס איז ניטאָ אין די לעצט רעזולטאַט.
דער מאָדעל איז אויך פּאַמעלעך צו מאַכן. עס נעמט בעערעך 9 שעה צו גאָר ופפירן איין מינוט פון אַודיאָ. דאָס לימאַץ די נומער פון לידער וואָס קענען זיין דזשענערייטאַד און פּריווענץ די מאָדעל פון ינטעראַקטיוו אַפּלאַקיישאַנז.
לעסאָף, די ריסערטשערז האָבן באמערקט אַז די מוסטער דאַטאַסעט איז בפֿרט אין ענגליש און דיספּלייז בפֿרט מערב מוזיק קאַנווענשאַנז. AI ריסערטשערז קענען פאָקוס צוקונפֿט פאָרשונג אויף דזשענערייטינג מוזיק אין אנדערע שפּראַכן און ניט-מערב מוזיק סטיילז.
סאָף
די דזשוקעבאָקס פּרויעקט כיילייץ די גראָוינג פיייקייט פון מאַשין לערנען מאָדעלס צו שאַפֿן פּינטלעך לייטאַנט רעפּראַזאַנטיישאַנז פון קאָמפּלעקס דאַטן אַזאַ ווי רוי אַודיאָ. ענלעכע ברייקטרוז זענען געשעעניש אין דעם טעקסט, ווי געזען אין פּראַדזשעקס ווי גפּט-קסנומקס, און בילדער, ווי געזען אין OpenAI's DALL-E2.
כאָטש די פאָרשונג אין דעם פּלאַץ איז געווען ימפּרעסיוו, עס זענען נאָך קאַנסערנז וועגן אינטעלעקטואַל פאַרמאָג רעכט און די פּראַל די מאָדעלס קען האָבן אויף שעפעריש ינדאַסטריז ווי אַ גאַנץ. רעסעאַרטשערס און קריייטיווז זאָל פאָרזעצן צו ענג מיטאַרבעטן צו ענשור אַז די מאָדעלס קענען פאָרזעצן צו פֿאַרבעסערן.
צוקונפֿט דזשענעראַטיוו מוזיק מאָדעלס קען באַלד זיין ווי אַ געצייַג פֿאַר מיוזישאַנז אָדער ווי אַ אַפּלאַקיישאַן פֿאַר קריייטיווז וואָס דאַרפֿן אַ מנהג מוזיק פֿאַר פּראַדזשעקס.
לאָזן אַ ענטפֿערן