תוכן העניינים[להתחבא][הופעה]
האם אתה יכול להשתמש בבינה מלאכותית כדי ליצור שיא חדש מהאמן האהוב עליך?
פריצות דרך אחרונות בתחום למידת מכונה הראו שמודלים מסוגלים כעת להבין נתונים מורכבים כמו טקסט ותמונות. Jukebox של OpenAI מוכיח שאפילו מוזיקה ניתנת למודל מדויק על ידי רשת עצבית.
מוזיקה היא אובייקט מורכב למודל. אתה צריך לקחת בחשבון הן תכונות פשוטות כמו קצב, עוצמה וגובה גובה והן תכונות מורכבות יותר כמו מילים, כלי נגינה ומבנה מוזיקלי.
באמצעות מתקדם למידת מכונה טכניקות, OpenAI מצאה דרך להמיר אודיו גולמי לייצוג שמודלים אחרים יכולים להשתמש בו.
מאמר זה יסביר מה Jukebox יכול לעשות, איך זה עובד, ואת המגבלות הנוכחיות של הטכנולוגיה.
מה זה Jukebox AI?
מָקוֹל אוֹטוֹמָטִי הוא מודל רשת עצבית של OpenAI שיכול ליצור מוזיקה עם שירה. הדוגמנית יכולה להפיק מוזיקה במגוון ז'אנרים וסגנונות אמנים.
למשל, Jukebox יכולה להפיק שיר רוק בסגנון אלביס פרסלי או נעימת היפ הופ בסגנון קניה ווסט. אתה יכול לבקר את זה אתר אינטרנט כדי לחקור עד כמה המודל יעיל בלכידת הצליל של האמנים והז'אנרים המוזיקליים האהובים עליך.
המודל דורש ז'אנר, אמן ומילים כקלט. קלט זה מנחה מודל שהוכשר על מיליוני אמנים ונתוני שירים.
איך Jukebox עובד?
בואו נסתכל איך Jukebox מצליחה לייצר אודיו גולמי חדש מדגם שאומן על מיליוני שירים.
תהליך קידוד
בעוד שדגמי יצירת מוזיקה מסוימים משתמשים בנתוני אימון MIDI, Jukebox מאומן על קובץ האודיו הגולמי בפועל. כדי לדחוס את השמע למרחב נפרד, Jukebox משתמש בגישת מקודד אוטומטי המכונה VQ-VAE.
VQ-VAE מייצג Vector Quantized Variational Autoencoder, שאולי נשמע קצת מסובך, אז בואו נפרק את זה.
ראשית, בואו ננסה להבין מה אנחנו רוצים לעשות כאן. בהשוואה למילים או לתווים, קובץ שמע גולמי הוא הרבה יותר מורכב. אם אנחנו רוצים שהמודל שלנו "ילמד" משירים, נצטרך להפוך אותו לייצוג דחוס ומפושט יותר. ב למידת מכונה, אנו קוראים לייצוג הבסיסי הזה א מרחב סמוי.
An קידוד אוטומטי היא טכניקת למידה ללא פיקוח המשתמשת ב-a רשת עצבית למצוא ייצוגים סמויים לא ליניאריים עבור התפלגות נתונים נתונה. המקודד האוטומטי מורכב משני חלקים: מקודד ומפענח.
השמיים קוֹדַאִי מנסה למצוא את המרחב הסמוי מתוך קבוצה של נתונים גולמיים תוך כדי מפענח משתמש בייצוג הסמוי כדי לנסות לשחזר אותו לפורמט המקורי שלו. המקודד האוטומטי לומד למעשה כיצד לדחוס את הנתונים הגולמיים בצורה כזו שתמזער שגיאות שחזור.
כעת, כשאנחנו יודעים מה עושה מקודד אוטומטי, בואו ננסה להבין למה אנחנו מתכוונים במקודד אוטומטי "משתנה". בהשוואה למקודדים אוטומטיים טיפוסיים, מקודדים אוטומטיים וריאציות מוסיפים קודמת למרחב הסמוי.
מבלי לצלול לתוך המתמטיקה, הוספת קודמת הסתברותית שומרת על ההתפלגות הסמויה דחוסה. ההבדל העיקרי בין VAE ל-VQ-VAE הוא שהאחרון משתמש בייצוג סמוי דיסקרטי ולא רציף.
כל רמת VQ-VAE מקודדת באופן עצמאי את הקלט. הקידוד ברמה התחתונה מייצר את השחזור האיכותי ביותר. הקידוד ברמה העליונה שומר מידע מוזיקלי חיוני.
שימוש ברובוטריקים
עכשיו כשיש לנו את קודי המוזיקה המקודדים על ידי VQ-VAE, אנחנו יכולים לנסות ליצור מוזיקה בחלל הבדיד הדחוס הזה.
שימושים ב-Jukebox שנאים אוטורגרסיביים כדי ליצור את האודיו הפלט. רובוטריקים הם סוג של רשת עצבית שעובדת בצורה הטובה ביותר עם נתונים ברצף. בהינתן רצף של אסימונים, מודל שנאי ינסה לחזות את האסימון הבא.
Jukebox משתמש בגרסה פשוטה של רובוטריקים ספירים. לאחר הכשרה של כל הדגמים הקודמים, השנאי מייצר קודים דחוסים אשר מפוענחים בחזרה לאודיו גולמי באמצעות מפענח VQ-VAE.
אמן וז'אנר התניה ב-Jukebox
המודל הגנרטיבי של Jukebox נעשה יותר לשליטה על ידי מתן אותות מותנים נוספים במהלך שלב האימון.
הדגמים הראשונים מסופקים על ידי אמנים ותוויות ז'אנר עבור כל שיר. זה מפחית את האנטרופיה של חיזוי האודיו ומאפשר למודל להשיג איכות טובה יותר. התוויות גם מאפשרות לנו לנווט את הדגם בסגנון מסוים.
מלבד האמן והז'אנר, מתווספים אותות תזמון בזמן האימון. האותות הללו כוללים את אורך השיר, שעת ההתחלה של דגימה מסוימת ושבריר השיר שחלף. מידע נוסף זה עוזר למודל להבין דפוסי שמע המסתמכים על המבנה הכללי.
לדוגמה, הדוגמנית עשויה ללמוד שמחיאות הכפיים למוזיקה חיה מתרחשות בסוף שיר. המודל יכול גם ללמוד, למשל, שלז'אנרים מסוימים יש קטעים אינסטרומנטליים ארוכים יותר מאחרים.
מילים
הדגמים המותנים שהוזכרו בסעיף הקודם מסוגלים להפיק מגוון קולות שירה. עם זאת, קולות אלה נוטים להיות לא קוהרנטיים ובלתי ניתנים לזיהוי.
כדי לשלוט במודל הגנרטיבי בכל הנוגע ליצירת שירים, החוקרים מספקים יותר הקשר בזמן האימון. כדי לעזור למפות את נתוני השיר לתזמון על האודיו בפועל, השתמשו החוקרים ספליטר לחלץ שירה ו NUS AutoLyrics Align כדי להשיג יישור ברמת המילה של המילים.
מגבלות של דגם Jukebox
אחת המגבלות העיקריות של Jukebox היא ההבנה שלה של מבנים מוזיקליים גדולים יותר. לדוגמה, קליפ קצר של 20 שניות של הפלט אולי נשמע מרשים, אבל המאזינים ישימו לב שהמבנה המוזיקלי הטיפוסי של פזמונים ופסוקים חוזרים נעדר בפלט הסופי.
הדגם גם איטי לעיבוד. זה לוקח בערך 9 שעות לעיבוד מלא של דקה אחת של אודיו. זה מגביל את מספר השירים שניתן להפיק ומונע את השימוש במודל באפליקציות אינטראקטיביות.
לבסוף, החוקרים ציינו כי מערך הנתונים לדוגמה הוא בעיקר באנגלית ומציג בעיקר מוסכמות מוזיקה מערביות. חוקרי בינה מלאכותית יכולים למקד מחקר עתידי ביצירת מוזיקה בשפות אחרות ובסגנונות מוזיקה לא מערביים.
סיכום
פרויקט Jukebox מדגיש את היכולת ההולכת וגדלה של מודלים של למידת מכונה ליצור ייצוג סמוי מדויק של נתונים מורכבים כגון אודיו גולמי. פריצות דרך דומות מתרחשות בטקסט, כפי שניתן לראות בפרויקטים כמו GPT-3, ותמונות, כפי שניתן לראות ב-OpenAI's DALL-E2.
למרות שהמחקר בתחום זה היה מרשים, עדיין יש חששות לגבי זכויות קניין רוחני וההשפעה שעשויה להיות למודלים הללו על תעשיות יצירתיות בכללותן. חוקרים וקריאייטיבים צריכים להמשיך לשתף פעולה באופן הדוק כדי להבטיח שהמודלים הללו יוכלו להמשיך להשתפר.
מודלים עתידיים של מוזיקה יוצרת עשויים להיות מסוגלים בקרוב לשמש ככלי למוזיקאים או כאפליקציה עבור קריאייטיבים שזקוקים למוזיקה מותאמת אישית לפרויקטים.
השאירו תגובה