תוכן העניינים[להתחבא][הופעה]
האם אי פעם רצית לשמוע את הדמות האהובה עליך מדברת איתך? טקסט לדיבור שנשמע טבעי הופך לאט לאט למציאות בעזרת למידת מכונה.
לדוגמה, מודל NAT TTS של גוגל משמש להפעלת החדש שלהם קול מותאם אישית שֵׁרוּת. שירות זה משתמש ברשתות עצביות כדי ליצור קול מאומן מהקלטות. אפליקציות אינטרנט כגון אוברדוק לספק מאות קולות לבחירתך כדי ליצור טקסט מסונתז משלך.
במאמר זה, נסקור את מודל הבינה המלאכותית המרשים והחידתי לא פחות המכונה 15.ai. נוצר על ידי מפתח אנונימי, זה עשוי להיות אחד היעילים והמרגשים ביותר מודלים של טקסט לדיבור עד כה.
מה זה 15.ai?
15.ai הוא אפליקציית אינטרנט בינה מלאכותית המסוגלת לייצר קולות טקסט-לדיבור רגשיים בנאמנות גבוהה. משתמשים יכולים לבחור מתוך מגוון קולות מבובספוג מכנסמרובע ועד HAL 9000 מ-2001: אודיסיאה בחלל.
התוכנית פותחה על ידי חוקר אנונימי לשעבר ב-MIT שעובד תחת השם 15. היזם הצהיר כי הפרויקט נוצר בתחילה כחלק מתוכנית ההזדמנויות למחקר לתואר ראשון של האוניברסיטה.
רבים מהקולות הזמינים ב-15.ai מאומנים על מערכי נתונים ציבוריים של דמויות מ-My Little Pony: Friendship is Magic. מעריצים נלהבים של התוכנית יצרו מאמץ משותף לאסוף, לתמלל ולעבד שעות של דיאלוג במטרה ליצור מחוללי טקסט לדיבור מדויקים של הדמויות האהובות עליהם.
מה 15.ai יכול לעשות?
אפליקציית האינטרנט 15.ai פועלת על ידי בחירה באחת מתוך עשרות דמויות בדיוניות שעליהן הוכשר המודל ושליחת טקסט קלט. לאחר לחיצה על צור, המשתמש אמור לקבל שלושה קטעי אודיו של הדמות הבדיונית המדברת את השורות הנתונות.
מאז למידה עמוקה המודל שבו נעשה שימוש אינו דטרמיניסטי, 15.ai מוציא דיבור מעט שונה בכל פעם. בדומה לאופן שבו שחקן עשוי לדרוש מספר טייקים כדי לקבל את ההצגה הנכונה, 15.ai מייצר סגנונות מסירה שונים בכל פעם עד שהמשתמש מוצא פלט שהוא אוהב.
הפרויקט כולל תכונה ייחודית המאפשרת למשתמשים לשנות באופן ידני את הרגש של הקו שנוצר באמצעות מכשירי הקשר רגשיים. פרמטרים אלה מסוגלים להסיק את הסנטימנט של אימוג'י קלט משתמש באמצעות MIT DeepMoji מודל.
לדברי המפתח, מה שמייחד את 15.ai מתוכניות TTS דומות אחרות הוא שהמודל מסתמך על מעט מאוד נתונים כדי לשכפל קולות במדויק תוך "שמירה על רגשות וטבעיות שלמים".
איך 15.ai עובד?
בואו נבחן את הטכנולוגיה מאחורי 15.ai.
ראשית, המפתח הראשי של 15.ai אומר שהתוכנה משתמשת במודל מותאם אישית כדי ליצור קולות עם מצבי רגש משתנים. מכיוון שהמחבר עדיין לא פרסם מאמר מפורט על הפרויקט, אנחנו יכולים רק להניח הנחות רחבות של מה שקורה מאחורי הקלעים.
אחזור הפונמות
ראשית, הבה נבחן כיצד התוכנית מנתחת את טקסט הקלט. לפני שהתוכנית תוכל ליצור דיבור, עליה להמיר כל מילה בודדת לאוסף הפונמות שלה. לדוגמה, המילה "כלב" מורכבת משלוש פונמות: /d/, /ɒ/ ו-/ɡ/.
אבל איך 15.ai יודע באילו פונמות להשתמש עבור כל מילה?
על פי דף אודות של 15.ai, התוכנית משתמשת בטבלת חיפוש מילון. הטבלה משתמשת בממשק ה-API של מילוני אוקספורד, ויקימילון ובמילון ההגייה של CMU כמקורות. 15.ai משתמש באתרים אחרים כגון Reddit ו-Urban Dictionary כמקורות למונחים וביטויים חדשים שנטבעו.
אם מילה מסוימת לא קיימת במילון, ההגייה שלה נגזרת באמצעות כללים פונולוגיים שהמודל למד מה LibriTTS מערך נתונים. מערך נתונים זה הוא קורפוס - מערך נתונים של מילים כתובות או מדוברות בשפת אם או בניב - של כ-585 שעות של אנשים דוברי אנגלית.
הטבעת רגשות
לדברי המפתח, המודל מנסה לנחש את הרגש הנתפס של טקסט הקלט. המודל מבצע את המשימה הזו באמצעות ה-DeepMoji ניתוח הסנטימנט דֶגֶם. המודל הספציפי הזה הוכשר על מיליארדי ציוצים עם אימוג'ים במטרה להבין כיצד משתמשים בשפה כדי להביע רגשות. התוצאה של המודל מוטמעת במודל ה-TTS כדי לתפעל את הפלט לקראת הרגש הרצוי.
לאחר שהפונמות והסנטימנט חולצו מטקסט הקלט, הגיע הזמן לסנתז דיבור.
שיבוט קול וסינתזה
מודלים של טקסט לדיבור כגון 15.ai ידועים כמודלים מרובי רמקולים. מודלים אלה בנויים כדי להיות מסוגלים ללמוד כיצד לדבר בקולות שונים. על מנת לאמן נכון את המודל שלנו, עלינו למצוא דרך לחלץ את תכונות הקול הייחודיות ולייצג אותו בצורה שמחשב יכול להבין. תהליך זה ידוע כהטמעת רמקולים.
משתמשים במודלים נוכחיים של טקסט לדיבור רשתות עצביות כדי ליצור את פלט השמע בפועל. הרשת העצבית מורכבת בדרך כלל משני חלקים עיקריים: מקודד ומפענח.
המקודד מנסה לבנות וקטור סיכום בודד המבוסס על וקטורי קלט שונים. מידע על הפונמות, ההיבטים הרגשיים ותכונות הקול מוכנס לתוך המקודד כדי ליצור ייצוג של מה שהפלט צריך להיות. לאחר מכן המפענח ממיר את הייצוג הזה לאודיו ומוציא ציון ביטחון.
לאחר מכן, אפליקציית האינטרנט 15.ai מחזירה את שלוש התוצאות המובילות עם ציון הביטחון הטוב ביותר.
נושאים
עם עליית התוכן שנוצר בינה מלאכותית כגון deepfakes, פיתוח בינה מלאכותית מתקדמת שיכולה לחקות אנשים אמיתיים יכולה להיות בעיה אתית רצינית.
נכון לעכשיו, הקולות שאתה יכול לבחור מאפליקציית האינטרנט 15.ai הם כולם דמויות בדיוניות. עם זאת, זה לא מנע מהאפליקציה לצבור מחלוקת ברשת.
כמה שחקני קול דחקו את השימוש בטכנולוגיית שיבוט קול. החששות מהם כוללים התחזות, שימוש בקולם בתוכן מפורש, והאפשרות שהטכנולוגיה עלולה להפוך את תפקידו של המדובב למיושן.
מחלוקת נוספת התרחשה מוקדם יותר בשנת 2022 כאשר התגלה שחברה בשם Voiceverse NFT משתמשת ב-15.ai כדי ליצור תוכן לקמפיין השיווקי שלה.
סיכום
טקסט לדיבור כבר די נפוץ בחיי היומיום. עוזרי קול, נווטי GPS. ושיחות טלפון אוטומטיות כבר הפכו לדבר נפוץ. עם זאת, יישומים אלה הם בעליל לא אנושיים מספיק כדי שנוכל לדעת שהם דיבור ממכונה.
טכנולוגיית TTS שנשמעת טבעית ומרגשת עשויה לפתוח את הדלת ליישומים חדשים. עם זאת, האתיקה של שיבוט קול עדיין מוטלת בספק במקרה הטוב. זה בהחלט הגיוני מדוע הרבה מהחוקרים הללו נרתעו מלחלוק את האלגוריתם עם הציבור.
השאירו תגובה