טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
האָבן איר אלץ געוואלט צו הערן דיין באַליבסטע כאַראַקטער רעדן צו איר? נאַטירלעך-סאַונדינג טעקסט-צו-רעדן איז סלאָולי שיין אַ פאַקט מיט די הילף פון מאַשין לערנען.
פֿאַר בייַשפּיל, Google ס NAT TTS מאָדעל איז געניצט צו מאַכט זייער נייַע מנהג קול דינסט. דער דינסט ניצט נעוראַל נעטוואָרקס צו דזשענערייט אַ קול טריינד פֿון רעקאָרדינגס. וועב אַפּפּס אַזאַ ווי ובערדוק צושטעלן הונדערטער פון קולות פֿאַר איר צו קלייַבן פון צו שאַפֿן דיין אייגענע סינטאַסייזד טעקסט.
אין דעם אַרטיקל, מיר וועלן קוקן איבער די ימפּרעסיוו און גלייַך עניגמאַטיק אַי מאָדעל באקאנט ווי 15.ai. באשאפן דורך אַן אַנאַנאַמאַס דעוועלאָפּער, עס קען זיין איינער פון די מערסט עפעקטיוו און עמאָציאָנעל טעקסט-צו-רעדע מאָדעלס אַזוי ווייַט.
וואָס איז 15.ai?
15.אַי איז אַן אַי וועב אַפּלאַקיישאַן וואָס איז ביכולת צו דזשענערייט עמאָציאָנעל הויך-פאַדעלאַטי טעקסט-צו-רעדע קולות. יוזערז קענען קלייַבן פון אַ פאַרשיידנקייַט פון קולות פֿון Spongebob Squarepants צו HAL 9000 פֿון 2001: A Space Odyssey.
דער פראגראם איז אנטוויקלט געווארן דורך אן אנאנימער געוועזענער MIT-פארשער וואס ארבעט אונטערן נאמען 15. דער אנטוויקלאר האט געזאגט אז די פראיעקט איז ערשט אנטוויקלט געווארן אלס א טייל פון דער אוניווערסיטעט'ס ונדערגראַדואַטע פאָרשונג אַפּערטונאַטיז פּראָגראַם.
פילע פון די קולות בנימצא אין 15.ai זענען טריינד אויף עפנטלעך דאַטאַסעץ פון אותיות פון מייַן קליין פּאָני: פרענדשיפּ איז מאַגיש. גיריק פאַנס פון די ווייַזן האָבן געגרינדעט אַ מיטאַרבעט צו זאַמלען, טראַנסקריבירן און פּראָצעס שעה פון דיאַלאָג מיט דער ציל צו שאַפֿן פּינטלעך טעקסט-צו-רעדע גענעראַטאָרס פון זייער באַליבסטע אותיות.
וואָס קענען 15.ai טאָן?
די 15.ai וועב אַפּלאַקיישאַן אַרבעט דורך סאַלעקטינג איינער פון דאַזאַנז פון פיקשאַנאַל אותיות וואָס די מאָדעל איז טריינד אויף און פאָרלייגן אַרייַנשרייַב טעקסט. נאָך געבן אַ קליק אויף גענעראַטע, דער באַניצער זאָל באַקומען דריי אַודיאָ קליפּס פון די פיקשאַנאַל כאַראַקטער רעדן די געגעבן שורות.
זינט די טיף לערנען דער מאָדעל איז ניט-דעטערמיניסטיק, 15.ai אַוטפּוץ אַ ביסל אַנדערש רעדע יעדער מאָל. ענלעך צו ווי אַן אַקטיאָר קען דאַרפן קייפל נעמען צו באַקומען די רעכט עקספּרעס, 15.ai דזשענערייץ פאַרשידענע עקספּרעס סטיילז יעדער מאָל ביז דער באַניצער געפינט אַ רעזולטאַט זיי ווי.
די פּרויעקט כולל אַ יינציק שטריך וואָס אַלאַוז ניצערס צו מאַניואַלי טוישן די עמאָציע פון די דזשענערייטאַד שורה מיט עמאָציאָנעל קאָנטעקסטואַליזערס. די פּאַראַמעטערס זענען ביכולת צו אַרויספירן די סענטימענט פון באַניצער אַרייַנשרייַב עמאָדזשיס ניצן MIT ס DeepMoji מאָדעל.
לויט די דעוועלאָפּער, וואָס 15.ai באַזונדער פון אנדערע ענלעך TTS מגילה איז אַז דער מאָדעל רילייז אויף זייער קליין דאַטן צו אַקיעראַטלי קלאָון קולות בשעת "בעכעסקעם ימאָושאַנז און נאַטוראַלנעסס בעשאָלעם".
ווי טוט 15.ai אַרבעט?
זאל ס קוק אין די טעכנאָלאָגיע הינטער 15.ai.
ערשטער, דער הויפּט דעוועלאָפּער פון 15.ai זאגט אַז די פּראָגראַם ניצט אַ מנהג מאָדעל צו דזשענערייט קולות מיט וועריינג עמאָציע שטאַטן. זינט דער מחבר האט נאָך צו אַרויסגעבן אַ דיטיילד צייטונג וועגן דעם פּרויעקט, מיר קענען בלויז מאַכן ברייט אַסאַמפּשאַנז פון וואָס ס געשעעניש הינטער די סינז.
ריטריווינג די פאָנעמעס
ערשטער, לאָמיר זען ווי די פּראָגראַם פּאַרסיז די אַרייַנשרייַב טעקסט. איידער די פּראָגראַם קענען דזשענערייט רייד, עס מוזן גער יעדער יחיד וואָרט אין זייַן ריספּעקטיוו זאַמלונג פון פאָנעמעס. פֿאַר בייַשפּיל, די וואָרט "הונט" איז קאַמפּאָוזד פון דרייַ פאָנעמעס: / ד /, / ɒ / און / ɡ /.
אָבער ווי קען 15.ai וויסן וואָס פאָנעמעס צו נוצן פֿאַר יעדער וואָרט?
לויט 15.ai ס וועגן בלאַט, די פּראָגראַם ניצט אַ ווערטערבוך לוקאַפּ טיש. דער טיש ניצט די Oxford Dictionaries API, Wiktionary און די CMU פּראָנאָונסינג ווערטערבוך ווי קוואלן. 15.ai ניצט אנדערע וועבסיטעס אַזאַ ווי Reddit און Urban Dictionary ווי קוואלן פֿאַר נייַע קוינד טערמינען און פראַסעס.
אויב קיין וואָרט איז נישט עקסיסטירט אין דעם ווערטערבוך, זיין פּראָונאַנסייישאַן איז דידוסט מיט פאָנאָלאָגיקאַל כּללים וואָס די מאָדעל האט געלערנט פון די LibriTTS דאַטאַסעט. דער דאַטאַסעט איז אַ קאָרפּוס - אַ דאַטאַסעט פון געשריבן אָדער גערעדט ווערטער אין אַ געבוירן שפּראַך אָדער דיאַלעקט - פון בעערעך 585 שעה פון מענטשן וואָס רעדן ענגליש.
עמבעדדינג ימאָושאַנז
לויט די דעוועלאָפּער, דער מאָדעל פרוווט צו טרעפן די באמערקט עמאָציע פון די אַרייַנשרייַב טעקסט. דער מאָדעל אַקאַמפּלישיז דעם אַרבעט דורך די DeepMoji סענטימענט אַנאַליסיס מאָדעל. דער באַזונדער מאָדעל איז טריינד אויף ביליאַנז פון טוועעץ מיט עמאָדזשיס מיט דער ציל צו פֿאַרשטיין ווי שפּראַך איז געניצט צו אויסדריקן ימאָושאַנז. דער רעזולטאַט פון דעם מאָדעל איז עמבעדיד אין די TTS מאָדעל צו מאַניפּולירן די רעזולטאַט צו די געבעטן עמאָציע.
אַמאָל די פאָנעמעס און סענטימענט זענען יקסטראַקטיד פון די אַרייַנשרייַב טעקסט, עס איז איצט צייט צו סינטאַסייז רייד.
קול קלאָונינג און סינטעז
טעקסט-צו-רעדע מאָדעלס אַזאַ ווי 15.ai זענען באקאנט ווי מולטי-רעדנער מאָדעלס. די מאָדעלס זענען געבויט צו קענען צו לערנען ווי צו רעדן אין פאַרשידענע קולות. אין סדר צו רעכט באַן אונדזער מאָדעל, מיר מוזן געפֿינען אַ וועג צו עקסטראַקט די יינציק קול פֿעיִקייטן און פאָרשטעלן עס אין אַ וועג אַז אַ קאָמפּיוטער קענען פֿאַרשטיין. דער פּראָצעס איז באקאנט ווי רעדנער עמבעדדינג.
קראַנט טעקסט-צו-רעדע מאָדעלס נוצן נוראַל נעטוואָרקס צו שאַפֿן די פאַקטיש אַודיאָ רעזולטאַט. די נעוראַל נעץ טיפּיקלי באשטייט פון צוויי הויפּט טיילן: אַ ענקאָדער און אַ דעקאָדער.
די ענקאָדער פרוווט צו בויען אַ איין קיצער וועקטאָר באזירט אויף פאַרשידן אַרייַנשרייַב וועקטאָרס. אינפֿאָרמאַציע וועגן די פאָנעמעס, עמאָציאָנעל אַספּעקץ און קול פֿעיִקייטן זענען געשטעלט אין די ענקאָדער צו מאַכן אַ פאַרטרעטונג פון וואָס דער רעזולטאַט זאָל זיין. דער דעקאָדער קאַנווערץ דעם פאַרטרעטונג אין אַודיאָ און אַוטפּוץ אַ בטחון כעזשבן.
די 15.ai וועב אַפּלאַקיישאַן גיט די שפּיץ דריי רעזולטאַטן מיט דער בעסטער בטחון כעזשבן.
ישוז
מיט די העכערונג פון אַי-דזשענערייטאַד אינהאַלט אַזאַ ווי דעעפּפאַקעס, דעוועלאָפּינג אַוואַנסירטע אַי וואָס קענען נאָכקרימען פאַקטיש מענטשן קענען זיין אַ ערנסט עטישע אַרויסגעבן.
דערווייַל, די קולות איר קענען קלייַבן פון די 15.ai וועב אַפּלאַקיישאַן זענען אַלע פיקשאַנאַל אותיות. אָבער, דאָס האט נישט האַלטן די אַפּ פון גאַרנערינג עטלעכע סיכסעך אָנליין.
עטלעכע קול אַקטערז האָבן פּושט צוריק אויף די נוצן פון קול קלאָונינג טעכנאָלאָגיע. זארגן פון זיי אַרייַננעמען ימפּערסאַניישאַן, די נוצן פון זייער קול אין יקספּליסאַט אינהאַלט, און די מעגלעכקייט אַז די טעכנאָלאָגיע קען מאַכן די ראָלע פון די קול אַקטיאָר פאַרעלטערט.
אן אנדער סיכסעך פארגעקומען פריער אין 2022 ווען אַ פירמע גערופֿן Voiceverse NFT איז דיסקאַווערד צו נוצן 15.ai צו דזשענערייט אינהאַלט פֿאַר זייער פֿאַרקויף קאמפאניע.
סאָף
טעקסט-צו-רעדן איז שוין גאַנץ פאַרשפּרייט אין טעגלעך לעבן. קול אַסיסטאַנץ, גפּס נאַוויגאַטאָרס. און אָטאַמייטיד טעלעפאָן קאַללס האָבן שוין ווערן פּראָסט-אָרט. אָבער, די אַפּלאַקיישאַנז זענען דיסטינגקטלי ניט-מענטשלעך גענוג אַז מיר קענען זאָגן אַז זיי זענען מאַשין-געמאכט רעדע.
נאַטירלעך-סאַונדינג און עמאָציאָנעל TTS טעכנאָלאָגיע קען עפֿענען די טיר פֿאַר נייַע אַפּלאַקיישאַנז. אָבער, די עטיקס פון קול קלאָונינג איז נאָך פּראָבלעמאַטיש אין בעסטער. עס איז אַוואַדע זינען וואָס פילע פון די ריסערטשערז האָבן רילאַקטאַנט צו טיילן דעם אַלגערידאַם מיט דעם ציבור.
לאָזן אַ ענטפֿערן