目錄[隱藏][顯示]
你有沒有想听你最喜歡的角色和你說話? 在機器學習的幫助下,聽起來自然的文本轉語音正在慢慢成為現實。
例如,谷歌的 NAT TTS 模型正被用於為他們的新 自定義語音 服務。 該服務使用神經網絡生成從錄音中訓練出來的語音。 網絡應用程序,例如 優步鴨 提供數百種聲音供您選擇,以創建自己的合成文本。
在本文中,我們將研究令人印象深刻且同樣神秘的 AI 模型 15.ai。 由匿名開發人員創建,它可能是最有效和最感人的之一 文字轉語音模型 到目前為止。
什麼是 15.ai?
15.人工智能 是一個人工智能網絡應用程序,能夠生成情感高保真文本到語音的語音。 用戶可以從 Spongebob Squarepants 到 HAL 9000 from 2001: A Space Odyssey 的各種聲音中進行選擇。
該計劃是由一位匿名的前麻省理工學院研究員以 15 的名義開發的。開發人員表示,該項目最初是作為該大學本科生研究機會計劃的一部分而構思的。
15.ai 中可用的許多聲音都是在 My Little Pony: Friendship is Magic 中的角色公共數據集上訓練的。 該節目的狂熱粉絲已經形成了一個協作的努力來收集、轉錄和處理數小時的對話,目標是為他們最喜歡的角色創建準確的文本到語音生成器。
15.ai能做什麼?
15.ai 網絡應用程序的工作原理是選擇模型已經訓練過的數十個虛構角色之一併提交輸入文本。 單擊“生成”後,用戶應該會收到三個虛構角色說出給定台詞的音頻剪輯。
由於 深入學習 使用的模型是不確定的,15.ai 每次輸出的語音都略有不同。 與演員可能需要多次拍攝才能獲得正確的交付類似,15.ai 每次都會生成不同的交付方式,直到用戶找到他們喜歡的輸出。
該項目包括一個獨特的功能,允許用戶使用情緒上下文化器手動改變生成的線條的情緒。 這些參數能夠使用 MIT's 推斷用戶輸入表情符號的情緒 深莫吉 模型。
根據開發者的說法,15.ai 與其他類似的 TTS 程序的不同之處在於,該模型依賴於非常少的數據來準確地克隆聲音,同時“保持情感和自然性完好無損”。
15.ai 是如何工作的?
讓我們看看 15.ai 背後的技術。
首先,15.ai 的主要開發人員表示,該程序使用自定義模型來生成具有不同情緒狀態的聲音。 由於作者尚未發表關於該項目的詳細論文,我們只能對幕後發生的事情做出廣泛的假設。
檢索音素
首先,讓我們看看程序是如何解析輸入文本的。 在程序可以生成語音之前,它必須將每個單詞轉換為其各自的音素集合。 例如,“狗”這個詞由三個音素組成:/d/、/ɒ/和/ɡ/。
但是 15.ai 是如何知道每個單詞使用哪些音素的呢?
根據 15.ai 的 About 頁面,該程序使用字典查找表。 該表使用牛津詞典 API、維基詞典和 CMU 發音詞典作為來源。 15.ai 使用 Reddit 和 Urban Dictionary 等其他網站作為新創造的術語和短語的來源。
如果字典中不存在任何給定單詞,則使用模型從 圖書館 數據集。 該數據集是一個語料庫——一個以母語或方言書寫或口語的數據集——包含大約 585 小時的英語人士。
嵌入情感
根據開發人員的說法,該模型試圖猜測輸入文本的感知情緒。 該模型通過 DeepMoji 完成這項任務 情感分析 模型。 這個特殊的模型在數十億條帶有表情符號的推文上進行了訓練,目的是了解語言是如何用來表達情感的。 模型的結果被嵌入到 TTS 模型中,以將輸出操縱到所需的情緒。
一旦從輸入文本中提取了音素和情感,現在就可以合成語音了。
語音克隆和合成
文本轉語音模型(例如 15.ai)被稱為多說話者模型。 這些模型旨在能夠學習如何用不同的聲音說話。 為了正確訓練我們的模型,我們必須找到一種方法來提取獨特的語音特徵並以計算機可以理解的方式表示它。 這個過程被稱為說話人嵌入。
當前的文本轉語音模型使用 神經網絡 創建實際的音頻輸出。 神經網絡通常由兩個主要部分組成:編碼器和解碼器。
編碼器嘗試基於各種輸入向量構建單個摘要向量。 有關音素、情感方面和語音特徵的信息被放入編碼器中,以創建輸出應該是什麼的表示。 然後解碼器將此表示轉換為音頻並輸出置信度分數。
然後,15.ai Web 應用程序會返回置信度最高的前三個結果。
探讨问题
隨著人工智能生成內容的興起,例如 deepfakes,開發可以模仿真人的高級人工智能可能是一個嚴重的道德問題。
目前,您可以從 15.ai 網絡應用程序中選擇的聲音都是虛構的角色。 然而,這並沒有阻止該應用在網上引起一些爭議。
一些配音演員反對使用語音克隆技術。 他們的擔憂包括模仿、在明確的內容中使用他們的聲音,以及該技術可能會使配音演員的角色過時。
另一場爭議發生在 2022 年初,當時一家名為 Voiceverse NFT 的公司被發現使用 15.ai 為其營銷活動生成內容。
結論
文字轉語音在日常生活中已經相當普遍。 語音助手、GPS 導航器。 自動電話呼叫已經變得司空見慣。 然而,這些應用程序顯然是非人類的,我們可以判斷它們是機器製造的語音。
聽起來自然而富有情感的 TTS 技術可能會為新的應用打開大門。 然而,語音克隆的倫理問題充其量仍然值得懷疑。 為什麼這些研究人員中的許多人一直不願與公眾分享該算法,這當然是有道理的。
發表評論