좋아하는 캐릭터의 이야기를 듣고 싶었던 적이 있습니까? 자연스럽게 들리는 텍스트 음성 변환은 기계 학습의 도움으로 서서히 현실이 되고 있습니다.
예를 들어 Google의 NAT TTS 모델은 새로운 커스텀 보이스 서비스. 이 서비스는 신경망을 사용하여 녹음에서 훈련된 음성을 생성합니다. 다음과 같은 웹 앱 우버덕 자신만의 합성 텍스트를 만들기 위해 선택할 수 있는 수백 가지의 음성을 제공합니다.
이 기사에서는 15.ai로 알려진 인상적이고 똑같이 수수께끼 같은 AI 모델을 살펴보겠습니다. 익명의 개발자가 만들었으며 가장 효율적이고 감동적인 것 중 하나일 수 있습니다. 텍스트 음성 변환 모델 지금까지.
15.ai가 무엇인가요?
15.아이 는 감성적인 고충실도 TTS(텍스트 음성 변환) 음성을 생성할 수 있는 AI 웹 애플리케이션입니다. 사용자는 Spongebob Squarepants에서 9000: A Space Odyssey의 HAL 2001에 이르기까지 다양한 음성 중에서 선택할 수 있습니다.
이 프로그램은 15라는 이름으로 일하는 익명의 전 MIT 연구원에 의해 개발되었습니다. 개발자는 이 프로젝트가 처음에 대학의 학부 연구 기회 프로그램의 일부로 생각되었다고 말했습니다.
15.ai에서 사용 가능한 많은 음성은 My Little Pony: Friendship is Magic의 공개 데이터 세트에서 훈련됩니다. 쇼의 열렬한 팬은 자신이 좋아하는 캐릭터의 정확한 TTS(텍스트 음성 변환) 생성기를 만들기 위해 몇 시간에 걸친 대화를 수집, 필사 및 처리하기 위한 공동 노력을 결성했습니다.
15.ai는 무엇을 할 수 있습니까?
15.ai 웹 애플리케이션은 모델이 훈련된 수십 개의 가상 캐릭터 중 하나를 선택하고 입력 텍스트를 제출하는 방식으로 작동합니다. 생성을 클릭한 후 사용자는 주어진 대사를 말하는 가상의 캐릭터에 대한 XNUMX개의 오디오 클립을 수신해야 합니다.
이후 깊은 학습 사용된 모델은 비결정적이며 15.ai는 매번 약간 다른 음성을 출력합니다. 배우가 올바른 전달을 위해 여러 테이크를 요구할 수 있는 것과 유사하게 15.ai는 사용자가 원하는 출력을 찾을 때까지 매번 다른 전달 스타일을 생성합니다.
이 프로젝트에는 사용자가 감정적 상황화 도구를 사용하여 생성된 선의 감정을 수동으로 변경할 수 있는 고유한 기능이 포함되어 있습니다. 이 매개변수는 MIT를 사용하여 사용자 입력 이모티콘의 감정을 추론할 수 있습니다. 딥모지 모델입니다.
개발자에 따르면 15.ai가 다른 유사한 TTS 프로그램과 차별화되는 점은 모델이 "감정과 자연스러움을 그대로 유지"하면서 음성을 정확하게 복제하기 위해 매우 적은 데이터에 의존한다는 것입니다.
15.ai는 어떻게 작동합니까?
15.ai의 이면에 있는 기술을 살펴보겠습니다.
첫째, 15.ai의 주요 개발자는 이 프로그램이 사용자 지정 모델을 사용하여 다양한 감정 상태의 음성을 생성한다고 말합니다. 저자는 아직 프로젝트에 대한 자세한 논문을 발표하지 않았기 때문에 우리는 배후에서 무슨 일이 일어나고 있는지에 대한 광범위한 가정만 할 수 있습니다.
음소 검색
먼저 프로그램이 입력 텍스트를 구문 분석하는 방법을 살펴보겠습니다. 프로그램이 음성을 생성하기 전에 각 개별 단어를 해당 음소 모음으로 변환해야 합니다. 예를 들어, "개"라는 단어는 /d/, /ɒ/ 및 /ɡ/의 세 가지 음소로 구성됩니다.
그러나 15.ai는 각 단어에 사용할 음소를 어떻게 알 수 있습니까?
15.ai의 About 페이지에 따르면 이 프로그램은 사전 조회 테이블을 사용합니다. 이 표는 Oxford Dictionaries API, Wiktionary 및 CMU Pronouncing Dictionary를 소스로 사용합니다. 15.ai는 Reddit 및 Urban Dictionary와 같은 다른 웹사이트를 새로 만들어진 용어 및 구문의 출처로 사용합니다.
주어진 단어가 사전에 없으면 모델이 학습한 음운 규칙을 사용하여 발음을 추론합니다. 라이브러리 데이터세트. 이 데이터 세트는 약 585시간 동안 영어를 사용하는 사람들의 말뭉치(모국어 또는 방언으로 쓰여지거나 구어된 단어의 데이터 세트)입니다.
감정 포함
개발자에 따르면 모델은 입력 텍스트의 인지된 감정을 추측하려고 합니다. 모델은 DeepMoji를 통해 이 작업을 수행합니다. 심리 분석 모델. 이 특정 모델은 언어가 감정을 표현하는 데 사용되는 방식을 이해하기 위해 이모티콘이 포함된 수십억 개의 트윗에 대해 훈련되었습니다. 모델의 결과는 원하는 감정에 대한 출력을 조작하기 위해 TTS 모델에 포함됩니다.
입력 텍스트에서 음소와 감정을 추출했으면 이제 음성을 합성할 차례입니다.
음성 복제 및 합성
15.ai와 같은 텍스트 음성 변환 모델은 다중 화자 모델로 알려져 있습니다. 이 모델은 다양한 목소리로 말하는 방법을 배울 수 있도록 제작되었습니다. 모델을 적절하게 훈련시키기 위해서는 고유한 음성 특징을 추출하고 컴퓨터가 이해할 수 있는 방식으로 표현하는 방법을 찾아야 합니다. 이 프로세스를 스피커 임베딩이라고 합니다.
현재 TTS(텍스트 음성 변환) 모델 사용 신경망 실제 오디오 출력을 생성합니다. 신경망은 일반적으로 인코더와 디코더의 두 가지 주요 부분으로 구성됩니다.
인코더는 다양한 입력 벡터를 기반으로 단일 요약 벡터를 구축하려고 합니다. 음소, 감정적 측면 및 음성 기능에 대한 정보가 인코더에 배치되어 출력이 어떠해야 하는지를 나타냅니다. 그런 다음 디코더는 이 표현을 오디오로 변환하고 신뢰도 점수를 출력합니다.
그런 다음 15.ai 웹 애플리케이션은 최고의 신뢰도 점수를 가진 상위 XNUMX개 결과를 반환합니다.
문제
와 같은 AI 생성 콘텐츠의 등장으로 딥 페이크, 실제 사람을 모방할 수 있는 고급 AI를 개발하는 것은 심각한 윤리적 문제가 될 수 있습니다.
현재 15.ai 웹 애플리케이션에서 선택할 수 있는 음성은 모두 가상의 캐릭터입니다. 그러나 그것이 앱이 온라인에서 약간의 논란을 불러일으키는 것을 막지는 못했습니다.
일부 성우들은 음성 복제 기술의 사용을 거부했습니다. 그들로부터 우려되는 사항은 사칭, 노골적인 콘텐츠에서 그들의 목소리 사용, 그리고 기술이 성우의 역할을 쓸모없게 만들 가능성을 포함합니다.
2022년 초 Voiceverse NFT라는 회사가 15.ai를 사용하여 마케팅 캠페인을 위한 콘텐츠를 생성한 것으로 밝혀지면서 또 다른 논란이 발생했습니다.
결론
텍스트 음성 변환은 이미 일상 생활에서 널리 보급되어 있습니다. 음성 비서, GPS 내비게이터. 자동 전화 통화는 이미 일반화되었습니다. 그러나 이러한 응용 프로그램은 기계가 만든 음성이라고 말할 수 있을 만큼 분명히 사람이 아닙니다.
자연스럽고 감성적인 TTS 기술은 새로운 응용 분야의 문을 열 수 있습니다. 그러나 음성 복제의 윤리는 기껏해야 여전히 의문의 여지가 있습니다. 많은 연구자들이 알고리즘을 대중과 공유하는 것을 꺼리는 이유는 확실히 이해가 됩니다.
댓글을 남겨주세요.