가짜 사진과 비디오가 있는 것은 새로운 일이 아닙니다. 인터넷이 널리 사용된 이후로 이미지와 영화가 등장한 이래로 개인들은 속이거나 즐겁게 하기 위한 위조품을 만들어 왔습니다.
그러나 언젠가는 현실과 허구를 구별하기 어렵게 만들 수 있는 새로운 유형의 기계 제작 가짜가 있습니다.
이러한 가짜는 Photoshop과 같은 편집 소프트웨어나 교묘하게 조작된 과거 필름으로 생성된 단순한 그림 조작과는 다릅니다.
Deepfakes는 "합성 미디어"의 가장 잘 알려진 예입니다. 이미지, 사운드 및 비디오는 기존 방법을 사용하여 생성된 것처럼 보이지만 실제로는 정교한 소프트웨어를 사용하여 만든 것입니다.
Deepfakes는 한동안 사용되어 왔으며 가장 인기 있는 응용 프로그램은 포르노 영화 배우의 몸에 유명인의 머리를 얹는 것이지만, 어디에서나 무엇이든 하는 사람의 설득력 있는 영상을 생성할 수 있습니다.
이 게시물에서는 Deepfakes, 작동 방식, 스스로 생성하는 방법 등을 살펴보겠습니다.
그렇다면 DeepFake는 무엇입니까?
딥페이크(deepfake)는 딥러닝(deep learning)과 페이크(fake)의 합성어입니다. 합성 매체 이미 존재하는 사진이나 영상에 있는 사람의 모습을 대체하기 위해 다른 사람의 모습을 사용하는 것.
Deepfakes는 정교한 기계 학습 및 인공 지능 기술을 사용하여 속일 가능성이 높은 시각 및 청각 정보를 수정하고 생성합니다.
자동 인코더 및 생성적 적대 네트워크와 같은 딥 러닝 방법은 딥페이크 생성(GAN)의 기본 메커니즘입니다.
이 모델은 사람의 얼굴 감정과 움직임을 분석하고 비슷한 표정과 움직임을 보이는 다른 사람들의 얼굴 사진을 합성하는 데 사용됩니다.
유명인 포르노 비디오, 가짜 뉴스, 사기 및 금융 사기에 딥페이크를 사용하는 것이 상당한 주목을 받았습니다. 업계와 정부 모두 이를 찾아내고 사용을 제한하는 방식으로 대응했다.
퍼스트 오더 모션 모델
과거에 딥 페이크를 개발하려고 할 때 문제는 이러한 접근 방식이 작동하려면 일종의 추가 지식 또는 사전 지식이 필요하다는 것이었습니다.
예를 들어 머리 움직임을 추적하려면 얼굴 마커가 필요합니다. 전신 모션을 매핑하려면 포즈 추정이 필요했습니다.
작년에 토론토 대학 연구팀이 연구를 발표한 NeurIPS 컨퍼런스에서 바뀌었습니다.이미지 애니메이션을 위한 XNUMX차 모션 모델. "
이 접근 방식에는 애니메이션에 대한 추가 지식이 필요하지 않습니다. 또한 이 모델을 학습시킨 후 전이 학습에 사용할 수 있으며 동일한 범주에 속하는 모든 항목에 적용할 수 있습니다.
이 메서드의 작동을 조금 더 살펴보겠습니다. 모션 추출 및 생성은 전체 프로세스의 전반부를 구성합니다. 주행 영상과 소스 사진을 입력으로 활용합니다.
희소 키 포인트와 로컬 아핀 변환으로 구성된 XNUMX차 모션 표현을 추출하기 위해 모션 추출기는 자동 인코더를 사용하여 키 포인트를 식별합니다.
조밀한 모션 네트워크로 조밀한 광 흐름 및 오클루전 맵을 생성하기 위해 주행 비디오와 함께 사용됩니다. 그런 다음 생성기는 덴스 모션 네트워크와 소스 이미지의 출력을 사용하여 대상 그림을 렌더링합니다.
전반적으로 이 작업은 최신 기술보다 성능이 좋습니다. 다른 모델에는 없는 기능도 포함되어 있습니다. 여러 사진 유형에서 작동하므로 얼굴, 몸, 만화 등의 이미지에 적용할 수 있어 매우 좋습니다.
이를 통해 많은 새로운 기회가 생성됩니다. 우리 전략의 또 다른 획기적인 측면은 이제 우리가 하는 것과 유사하게 대상 물체의 단 하나의 이미지를 사용하여 고품질 Deepfake를 생성할 수 있다는 것입니다. 객체에 대한 YOLO 인식.
Deepfake 모델 생성 과정
딥페이크 생성에는 추출, 훈련 및 생성의 세 가지 프로세스가 필요합니다. 이러한 각 단계의 주요 요점과 이러한 단계가 전체 프로세스와 어떻게 관련되는지 이 섹션에서 다룰 것입니다.
추출
Deepfakes는 심층 신경망을 사용하여 얼굴을 변경하고 정확하고 설득력 있게 작동하기 위해 많은 데이터(사진)가 필요합니다. 추출 과정은 비디오 클립의 모든 프레임을 추출하고 얼굴을 인식한 다음 얼굴을 정렬하여 성능을 극대화하는 단계입니다.
트레이닝
훈련 단계에서는 신경망 한 얼굴을 다른 얼굴로 바꿀 수 있습니다. 실습 세트와 교육 도구의 크기에 따라 교육에 몇 시간 또는 며칠이 걸릴 수 있습니다.
대부분의 다른 신경망 훈련과 마찬가지로 훈련은 한 번만 완료하면 됩니다. 훈련 후에 모델은 사람 A에서 사람 B로 얼굴을 변경할 수 있습니다.
창조
모델이 학습된 후 딥페이크가 생성될 수 있습니다. 프레임은 비디오에서 가져온 다음 모든 얼굴에 정렬됩니다. 그런 다음 훈련된 신경망을 사용하여 각 프레임을 변환합니다.
변형된 얼굴은 마지막 단계로 원본 프레임과 병합되어야 합니다.
Deepfake 탐지 모델 구축
GitHub Repo 마운트 및 복제
Colab에서 일하는 동안 Google의 GPU를 무료로 사용할 수 있다는 이점이 있습니다. 깊은 학습. 또 다른 장점은 클라우드 가상 머신(VM)에 Google 드라이브를 탑재할 수 있다는 것입니다.
그의 모든 자료에 쉽게 액세스할 수 있으므로 사용자가 활성화됩니다. 클라우드의 가상 머신에 Google 드라이브를 마운트하는 데 필요한 프로그램은 이 섹션에서 찾을 수 있습니다.
모듈 가져 오기
이제 필요한 모든 모듈을 가져올 것입니다.
모델 실행
우리는 푸틴의 정지 사진(출처 사진)과 오바마의 비디오를 결합한 예를 사용할 것입니다. 그 결과 푸틴 대통령이 운전 중 오바마가 사용한 것과 똑같은 표정으로 말하고 몸짓을 하는 영상이 나왔다.
모델의 결과를 표시하기 전에 미디어가 로드되고 함수가 선언됩니다. 그런 다음 체크포인트가 로드되고 모델이 구성됩니다. 딥 페이크를 만든 후 두 가지 다른 스타일의 애니메이션이 표시됩니다.
푸틴은 상대적인 키포인트 변위를 활용한 오바마의 움직임에 활기를 띠고 있습니다. 푸틴의 영상에서 오바마의 얼굴 감정과 몸짓 언어가 아름답고 명확하게 묘사되는 방식은 놀랍습니다.
몇 가지 미세한 실수가 있습니다. 특히 오바마가 눈썹을 치켜들고 눈을 깜박일 때 그렇습니다. 이러한 표현은 푸틴의 프레임에서 정확하게 복제되지 않습니다.
딥페이크 배경이 없다면 푸틴의 영화는 TV나 TV에서 볼 때 상당히 신뢰할 수 있고 진품으로 보일 것입니다. 소셜 미디어.
모델 생성
이제 사전 훈련된 체크포인트를 사용하여 완전한 모델을 만들 것입니다.
딥페이크 감지
상대 키포인트 변위는 아래 셀의 항목에 애니메이션을 적용하는 데 사용됩니다. 다음 셀은 대신 절대 좌표를 사용하지만 모든 항목 비율은 이러한 방식으로 주행 비디오에서 가져옵니다.
절대 좌표를 사용하여 출력 향상
이러한 방식으로 딥페이크 탐지를 개발할 수 있습니다.
Deepfake 기술의 위험은 무엇입니까?
Deepfake 비디오는 이제 참신함으로 인해 매력적이고 재미있습니다. 그러나 이 겉으로 보기에 재미있는 기술의 표면 아래에 통제 불능 상태가 될 위험이 있습니다.
가짜 동영상과 실제 동영상을 구별하는 것은 확실히 어려울 것입니다. 딥 페이크 기술 계속 전진합니다. 특히 저명한 인물과 유명인의 경우 이는 심각한 영향을 미칠 수 있습니다. 의도적으로 악의적인 딥페이크는 경력과 삶을 완전히 손상시킬 가능성이 있습니다.
다른 사람을 대신하여 친구, 친척 및 동료를 이용하려는 악의적인 의도를 가진 사람이 사용할 수 있습니다. 그들은 또한 외국 지도자의 가짜 영화를 사용하여 전 세계적인 논쟁과 전쟁을 촉발시킬 수 있습니다.
결론
요약하자면, 우리는 이상한 시대와 비정상적인 환경에 있습니다. 그 어느 때보다도 거짓 뉴스와 영화를 제작하여 퍼뜨리는 일이 간단합니다. 무엇이 진실이고 무엇이 진실이 아닌지를 이해하는 것은 점점 더 어려워지고 있습니다.
오늘날 우리는 더 이상 자신의 감각에 의존할 수 없는 것 같습니다.
가짜 비디오 탐지기가 개발되었다는 사실에도 불구하고 정보 격차가 너무 작아서 가장 좋은 가짜 탐지기조차도 비디오가 실제인지 여부를 판별하지 못하는 것은 시간 문제 일뿐입니다.
댓글을 남겨주세요.