우리는 새로운 생성 AI 혁명의 시작점에 와 있습니다.
생성적 인공지능은 콘텐츠를 생성할 수 있는 알고리즘과 모델을 말합니다. 이러한 모델의 출력에는 종종 실제 사람의 출력으로 오인될 수 있는 텍스트, 오디오 및 이미지가 포함됩니다.
다음과 같은 응용 프로그램 ChatGPT 생성 AI가 단순한 참신함이 아님을 보여주었습니다. AI는 이제 자세한 지침을 따를 수 있으며 세상이 어떻게 돌아가는지 깊이 이해하고 있는 것 같습니다.
하지만 어떻게 이 지점에 도달했을까요? 이 가이드에서는 이 새롭고 흥미로운 생성 AI 혁명을 위한 길을 닦은 AI 연구의 몇 가지 주요 혁신을 살펴볼 것입니다.
신경망의 부상
현대 AI의 기원을 추적할 수 있습니다. 딥러닝과 신경망 2012 인치
그 해에 토론토 대학의 Alex Krizhevsky와 그의 팀은 물체를 분류할 수 있는 매우 정확한 알고리즘을 달성할 수 있었습니다.
XNUMXD덴탈의 최첨단 신경망현재 AlexNet으로 알려진 은 준우승자보다 훨씬 낮은 오류율로 ImageNet 시각적 데이터베이스의 개체를 분류할 수 있었습니다.
신경망 일부 학습 데이터를 기반으로 특정 동작을 학습하기 위해 수학 함수 네트워크를 사용하는 알고리즘입니다. 예를 들어 암과 같은 질병을 진단하도록 모델을 훈련시키기 위해 신경망 의료 데이터를 공급할 수 있습니다.
희망은 신경망이 데이터에서 천천히 패턴을 찾고 새로운 데이터가 주어질 때 더 정확해지는 것입니다.
AlexNet은 획기적인 애플리케이션이었습니다. 컨벌루션 신경망 또는 CNN. "convolutional" 키워드는 더 가까운 데이터에 더 중점을 두는 convolutional layer의 추가를 의미합니다.
CNN은 1980년대에 이미 아이디어였지만 최신 GPU 기술이 기술을 새로운 차원으로 끌어올린 2010년대 초에야 인기를 얻기 시작했습니다.
분야에서 CNN의 성공 컴퓨터 비전 신경망 연구에 더 많은 관심을 갖게 되었습니다.
Google 및 Facebook과 같은 기술 대기업은 자체 AI 프레임워크를 대중에게 공개하기로 결정했습니다. 다음과 같은 고급 API 케 라스 사용자에게 심층 신경망을 실험할 수 있는 사용자 친화적인 인터페이스를 제공했습니다.
CNN은 이미지 인식 및 비디오 분석에 뛰어났지만 언어 기반 문제를 해결하는 데 어려움을 겪었습니다. 자연어 처리의 이러한 제한은 이미지와 텍스트가 실제로 근본적으로 다른 문제이기 때문에 존재할 수 있습니다.
예를 들어 이미지에 신호등이 포함되어 있는지 여부를 분류하는 모델이 있는 경우 문제의 신호등은 이미지의 어느 곳에나 나타날 수 있습니다. 그러나 이런 종류의 관대함은 언어에서 잘 작동하지 않습니다. "Bob ate fish"와 "Fish ate Bob"이라는 문장은 같은 단어를 사용함에도 불구하고 의미가 크게 다릅니다.
연구자들이 인간 언어와 관련된 문제를 해결하기 위한 새로운 접근법을 찾아야 한다는 것이 분명해졌습니다.
트랜스포머는 모든 것을 바꾼다
2017의에 연구 논문 "Attention Is All You Need"라는 제목의 새로운 유형의 네트워크인 Transformer를 제안했습니다.
CNN은 이미지의 작은 부분을 반복적으로 필터링하여 작동하지만 변환기는 데이터의 모든 요소를 다른 모든 요소와 연결합니다. 연구자들은 이 과정을 "셀프 어텐션"이라고 부릅니다.
문장을 구문 분석하려고 할 때 CNN과 변환기는 매우 다르게 작동합니다. CNN은 서로 가까운 단어로 연결을 형성하는 데 초점을 맞추는 반면 변환기는 문장의 모든 단어 사이에 연결을 만듭니다.
셀프 어텐션 프로세스는 인간 언어를 이해하는 데 없어서는 안 될 부분입니다. 축소하고 전체 문장이 어떻게 결합되는지 살펴봄으로써 기계는 문장 구조를 더 명확하게 이해할 수 있습니다.
첫 번째 변환기 모델이 출시되자 연구원들은 곧 새로운 아키텍처를 사용하여 인터넷에서 발견되는 엄청난 양의 텍스트 데이터를 활용했습니다.
GPT-3와 인터넷
2020년에는 OpenAI의 GPT-3 모델은 변압기가 얼마나 효과적인지 보여주었습니다. GPT-3는 인간과 거의 구별할 수 없는 텍스트를 출력할 수 있었습니다. GPT-3를 강력하게 만든 요인 중 하나는 사용된 훈련 데이터의 양이었습니다. 모델의 사전 교육 데이터 세트 대부분은 400억 개가 넘는 토큰과 함께 제공되는 Common Crawl로 알려진 데이터 세트에서 가져옵니다.
사실적인 인간 텍스트를 생성하는 GPT-3의 능력은 그 자체로 획기적이었지만 연구원들은 동일한 모델이 다른 작업을 어떻게 해결할 수 있는지 발견했습니다.
예를 들어 트윗을 생성하는 데 사용할 수 있는 동일한 GPT-3 모델은 텍스트를 요약하고 단락을 다시 작성하고 이야기를 마무리하는 데 도움이 될 수도 있습니다. 언어 모델 매우 강력해져서 이제 기본적으로 모든 유형의 명령을 따르는 범용 도구입니다.
GPT-3의 범용성으로 인해 다음과 같은 애플리케이션이 가능해졌습니다. GitHub 부조종사, 프로그래머가 일반 영어에서 작업 코드를 생성할 수 있습니다.
확산 모델: 텍스트에서 이미지로
변환기와 NLP의 발전은 다른 분야에서도 생성 AI를 위한 길을 열었습니다.
컴퓨터 비전 영역에서 우리는 이미 딥 러닝을 통해 기계가 이미지를 이해하는 방법을 다루었습니다. 그러나 우리는 여전히 AI가 이미지를 분류하는 것이 아니라 자체적으로 이미지를 생성하는 방법을 찾아야 했습니다.
DALL-E 2, Stable Diffusion 및 Midjourney와 같은 생성 이미지 모델은 텍스트 입력을 이미지로 변환할 수 있는 방법 때문에 인기를 얻었습니다.
이러한 이미지 모델은 이미지와 텍스트 간의 관계를 이해하는 모델과 입력과 일치하는 고화질 이미지를 실제로 생성할 수 있는 모델이라는 두 가지 주요 측면에 의존합니다.
OpenAI 쥐다 (Contrastive Language–Image Pre-training)은 첫 번째 측면을 해결하는 것을 목표로 하는 오픈 소스 모델입니다. 이미지가 주어지면 CLIP 모델은 특정 이미지에 대해 가장 관련성이 높은 텍스트 설명을 예측할 수 있습니다.
CLIP 모델은 중요한 이미지 특징을 추출하고 이미지를 더 간단하게 표현하는 방법을 학습하여 작동합니다.
사용자가 DALL-E 2에 샘플 텍스트 입력을 제공하면 입력은 CLIP 모델을 사용하여 "이미지 임베딩"으로 변환됩니다. 이제 목표는 생성된 이미지 임베딩과 일치하는 이미지를 생성하는 방법을 찾는 것입니다.
최신 생성 이미지 AI는 확산 모델 실제로 이미지를 만드는 작업을 처리합니다. 확산 모델은 이미지에서 추가된 노이즈를 제거하는 방법을 알 수 있도록 사전 훈련된 신경망에 의존합니다.
이 훈련 과정에서 신경망은 결국 무작위 노이즈 이미지에서 고해상도 이미지를 생성하는 방법을 학습할 수 있습니다. 이미 CLIP에서 제공하는 텍스트와 이미지의 매핑이 있으므로 확산 모델 훈련 on CLIP 이미지 임베딩을 사용하여 이미지를 생성하는 프로세스를 만듭니다.
생성 AI 혁명: 다음은 무엇입니까?
우리는 이제 제너레이티브 AI의 획기적인 발전이 며칠마다 일어나고 있는 시점에 있습니다. AI를 활용해 다양한 형태의 미디어를 생성하는 것이 점점 더 쉬워지고 있는데, 이것이 우리 사회에 어떤 영향을 미칠지 걱정해야 할까요?
기계가 노동자를 대신할 것이라는 고민은 증기기관이 발명된 이후부터 늘 거론됐는데 이번에는 좀 다른 것 같다.
제너레이티브 AI는 AI 인수로부터 안전하다고 여겨졌던 산업을 혼란에 빠뜨릴 수 있는 다목적 도구가 되고 있습니다.
AI가 몇 가지 기본 명령으로 완벽한 코드 작성을 시작할 수 있다면 프로그래머가 필요할까요? 생성 모델을 사용하여 원하는 결과를 더 저렴하게 생산할 수 있다면 사람들이 크리에이티브를 고용할까요?
제너레이티브 AI 혁명의 미래를 예측하기는 어렵다. 하지만 이제 비유적인 판도라의 상자가 열렸으니 이 기술이 세상에 긍정적인 영향을 미칠 수 있는 더 흥미로운 혁신을 가능하게 해주기를 바랍니다.
댓글을 남겨주세요.