Ерөнхийдөө GAN, VAE, авторегресс загвар зэрэг гүн үүсгэгч загварууд нь зургийн синтезийн асуудлыг шийддэг.
Тэдний үүсгэсэн өгөгдлийн өндөр чанарыг харгалзан generative adversarial network (GANs) нь сүүлийн жилүүдэд ихээхэн анхаарал татаж байна.
Тархалтын загварууд нь өөрийгөө бий болгосон өөр нэг сонирхолтой судалгааны талбар юм. Зураг, видео, дуу хоолой үүсгэх талбарууд хоёуланд нь өргөн хэрэглэгддэг.
Диффузын загварууд ба GAN-ууд: Аль нь илүү сайн үр дүнд хүрэх вэ? Мэдээжийн хэрэг, энэ нь байнгын хэлэлцүүлэгт хүргэсэн.
GAN гэгддэг тооцооллын архитектурт хоёр мэдрэлийн сүлжээ Жинхэнэ өгөгдөл дамжуулах боломжтой шинэ нийлэгжүүлсэн өгөгдлийн жишээг бий болгохын тулд бие биенийхээ эсрэг тэмцдэг.
Диффузын загварууд нь сургалтын тогтвортой байдал, хөгжим, график бүтээхэд өндөр үр дүнг өгдөг тул улам бүр түгээмэл болж байна.
Энэ нийтлэлд тархалтын загвар болон GAN-уудыг нарийвчлан авч үзэх бөгөөд тэдгээр нь бие биенээсээ болон бусад хэд хэдэн зүйлээс хэрхэн ялгаатай болохыг харуулах болно.
Тэгэхээр, үүсгэгч өрсөлдөгчийн сүлжээ гэж юу вэ?
Жинхэнэ өгөгдөлтэй андуурч болзошгүй өгөгдлийн шинэ, хиймэл тохиолдлуудыг бий болгохын тулд generative adversarial network (GANs) нь хоёр мэдрэлийн сүлжээг ашиглаж, бие биенийхээ эсрэг (тиймээс нэрэнд нь "сөргөлдөөн") ашигладаг.
Эдгээрийг яриа, видео, зураг бүтээхэд өргөн ашигладаг.
GAN-ийн зорилго нь тодорхой өгөгдлийн багцаас урьд өмнө олдоогүй өгөгдлийг үүсгэх явдал юм. Түүврээс бодит, үл мэдэгдэх үндсэн өгөгдлийн тархалтын загварыг гаргахыг оролдох нь үүнийг хийдэг.
Өөрөөр хэлбэл, эдгээр сүлжээнүүд нь тодорхой статистикийн тархалтыг сурахыг оролддог далд загварууд юм.
Энэхүү зорилгыг хэрхэн хэрэгжүүлэх талаар ГАН-ын ашигласан арга нь шинэлэг байсан. Үнэн хэрэгтээ тэд далд загварыг хөгжүүлэхийн тулд хоёр тоглогчтой тоглоом тоглож өгөгдөл гаргадаг.
Бүтцийг дараах байдлаар тайлбарлав.
- Жинхэнэ болон хуурамч өгөгдлийг ялгах чадварыг олж авдаг ялгаварлагч
- Өгөгдөл үүсгэх шинэ аргуудыг сонгон авдаг генератор нь ялгаварлагчийг хуурч чадна.
Ялгаварлагч нь мэдрэлийн сүлжээ болж хувирдаг. Тиймээс генераторыг хуурахын тулд өндөр чанартай зургийг бүтээх хэрэгтэй.
Эдгээр генераторуудыг ямар ч гаралтын хуваарилалт ашиглан сургадаггүй нь автомат кодлогч загвар болон бусад загваруудын хоорондох мэдэгдэхүйц ялгаа юм.
Загварын алдагдлын функцийг задлах хоёр арга бий:
- ялгаварлагч бодит өгөгдлийг урьдчилан таамаглаж байгаа бол тоон үзүүлэлтийг тодорхойлох чадвар
- үүсгэсэн өгөгдлийг хэсэгчлэн нарийн таамаглаж байна.
Хамгийн сайн хэрэгжих боломжтой ялгаварлагчийн хувьд энэ алдагдлын функцийг дараа нь багасгасан:
Тиймээс ерөнхий загваруудыг зайг багасгах загвар, хэрэв ялгагч нь хамгийн тохиромжтой бол үнэн ба үйлдвэрлэсэн тархалтын хоорондох ялгааг багасгах загвар гэж үзэж болно.
Бодит байдал дээр янз бүрийн ялгааг ашиглаж, GAN сургалтын янз бүрийн аргуудыг бий болгож болно.
Генератор ба ялгаварлагчийн хоорондын солилцоог багтаасан сургалтын динамик нь GAN-ийн алдагдлын функцийг тохируулахад хялбар байсан ч дагаж мөрдөхөд бэрхшээлтэй байдаг.
Суралцах нь нэгдэх болно гэсэн баталгаа бас байхгүй. Үүний үр дүнд GAN загварыг сургахад хэцүү байдаг, учир нь градиент алга болох, горимын уналт (үүсгэсэн дээжүүдэд олон янз байдал байхгүй үед) зэрэг асуудлуудтай тулгардаг.
Одоо Diffusion Models-ийн цаг болжээ
GAN-ийн сургалтын конвергенцийн асуудлыг диффузын загвар боловсруулах замаар шийдвэрлэсэн.
Эдгээр загварууд нь тархалтын процесс нь дуу чимээний дэвшилтэт хөндлөнгийн оролцооноос үүдэлтэй мэдээллийн алдагдалтай тэнцүү гэж үздэг (диффузын үйл явцын үе шат бүрт гауссын дуу чимээ нэмэгддэг).
Ийм загварын зорилго нь дуу чимээ нь дээжинд байгаа мэдээлэлд хэрхэн нөлөөлж, өөрөөр хэлбэл тархалтын улмаас хэр их мэдээлэл алдагдаж байгааг тодорхойлох явдал юм.
Хэрэв загвар өмсөгч үүнийг тодорхойлж чадвал анхны дээжийг авч, мэдээллийн алдагдлыг арилгах боломжтой байх ёстой.
Үүнийг denoising diffusion загвараар дамжуулан гүйцэтгэдэг. Урагш тархах процесс ба урвуу тархах процесс нь хоёр үе шатыг бүрдүүлдэг.
Урагш тархах процесс нь өгөгдлийг дуу чимээгээр бүрэн бохирдуулах хүртэл Гауссын дуу чимээг (өөрөөр хэлбэл тархалтын процесс) аажмаар нэмнэ.
Дараа нь мэдрэлийн сүлжээг урвуу тархалтын аргыг ашиглан дуу чимээг эргүүлэх нөхцөлт тархалтын магадлалыг сурдаг.
Эндээс та түүний талаар илүү ихийг ойлгох боломжтой диффузийн загвар.
Диффузын загвар ба GAN-ууд
Диффузын загвар шиг GAN нь дуу чимээнээс зураг үүсгэдэг.
Загвар нь ангийн шошго эсвэл текст кодчилол гэх мэт зарим мэдээллийн төлөвшүүлэгч хувьсагчийн шуугианаас эхэлдэг генераторын мэдрэлийн сүлжээнээс бүрддэг.
Үр дүн нь бодит дүр төрхтэй төстэй зүйл байх ёстой.
Фото бодитой, өндөр нарийвчлалтай зураг үүсгэхийн тулд бид GAN-г ашигладаг. GAN-аас ч илүү бодитой дүрслэлийг диффузын загвар ашиглан үйлдвэрлэдэг.
Нэг ёсондоо тархалтын загварууд нь бодит байдлыг илүү нарийвчлалтай тайлбарладаг.
GAN нь санамсаргүй шуугиан эсвэл ангиллын тохируулагч хувьсагчийг оролт болгон авч, бодит түүврийг гаргадаг боловч тархалтын загварууд нь ихэвчлэн удаашралтай, давтагддаг бөгөөд илүү их удирдамж шаарддаг.
Дуу шуугианаас анхны зураг руугаа буцах зорилгоор шуугиан тайлах ажлыг олон удаа хийх үед алдаа гаргах зай тийм ч их байдаггүй.
Шалгах цэг бүрийг бүтээх үе шатанд дамждаг бөгөөд алхам бүрээр зураг илүү их мэдээлэл олж авах болно.
Дүгнэлт
Дүгнэж хэлэхэд, зөвхөн 2020, 2021 онд хэвлэгдсэн цөөн тооны чухал судалгаануудын улмаас тархалтын загварууд одоо зургийн синтезийн хувьд GAN-аас давж гарах боломжтой.
Энэ жил OpenAI нээлтээ хийлээ DALL-E2, дадлагажигчдад тархалтын загварыг ашиглах боломжийг олгодог зураг үйлдвэрлэлийн загвар.
Хэдийгээр GAN нь хамгийн сүүлийн үеийн боловч тэдгээрийн хязгаарлалт нь тэдгээрийг шинэ нөхцөл байдалд өргөжүүлэх, ашиглахад хэцүү болгодог.
Магадлалд суурилсан загваруудыг ашиглан GAN-тай төстэй дээжийн чанарт хүрэхийн тулд маш их ажил хийсэн.
хариу үлдээх