Шинэ, сайжруулсан хиймэл оюун ухаан нь илүү өндөр нарийвчлалтай зураг бүтээх чадвар, ойлголт, чадавхийг сайжруулсан. Та сүүлийн үед интернэтээр хөвж буй хачирхалтай, хөгжилтэй зургуудтай таарсан байх.
Шиба Ину нохой нь берет, хар яст мэлхий өмссөн байна. Бас Голландын зураач Вермеерийн "Сувдан ээмэгтэй охин"-ын маягаар далайн халиу. Бас ноосон мангас шиг аяга шөл байна.
эдгээр зургууд хүн зураач бүтээгээгүй.
Үүний оронд текстэн тайлбарыг зураг болгон хувиргах боломжтой хиймэл оюун ухааны шинэ систем DALL-E 2-г бүтээжээ.
Үзэхийг хүсч буй зүйлээ зүгээр л бичвэл хиймэл оюун ухаан танд зориулж үүнийг тод, сайн чанартай, зарим тохиолдолд жинхэнэ бүтээлч байдлаар бүтээх болно. Энэ нийтлэлд бид OpenAI-ийн хамгийн сүүлийн үеийн судалгаа болох DALL.E 2, хэрхэн ажилладаг талаар болон бусад олон зүйлийг нарийвчлан авч үзэх болно. Эхэлцгээе.
Тэгэхээр, яг юу вэ DALL.E 2?
DALL-E 2 нь оролтын өгөгдөл дээр таамаглах, ангилах даалгавруудыг гүйцэтгэхийн оронд төвөгтэй гаралтыг үүсгэдэг машин сургалтын алгоритмын нэг төрөл болох "үүсгэх загвар" юм.
Та DALL-E 2-д бичгээр тайлбар өгөх бөгөөд энэ нь түүнд тохирсон зургийг үүсгэдэг. Үзэл баримтлал, чанар, хэв маягийг хослуулснаар OpenAI-ийн DALLE 2 нь үндсэн хэл шинжлэлийн тайлбараас шинэлэг, бодит график, урлагийг бүтээж чадна.
Хамгийн сүүлийн хувилбар болох DALLE 2 нь илүү уян хатан, тайлбараас илүү өндөр нарийвчлалтай, илүү өргөн хүрээний бүтээлч хэв маягаар зураг хийх чадвартай гэж мэдэгджээ. Жишээлбэл, доорх зургуудыг (DALL-E 2 блог нийтлэлээс) "Морь унаж буй сансрын нисгэгч" гэсэн тайлбараар бүтээв.
Нэг тайлбар нь "харандаа зурсан зураг шиг" гэж дүгнэсэн бол нөгөө нь "фото бодит байдлаар" гэж дүгнэдэг.
Энэ нь одоо байгаа гэрэл зургуудыг гайхалтай нарийвчлалтайгаар өөрчлөх боломжтой. Тиймээс та өнгө, тусгал, сүүдрийг хадгалахын зэрэгцээ анхны зургийн харагдах байдлыг хадгалахын зэрэгцээ элементүүдийг нэмж эсвэл устгаж болно.
Энэ яаж ажилдаг вэ?
DALL-E 2 нь хоёр боловсронгуй CLIP болон диффузийн загваруудыг ашигладаг гүн гүнзгий суралцах Сүүлийн жилүүдэд бий болсон хандлага. Гэсэн хэдий ч энэ нь бусад бүх гүн гүнзгий ойлголттой ижил ойлголт дээр суурилдаг мэдрэлийн сүлжээ: төлөөлөл сурах. CLIP нэгэн зэрэг хоёрыг сургадаг мэдрэлийн сүлжээ зураг болон тайлбар дээр.
Нэг сүлжээ нь зурган дээрх дүрслэлийг сурдаг бол нөгөө нь текстийн дүрслэлийг сурдаг. Сургалтын явцад хоёр сүлжээ нь параметрүүдээ өөрчлөхийг оролддог бөгөөд ингэснээр харьцуулж болох зураг, тайлбар нь ижил төстэй оруулгад хүргэдэг.
Сургалтын дээжийнхээ дууг аажмаар шуугиан дэгдээх замаар зураг бүтээж сурдаг "Диффуз" нь DALL-E 2-д ашигладаг машин сургалтын өөр нэг арга юм. Тархалтын загварууд нь оролтын өгөгдлийг хувиргадаг автомат кодлогчтой төстэй. дүрслэлийг суулгаж, дараа нь эх өгөгдлийг дахин үүсгэхийн тулд оруулах мэдээллийг ашиглана уу.
OpenAI-г ашиглах хэлний загвар Текстийн тайлбарыг гэрэл зурагтай холбож чаддаг CLIP нь эхлээд бичмэл командыг тухайн зурагт тохирох чухал шинж чанаруудыг агуулсан завсрын хэлбэрт хөрвүүлдэг (CLIP-ийн дагуу).
Хоёрдугаарт, DALL-E 2 нь CLIP-тэй нийцдэг тархалтын загвар ашиглан зураг, энэ нь мэдрэлийн сүлжээ юм.
Санамсаргүй пиксел бүхий гажуудсан зургууд дээр диффузын загварыг сурдаг. Тэд зургийн анхны хэлбэрийг хэрхэн сэргээх талаар суралцдаг. Диффузын загварууд нь олон талт байдлаас илүү нарийвчлалыг чухалчилдаг чиглүүлэх аргатай хослуулан хэрэглэх үед өндөр чанартай синтетик дүрсийг гаргаж чаддаг.
Үүний үр дүнд, диффузийн загвар санамсаргүй пикселүүдийг авч, CLIP-г ашиглан тэдгээрийг үгийн prompt-д тохирсон шинэ зураг болгон хувиргадаг. Диффузын концепцийн улмаас DALL-E 2 нь DALL-E-ээс илүү өндөр нарийвчлалтай зургийг хурдан гаргаж чаддаг.
DALL.E 2 ашиглах тохиолдол
Сүүлийн хорин жилд компьютерийн алсын хараа технологи нь энгийн ойлголтоос томоохон нээлт болж дэвшсэн. Эдгээр дэвшлийг үл харгалзан зураг болон объектыг таних загварууд өдөр тутмын амьдралд томоохон саад бэрхшээлтэй тулгарсаар байна. Мэдээллийн багц байхгүй байгаа нь зураг таних болон компьютерийн харааны хамгийн чухал сул талуудын нэг юм. Хоёр талдаа мэдээллийн хомсдолтой байгаа тул 100 хувь үнэн зөв үр дүнг өгөхийн тулд зураг таних загваруудыг сургах нь бараг хэцүү байдаг.
Аз болоход OpenAI-ийн шинэ машин сургалтын загвар нь технологийн цоорхойг нөхөж чадна. DALLE 2 нь текстийн тайлбар дээр үндэслэн гайхалтай зургуудыг бүтээх чадвартай. Энэхүү хуурамч зураг үйлдвэрлэл нь тэдний шаардлагад үндэслэн зураг таних загварт өгөгдөл өгөх боломжтой. Өгөгдөл байхгүй байгаа нь объект, зургийг тодорхойлоход ихээхэн саад болдог.
Дижитал эрин үед өгөгдлийн багцууд хаа сайгүй байдаг ч бид хиймэл оюун ухааны загварыг тэжээх товчлолуудыг хайж байгаа тул энэ нь сайн үр дүнд хүрч чадна. Гэсэн хэдий ч зураг таних загварыг сургах нь тийм ч хялбар биш юм. Энэ нь бага зэргийн ялгаа бүхий олон тооны өгөгдлийн багцыг шаарддаг бөгөөд үүнийг бид зүгээр л олж авч чадаагүй байж магадгүй юм.
Хариулт нь юу вэ: Хариулт нь DALLE 2. OpenAI зураг үүсгэгч нь бичвэрээс зураг гаргаж, одоо байгаа зургийг өөрчлөх хүчин чадалтай тул зөрүүг арилгахад тусална. Энэ нь сургалтын нэмэлт мэдээллийг бий болгоход туслахын зэрэгцээ хүний шошгололтын хэмжээг багасгахад тусална. Их хэмжээний ашиг тустай хэдий ч та залилан мэхэлсэн зураг үйлдвэрлэл, оруулахыг үгүйсгэсэн зургуудыг мэдэж байх ёстой. Энэ нь өрөөсгөл үр дүн гаргах дүрс илрүүлэх аргуудад хүргэж болзошгүй.
хязгаарлалт
OpenAI-ийн үзэж байгаагаар DALL.E 2 буруу гарт орвол хортой нөлөө үзүүлж магадгүй юм. Хуурамч хуурмаг орчин үеийн ертөнцөд уг загварыг худал мэдээлэл эсвэл арьс өнгөөр ялгаварлан гадуурхах үзлийг түгээхэд хялбархан ашиглаж болох тул OpenAI нь зөвхөн урилгаар DALL.2-г ашиглахыг хөгжүүлэгчдэд зөвшөөрдөг. Загвар өмсөгч нь хүлээн авсан бүх саналд агуулгын хатуу хязгаарлалтыг дагаж мөрдөх ёстой.
DALL.E 2 нь ямар нэгэн дайсагнасан эсвэл хүчирхийллийн зураг үүсгэх боломжийг үгүйсгэхийн тулд өгөгдлийн багцыг ямар нэгэн үхлийн зэвсэггүйгээр бүтээсэн. OpenAI үүнийг ирээдүйд API болгон хувиргах төлөвлөгөөтэй байгаагаа мэдэгдсэн ч DALL.E 2-ын хувьд болгоомжтой ажиллахад бэлэн байна.
Дүгнэлт
DALL-E 2 нь OpenAI-ийн өөр нэг сонирхолтой нээлт бөгөөд шинэ хэрэглээний үүд хаалгыг нээж байна.
Үүний нэг жишээ бол компьютерийн харааны гол бэрхшээлүүдийн нэг болох өгөгдөлд хүрэхийн тулд асар их мэдээллийн багц үүсгэх явдал юм. DALL-E-д суурилсан олон програмын эдийн засгийн нөхцөл байдал нь OpenAI-ийн API хэрэглэгчдэд зориулан тогтоосон үнэ, бодлогоор тодорхойлогддог ч тэдгээр нь бүгд зургийн үйлдвэрлэлийг ахиулах нь дамжиггүй.
хариу үлдээх