DALL.E 2 - Текстти колдонуу менен оюңузду визуалдык көрүнүшкө айлантыңыз

Мазмуну[Жашыруу][Көрсөтүү]

Ошентип, так DALL.E 2 деген эмне?
Бул кантип иштейт?
DALL.E 2 колдонуу учуру
чектөөлөр
жыйынтыктоо

Жаңы жана жакшыртылган AI жөндөмдүүлүктөрүн, түшүнүүнү жана жогорку чечилиштеги сүрөттөрдү чыгаруу мүмкүнчүлүгүн жакшыртты. Сиз акыркы убакта интернетте жүргөн кызыктай жана күлкүлүү сүрөттөрдү кезиктирсеңиз керек.

Шиба ину ити берет жана кара водолазка кийген. Жана голландиялык сүрөтчү Вермеердин «Бермет сөйкөлүү кыз» стилиндеги деңиз суусу. Ал эми жүндүү желмогузга окшош бир чыны шорпо бар.

бул сүрөттөр адам сүрөтчү тарабынан жаратылган эмес.

Анын ордуна, DALL-E 2, тексттик сүрөттөмөлөрдү сүрөттөргө айландыра алган жаңы AI системасы, аларды түздү.

Жөн гана көргүңүз келген нерсени жазыңыз, ошондо AI аны сиз үчүн жаратат – ачык-айкын деталда, мыкты сапатта жана кээ бир учурларда чыныгы ойлоп табуучулукта. Бул постто биз OpenAIдин акыркы изилдөөсү, DALL.E 2, анын кантип иштээрин жана башка көптөгөн нерселерди карап чыгабыз. Келиңиз баштайлы.

Ошентип, так эмне DALL.E 2?

DALL-E 2 - бул "генеративдик модель", киргизүү маалыматтарында болжолдоо же классификация тапшырмаларын аткаруунун ордуна татаал натыйжаларды чыгарган машина үйрөнүү алгоритминин бир түрү.

Сиз DALL-E 2ге жазуу жүзүндө сүрөттөмө бересиз жана ал ага дал келген сүрөттү түзөт. Концепцияларды, сапаттарды жана стилдерди айкалыштыруу менен, OpenAIдин DALLE 2 негизги лингвистикалык сүрөттөмөдөн инновациялык, реалдуу графиканы жана искусствону чыгара алат.

Акыркы версиясы, DALLE 2, бир кыйла көп кырдуу, жогорку токтомдордо жана чыгармачыл стилдердин кеңири спектринде коштомо жазуулардан сүрөттөрдү тартууга жөндөмдүү деп айтылат. Мисалы, төмөндөгү сүрөттөр (DALL-E 2 блогунан алынган) "Ат минген астронавт" сүрөттөмөсү менен түзүлгөн.

Бир сүрөттөмө «карандаштын эскизи сыяктуу» деп жыйынтыкталса, экинчиси «фотореалдуу түрдө» деп жыйынтыктайт.

Атка минген астронавт

Ал ошондой эле учурдагы сүрөттөрдү таң калыштуу тактык менен өзгөртө алат. Ошентип, сиз түстөрдү, чагылууларды жана көлөкөлөрдү сактоо менен элементтерди кошуп же жок кыла аласыз, мунун баары түпнуска сүрөттүн көрүнүшүн сактап калат.

Бул кантип иштейт?

DALL-E 2 эки татаал CLIP жана диффузиялык моделдерин колдонот терең билим алуу акыркы жылдары иштелип чыккан ыкмалар. Бирок, ал башка бардык тереңдиктер сыяктуу эле түшүнүккө негизделген нейрон тармактары: өкүлчүлүктү үйрөнүү. CLIP бир эле учурда экөөнү машыктырат нейрон тармактары сүрөттөр жана жазуулар боюнча.

Бир тармак сүрөттөгү визуалдык өкүлчүлүктөрдү үйрөнсө, экинчиси тексттик өкүлчүлүктөрдү үйрөнөт. Тренинг учурунда эки тармак өз параметрлерин өзгөртүүгө аракет кылышат, ошондуктан салыштырылуучу сүрөттөр жана сүрөттөлүштөр окшош жалгаштырууларга алып келет.

"Диффузия", генеративдик моделдин бир түрү, ал акырындык менен ызы-чуу кылып, окутуу үлгүлөрүн жокко чыгаруу менен сүрөт тартууну үйрөнөт, бул DALL-E 2де колдонулган башка машиналык үйрөнүү ыкмасы. Диффузия моделдери автокодерлерге окшош, анткени алар киргизилген маалыматтарды бир түргө айландырышат. кыстаруу өкүлчүлүгү жана андан кийин баштапкы маалыматтарды кайра түзүү үчүн кыстаруу маалыматын колдонуңуз.

DALL.E2 иштейт

OpenAI колдонуу тил модели Тексттик сүрөттөмөлөрдү фотосүрөттөр менен байланыштыра алган CLIP, алгач жазуу түрүндөгү сунушту сүрөттүн ошол сунушка дал келиши керек болгон маанилүү касиеттерин камтыган ортоңку формага которот (CLIP боюнча).

Экинчиден, DALL-E 2 CLIP ылайыктуу түзөт Диффузия моделин колдонуу менен сүрөт, бул нейрон тармагы.

Кокус пикселдер менен бурмаланган сүрөттөрдө диффузиялык моделдер үйрөнүлөт. Алар сүрөттөрдүн баштапкы формасын кантип калыбына келтирүүнү үйрөнүшөт. Диффузия моделдери, өзгөчө, ар түрдүүлүккө караганда тактыкты биринчи орунга койгон жетектөөчү ыкма менен бирге колдонулганда, жогорку сапаттагы синтетикалык сүрөттөрдү чыгара алат.

Натыйжада, диффузиялык модель кокус пикселдерди алат жана аларды сөзгө дал келген жаңы сүрөткө айландыруу үчүн CLIP колдонот. Диффузия концепциясы болгондуктан, DALL-E 2 DALL-Eге караганда тезирээк чечүүчү сүрөттөрдү чыгара алат.

DALL.E 2 колдонуу учуру

Акыркы жыйырма жылдын ичинде, компьютер көрүнүш технология жөнөкөй түшүнүктөн чоң ачылышка чейин өстү. Бул жетишкендиктерге карабастан, сүрөттөрдү жана объектилерди таануу моделдери дагы эле күнүмдүк жашоодо олуттуу тоскоолдуктарга туш болушат. Берилиштер топтомдорунун жоктугу сүрөттү таануунун жана компьютердик көрүүнүн эң олуттуу кемчиликтеринин бири болуп саналат. Эки четинде маалымат жетишсиз болгондуктан, 100 пайыз так натыйжаларды берүү үчүн сүрөт таануу моделдерин үйрөтүү дээрлик кыйынга турат.

Бактыга жараша, OpenAIдин жаңы машина үйрөнүү модели технологиядагы ажырымды жоюуга жардам берет. DALLE 2 тексттик сүрөттөмөлөрдүн негизинде укмуштуудай сүрөттөрдү жаратууга жөндөмдүү. Бул жасалма сүрөт өндүрүшү алардын талаптарынын негизинде сүрөттөрдү таануу моделдерине маалыматтарды бере алат. Маалыматтын жоктугу объектти жана сүрөттү идентификациялоо үчүн олуттуу тоскоолдук болуп саналат.

Санарип доорунда берилиштер топтому бардык жерде бар, бирок биз дагы эле AI моделин камсыз кылуу үчүн жарлыктарды издеп жатабыз, андыктан ал жакшы натыйжаларды бере алат. Бирок, сүрөттү таануу моделин үйрөтүү оңой эмес. Бул анча-мынча айырмачылыктары бар көп сандагы маалымат топтомдорун талап кылат, биз аларды жөн эле ала алган жокпуз.

Демек, жооп кандай: Жооп DALLE 2. OpenAI сүрөт генератору, анын дараметин тексттерден сүрөттөрдү чыгаруу жана барларды өзгөртүү, ажырымды жоюуга жардам берет. Бул кошумча окутуу маалыматтарын генерациялоого жардам берет, ошол эле учурда талап кылынган адамдын этикеткасынын көлөмүн азайтат. Маанилүү пайдасына карабастан, сиз жасалма сүрөт өндүрүштөрүн жана кошууну жокко чыгарган сүрөттөрдү билишиңиз керек. Бул бир жактуу натыйжаларды берген сүрөттөрдү аныктоо ыкмаларына алып келиши мүмкүн.

чектөөлөр

OpenAI ылайык, DALL.E 2 туура эмес колго түшүп калса, зыяндуу таасир этиши мүмкүн. Терең фейктердин бүгүнкү дүйнөсүндө, модель оңой эле жалган маалымат же расисттик сүрөттөрдү таратуу үчүн колдонулушу мүмкүн, ошондуктан OpenAI иштеп чыгуучуларга DALL.2ди чакыруу боюнча гана колдонууга уруксат берет. Модель ага түшкөн бардык сунуштар үчүн катуу мазмун чектөөсүнө ылайык келиши керек.

DALL.E 2 кандайдыр бир душмандык же зордук-зомбулук сүрөттөрүн жаратууга мүмкүнчүлүк бербөө үчүн, маалымат топтому эч кандай өлүмгө дуушар болгон куралсыз түзүлгөн. OpenAI келечекте аны APIге айландырууну пландап жатканын айтканы менен, DALL.E 2 учурда, ал этияттык менен улантууга даяр.

жыйынтыктоо

DALL-E 2 дагы бир кызыктуу OpenAI изилдөө ачылышы болуп саналат, ал жаңы колдонмолорго эшик ачат.

Бир мисал, компьютердик көрүүнүн негизги тоскоолдуктарынын бирине жооп берүү үчүн массалык маалымат топтомдорун түзүү болуп саналат. Көптөгөн DALL-E негизиндеги колдонмолордун экономикалык абалы OpenAI анын API колдонуучулары үчүн орноткон баасы жана саясаты менен аныкталса да, алардын баары сүрөттөрдү чыгарууну алга жылдырат.

DALL.E 2 – Текстти колдонуу менен оюңузду визуалдык көрүнүшкө айлантыңыз

Ошентип, так эмне DALL.E 2?

Бул кантип иштейт?

DALL.E 2 колдонуу учуру

чектөөлөр

жыйынтыктоо

жөнүндө Jay

HashDork боюнча көбүрөөк макалалар:

AIдагы галлюцинацияларды кантип азайтса болот

Колосян vs Хейген

Бул Future Tech Newsletter соруп эмес

DALL.E 2 – Текстти колдонуу менен оюңузду визуалдык көрүнүшкө айлантыңыз

Ошентип, так эмне DALL.E 2?

Бул кантип иштейт?

DALL.E 2 колдонуу учуру

чектөөлөр

жыйынтыктоо

жөнүндө Jay

HashDork боюнча көбүрөөк макалалар:

AIдагы галлюцинацияларды кантип азайтса болот

Социалдык медиа үчүн 10 мыкты AI куралдары

Колосян vs Хейген

10 мыкты AI Animated Video Maker куралдары

Reader Interactions

Таштап Жооп жокко жооп

Бул Future Tech Newsletter соруп эмес