Биз жаңы генеративдик AI революциясынын башталышындабыз.
Генеративдик жасалма интеллект мазмунду түзүүгө жөндөмдүү алгоритмдерди жана моделдерди билдирет. Мындай моделдердин чыгарылышы текстти, аудиону жана сүрөттөрдү камтыйт, алар көп учурда адамдын чыныгы өндүрүшү катары жаңылышы мүмкүн.
сыяктуу колдонмолор GPT чат генеративдик AI жөн гана жаңылык эмес экенин көрсөтүштү. AI азыр деталдуу нускамаларды аткарууга жөндөмдүү жана дүйнөнүн кантип иштээрин терең түшүнөт.
Бирок биз бул деңгээлге кантип жеттик? Бул колдонмодо биз AI изилдөөлөрүндөгү бул жаңы жана кызыктуу генеративдик AI революциясына жол ачкан айрым негизги жетишкендиктерди карап чыгабыз.
Нейрондук тармактардын өсүшү
Сиз заманбап AIнын келип чыгышын изилдөөгө карай аласыз терең үйрөнүү жана нейрон тармактары 2012-жылы.
Ошол жылы Торонто университетинен Алекс Крижевский жана анын командасы объектилерди классификациялай алган өтө так алгоритмге жетише алышкан.
The заманбап нейрон тармагы, азыр AlexNet катары белгилүү, ImageNet визуалдык маалымат базасындагы объекттерди экинчи орунга чыкканга караганда бир топ төмөн ката ылдамдыгы менен классификациялай алды.
Нейрон тармактары кээ бир окутуу маалыматтарынын негизинде белгилүү бир жүрүм-турумду үйрөнүү үчүн математикалык функциялардын тармагын колдонгон алгоритмдер. Мисалы, сиз рак сыяктуу ооруну диагноздоо үчүн моделди үйрөтүү үчүн нейрон тармагын медициналык маалыматтарды бере аласыз.
Нейрондук тармак акырындык менен берилиштердеги үлгүлөрдү табат жана жаңы маалыматтар берилгенде такыраак болот деген үмүт бар.
AlexNet бир ачылыш колдонмо болгон convolutional нейрон тармак же CNN. "Convolutional" ачкыч сөзү бири-бирине жакыныраак маалыматтарга көбүрөөк басым жасаган конволюциялык катмарлардын кошулушун билдирет.
CNN 1980-жылдары идея болгон менен, алар 2010-жылдардын башында акыркы GPU технологиясы технологияны жаңы бийиктиктерге түрткөндө гана популярдуу боло баштаган.
тармагындагы CNN ийгилиги компьютер көрүнүш нейрондук тармактарды изилдөөгө көбүрөөк кызыгууну жаратты.
Google жана Facebook сыяктуу технологиялык гиганттар өздөрүнүн AI алкактарын коомчулукка чыгарууну чечишти. сыяктуу жогорку деңгээлдеги API'лер кызыл колдонуучуларга терең нейрон тармактары менен эксперимент жүргүзүү үчүн ыңгайлуу интерфейсти берди.
CNN сүрөттөрдү таанууда жана видеону талдоодо мыкты болгон, бирок тилге негизделген көйгөйлөрдү чечүүдө кыйынчылыктарга туш болушкан. Табигый тилди иштетүүдө бул чектөө болушу мүмкүн, анткени сүрөттөр менен тексттин кандайча чындыгында түп-тамырынан башка көйгөйлөрү бар.
Мисалы, сизде сүрөттө светофор бар-жоктугун классификациялоочу моделиңиз болсо, анда каралып жаткан светофор сүрөттүн каалаган жеринде пайда болушу мүмкүн. Бирок, мындай жумшактык тилде жакшы иштебейт. "Боб жеди балык" жана "Балык Бобду жеди" сүйлөмдөрү бир эле сөздөрдү колдонгонуна карабастан, такыр башка мааниге ээ.
Изилдөөчүлөр адам тили менен байланышкан маселелерди чечүү үчүн жаңы ыкманы табышы керек экени айкын болду.
Трансформаторлор баарын өзгөртөт
2017 жылы изилдөө кагаз «Көңүл буруш керек» деп аталган тармактын жаңы түрүн сунуштады: Трансформатор.
CNN сүрөттөрдүн кичинекей бөлүктөрүн кайра-кайра чыпкалоо менен иштешсе, трансформаторлор маалыматтардагы ар бир элементти башка элементтер менен байланыштырат. Окумуштуулар бул процессти "өзүн-өзү көңүл буруу" деп аташат.
Сүйлөмдөрдү талдоо аракетинде CNN жана трансформаторлор такыр башкача иштешет. CNN бири-бирине жакын сөздөр менен байланыш түзүүгө басым жасайт, ал эми трансформатор сүйлөмдөгү ар бир сөздүн ортосунда байланыштарды түзөт.
Өзүнө көңүл буруу процесси адамдын тилин түшүнүүнүн ажырагыс бөлүгү болуп саналат. Кичирейтүү жана бүт сүйлөмдүн кантип бири-бирине дал келээрин карап чыгуу менен, машиналар сүйлөмдүн түзүлүшүн так түшүнө алышат.
Трансформатордун биринчи моделдери чыгарылгандан кийин, изилдөөчүлөр көп өтпөй интернетте табылган укмуштуудай тексттик маалыматтардан пайдалануу үчүн жаңы архитектураны колдонушту.
GPT-3 жана Интернет
2020-жылы OpenAI GPT-3 модель трансформаторлор канчалык эффективдүү боло аларын көрсөттү. GPT-3 адамдан дээрлик айырмаланбагандай көрүнгөн текстти чыгара алды. GPT-3ти ушунчалык күчтүү кылган нерселердин бир бөлүгү колдонулган машыгуу маалыматтарынын көлөмү болгон. Модельдин машыгууга чейинки маалымат топтомунун көпчүлүгү 400 миллиарддан ашык токендер менен келген Common Crawl деп аталган маалымат топтомунан келип чыгат.
GPT-3 реалисттик адам текстин жаратуу жөндөмү өз алдынча түптөлгөн болсо да, изилдөөчүлөр ошол эле модель башка милдеттерди кантип чече аларын табышкан.
Мисалы, сиз Tweet түзүү үчүн колдоно турган ошол эле GPT-3 модели текстти жалпылоого, абзацты кайра жазууга жана окуяны аягына чыгарууга жардам берет. Тил моделдери ушунчалык күчтүү болуп калгандыктан, алар азыр кандайдыр бир буйруктун түрүн аткарган жалпы максаттагы куралдар болуп калды.
GPT-3тин жалпы максаттуу табияты мындай колдонмолорго мүмкүндүк берди GitHub Копилоту, бул программисттерге жөнөкөй англис тилинен жумушчу кодду түзүүгө мүмкүндүк берет.
Диффузия моделдери: Тексттен сүрөттөргө
Трансформаторлор жана NLP менен жетишилген прогресс башка тармактарда генеративдик AI үчүн жол ачты.
Компьютердик көрүү чөйрөсүндө биз терең үйрөнүү машиналарга сүрөттөрдү түшүнүүгө кандайча мүмкүндүк бергенин карап чыктык. Бирок, биз дагы эле AI үчүн аларды жөн гана классификациялоонун ордуна сүрөттөрдү өздөрү жаратуунун жолун табышыбыз керек болчу.
DALL-E 2, Stable Diffusion жана Midjourney сыяктуу генеративдик сүрөт моделдери текст киргизүүнү сүрөттөргө кантип айландыра алгандыктан популярдуу болуп калды.
Бул сүрөт моделдери эки негизги аспектиге таянат: сүрөттөр менен тексттин ортосундагы мамилени түшүнгөн модель жана киргизүүгө дал келген жогорку дааналыктагы сүрөттү түзө алган модель.
OpenAI's КЛИП (Контрасттык тил-Сүрөт алдын ала окутуу) биринчи аспектти чечүүгө багытталган ачык булак модели. Сүрөттү эске алуу менен, CLIP модели ошол сүрөт үчүн эң ылайыктуу тексттин сыпаттамасын алдын ала айта алат.
CLIP модели сүрөттүн маанилүү өзгөчөлүктөрүн кантип чыгарууну жана сүрөттөлүштүн жөнөкөйраак сүрөттөлүшүн түзүүнү үйрөнүү менен иштейт.
Колдонуучулар DALL-E 2ге үлгү текст киргизүүнү бергенде, киргизүү CLIP моделин колдонуу менен "сүрөт киргизүүгө" айландырылат. Эми максат - жаратылган сүрөттүн кыстарылышына дал келген сүрөттү түзүүнүн жолун табуу.
Акыркы генеративдик сүрөттөлүш AI колдонушат диффузиялык модель иш жүзүндө бир образды түзүү милдетин чечүү үчүн. Диффузия моделдери сүрөттөрдөн кошумча ызы-чууну кантип жок кылууну билүү үчүн алдын ала үйрөтүлгөн нейрон тармактарына таянат.
Окутуунун бул процессинде нейрондук тармак акыры кокустук ызы-чуу сүрөттөлүшүнөн жогорку чечилиштеги сүрөттү кантип түзүүнү үйрөнө алат. Бизде CLIP тарабынан берилген тексттин жана сүрөттөрдүн картасы бар болгондуктан, биз жасай алабыз диффузиялык моделди үйрөтүү каалаган сүрөттү жаратуу процессин түзүү үчүн CLIP сүрөт орнотуулары боюнча.
Генеративдик AI революциясы: Андан кийин эмне болот?
Биз азыр генеративдик AI тармагындагы жетишкендиктер эки күндө бир болуп жаткан учурда турабыз. AI аркылуу ар кандай медиа түрлөрүн түзүү оңой жана оңой болуп калгандыктан, бул биздин коомго кандай таасир этиши мүмкүн деп тынчсызданышыбыз керекпи?
Жумушчуларды алмаштырган машиналардын түйшүгү буу машинасы ойлоп табылгандан бери ар дайым сөз болуп келгени менен, бул жолу бир аз башкача болуп калды окшойт.
Генеративдик AI көп максаттуу куралга айланууда, ал AI басып алуудан коопсуз деп табылган тармактарды үзгүлтүккө учуратышы мүмкүн.
AI бир нече негизги көрсөтмөлөрдөн кемчиликсиз код жаза баштаса, бизге программисттер керекпи? Эгерде алар каалаган продукцияны арзаныраак өндүрүү үчүн генеративдик моделди колдонсо, адамдар чыгармачыл адамдарды жалдайбы?
Генеративдик AI революциясынын келечегин алдын ала айтуу кыйын. Бирок азыр каймана Pandora кутучасы ачылгандан кийин, технология дүйнөгө жакшы таасир калтыра турган кызыктуу инновацияларга жол ачат деп үмүттөнөм.
Таштап Жооп