Бид хиймэл оюун ухааны шинэ хувьсгалын дөнгөж дөнгөж эхэлж байгаа байх.
Генератив хиймэл оюун ухаан гэдэг нь контент үүсгэх чадвартай алгоритм, загваруудыг хэлдэг. Ийм загваруудын гаралт нь хүний жинхэнэ гаралт гэж андуурч болох текст, аудио, дүрсийг агуулдаг.
Зэрэг програмууд GPT чат үүсгэгч хиймэл оюун ухаан нь шинэлэг зүйл биш гэдгийг харуулсан. AI одоо нарийвчилсан зааврыг дагах чадвартай бөгөөд дэлхий хэрхэн ажилладаг талаар гүн гүнзгий ойлголттой болсон бололтой.
Гэхдээ бид яаж ийм байдалд хүрсэн бэ? Энэхүү гарын авлагад бид хиймэл оюун ухааны шинэ, сэтгэл хөдөлгөм хувьсгалын замыг зассан хиймэл оюун ухааны судалгааны зарим гол ололтуудыг авч үзэх болно.
Мэдрэлийн сүлжээний өсөлт
Та орчин үеийн хиймэл оюун ухааны гарал үүслийг судалгаанаас улбаатай гүнзгий суралцах ба мэдрэлийн сүлжээ 2012 байна.
Тэр жил Торонтогийн их сургуулийн Алекс Крижевский болон түүний баг объектуудыг ангилж чадах өндөр нарийвчлалтай алгоритмд хүрч чадсан юм.
The хамгийн сүүлийн үеийн мэдрэлийн сүлжээОдоо AlexNet гэгддэг програм нь ImageNet визуал мэдээллийн сан дахь объектуудыг хоёрдугаар байрнаас хамаагүй бага алдаатай ангилж чадсан.
Мэдрэлийн сүлжээ Сургалтын зарим өгөгдөл дээр үндэслэн тодорхой зан төлөвийг сурахад математик функцүүдийн сүлжээг ашигладаг алгоритмууд юм. Жишээлбэл, та хорт хавдар гэх мэт өвчнийг оношлох загварыг сургахын тулд мэдрэлийн сүлжээний эмнэлгийн өгөгдлийг тэжээж болно.
Мэдрэлийн сүлжээ нь өгөгдлийн хэв маягийг аажмаар олж, шинэ өгөгдөл өгөхөд илүү нарийвчлалтай болно гэж найдаж байна.
AlexNet нь a-ийн нээлтийн програм байсан гэдэсний мэдрэлийн эсийн сүлжээ эсвэл CNN. "Convolutional" түлхүүр үг нь хоорондоо илүү ойр байгаа өгөгдөлд илүү их анхаарал хандуулдаг эвдрэлийн давхаргыг нэмж хэлнэ.
CNN нь 1980-аад оны үед аль хэдийн санаа байсан бол 2010-аад оны эхээр хамгийн сүүлийн үеийн GPU технологи нь технологийг шинэ өндөрлөгт хүргэснээр л алдартай болж эхэлсэн.
салбарт CNN-ийн амжилт компьютерийн алсын хараа мэдрэлийн сүлжээний судалгааг илүү сонирхоход хүргэсэн.
Google, Facebook зэрэг технологийн аваргууд өөрсдийн хиймэл оюун ухааны хүрээг олон нийтэд гаргахаар шийджээ. зэрэг өндөр түвшний API-ууд Керас нь хэрэглэгчдэд гүн мэдрэлийн сүлжээг туршиж үзэхэд хялбар интерфэйсийг өгсөн.
CNN-үүд зураг таних, видео шинжилгээ хийхэд маш сайн байсан ч хэл дээр суурилсан асуудлыг шийдвэрлэхэд бэрхшээлтэй байсан. Байгалийн хэлний боловсруулалтад ийм хязгаарлалт байж болох юм, учир нь зураг, текст нь үндсэндээ өөр өөр асуудал байдаг.
Жишээлбэл, хэрэв танд гэрлэн дохио байгаа эсэхийг ангилах загвар байгаа бол тухайн гэрлэн дохио нь зургийн аль ч хэсэгт гарч ирж болно. Гэсэн хэдий ч энэ төрлийн зөөлөн байдал нь хэл дээр сайн ажилладаггүй. "Боб идсэн загас" ба "Загас Бобыг идсэн" гэсэн өгүүлбэр нь ижил үгсийг ашигласан хэдий ч тэс өөр утгатай.
Судлаачид хүний хэлтэй холбоотой асуудлыг шийдвэрлэх шинэ арга замыг олох шаардлагатай болсон нь тодорхой болсон.
Трансформаторууд бүх зүйлийг өөрчилдөг
2017 нь a судалгаа цаасан дээр "Анхаарал бол танд хэрэгтэй зүйл" нэртэй шинэ төрлийн сүлжээг санал болгосон: Трансформатор.
CNN нь зургийн жижиг хэсгүүдийг дахин дахин шүүж ажилладаг бол трансформаторууд өгөгдлийн элемент бүрийг бусад элемент бүртэй холбодог. Судлаачид энэ үйл явцыг "өөртөө анхаарал хандуулах" гэж нэрлэдэг.
Өгүүлбэрийг задлан шинжлэхийг оролдох үед CNN болон трансформаторууд тэс өөр ажилладаг. CNN нь хоорондоо ойр байгаа үгстэй холбоо тогтооход анхаарлаа төвлөрүүлдэг бол трансформатор нь өгүүлбэр дэх үг бүрийн хооронд холболт үүсгэх болно.
Өөртөө анхаарал хандуулах үйл явц нь хүний хэлийг ойлгох салшгүй хэсэг юм. Өгүүлбэрийг жижигрүүлж, бүхэл бүтэн өгүүлбэр хэрхэн нийцэж байгааг харснаар машинууд өгүүлбэрийн бүтцийг илүү тодорхой ойлгох боломжтой болно.
Трансформаторын анхны загварууд гарсны дараа удалгүй судлаачид интернетээс олдсон гайхалтай хэмжээний текст мэдээллийн давуу талыг ашиглахын тулд шинэ архитектурыг ашигласан.
GPT-3 ба интернет
2020 онд OpenAI GPT-3 загвар нь трансформаторууд хэр үр дүнтэй болохыг харуулсан. GPT-3 нь хүнээс бараг ялгагдахгүй мэт текстийг гаргаж чадсан. GPT-3-ийг маш хүчирхэг болгосон нэг хэсэг нь ашигласан сургалтын мэдээллийн хэмжээ байв. Загварын сургалтын өмнөх өгөгдлийн багцын ихэнх нь 400 тэрбум гаруй жетонтой Common Crawl гэгддэг мэдээллийн багцаас ирдэг.
GPT-3-ын бодит хүний текстийг бүтээх чадвар нь дангаараа шинэлэг байсан ч судлаачид ижил загвар нь бусад даалгавруудыг хэрхэн шийдэж болохыг олж мэдсэн.
Жишээлбэл, жиргээ үүсгэхэд ашиглаж болох ижил GPT-3 загвар нь текстийг нэгтгэн дүгнэх, догол мөрийг дахин бичих, түүхийг дуусгахад тусална. Хэлний загварууд Эдгээр нь маш хүчирхэг болсон тул ямар ч төрлийн тушаалыг дагаж мөрддөг ерөнхий зориулалтын хэрэгсэл болжээ.
GPT-3-ийн ерөнхий зориулалтын шинж чанар нь ийм төрлийн програмуудыг ашиглах боломжийг олгосон GitHub туслах нисгэгч, Энэ нь програмистуудад энгийн англи хэлнээс ажлын код үүсгэх боломжийг олгодог.
Тархалтын загварууд: Текстээс зураг хүртэл
Трансформатор болон NLP-ийн талаар гарсан ахиц дэвшил нь бусад салбарт хиймэл хиймэл оюун ухааныг бий болгох замыг зассан.
Компьютерийн харааны хүрээнд бид гүн гүнзгий суралцах нь машинуудад дүрсийг ойлгох боломжийг хэрхэн олгосон талаар аль хэдийн тайлбарласан. Гэсэн хэдий ч бид хиймэл оюун ухаанд дүрсийг ангилахаас илүүтэйгээр өөрсдөө дүрс үүсгэх арга замыг олох шаардлагатай хэвээр байв.
DALL-E 2, Stable Diffusion, Midjourney зэрэг зургийн загварууд нь текстийн оролтыг хэрхэн зураг болгон хувиргаж чаддагаараа алдартай болсон.
Эдгээр зургийн загварууд нь зураг ба текстийн хоорондын хамаарлыг ойлгодог загвар ба оролтод тохирсон өндөр нарийвчлалтай дүрсийг бүтээж чадах загвар гэсэн хоёр үндсэн тал дээр тулгуурладаг.
OpenAI-ууд КЛИП (Төрсөгч хэл-Зургийн өмнөх сургалт) нь эхний асуудлыг шийдвэрлэх зорилготой нээлттэй эхийн загвар юм. Зургийг өгөгдсөн бол CLIP загвар нь тухайн зургийн хамгийн хамааралтай текстийн тайлбарыг урьдчилан таамаглах боломжтой.
CLIP загвар нь зургийн чухал шинж чанаруудыг хэрхэн гаргаж авах, дүрсийг илүү энгийн дүрслэлийг бий болгоход суралцах замаар ажилладаг.
Хэрэглэгчид DALL-E 2-д жишээ текст оруулах үед оролтыг CLIP загварыг ашиглан "зураг оруулах" болгон хувиргадаг. Одоо зорилго нь үүсгэсэн зураг шигтгээтэй таарч тохирох зургийг гаргах арга замыг олох явдал юм.
Хамгийн сүүлийн үеийн генерацийн дүрсний хиймэл оюун ухаан нь a диффузийн загвар бодит дүр төрхийг бий болгох ажлыг шийдвэрлэх. Тархалтын загварууд нь зураг дээрх нэмэлт дуу чимээг хэрхэн арилгах талаар урьдчилан бэлтгэсэн мэдрэлийн сүлжээнд тулгуурладаг.
Энэхүү сургалтын явцад мэдрэлийн сүлжээ нь санамсаргүй шуугианаас өндөр нарийвчлалтай дүрсийг хэрхэн бүтээх талаар суралцах боломжтой. Бидэнд CLIP-ээс өгсөн текст болон зургийн зураглал аль хэдийн байгаа тул боломжтой диффузийн загварыг сургах CLIP дүрсний суулгац дээр дурын дүрс үүсгэх процессыг бий болгох.
Генератив AI хувьсгал: Дараа нь юу болох вэ?
Одоо бид хиймэл хиймэл оюун ухаанд ололт амжилтууд хоёр өдөр тутам гарч байгаа цэг дээр байна. Хиймэл оюун ухаан ашиглан янз бүрийн төрлийн хэвлэл мэдээллийн хэрэгслийг бий болгох нь илүү хялбар, хялбар болж байгаа тул энэ нь манай нийгэмд хэрхэн нөлөөлж болох талаар санаа зовох ёстой юу?
Уурын машин бүтээгдсэнээс хойш ажилчдыг орлох машинуудын санаа зовоосон асуудал байнга яригддаг байсан бол энэ удаад арай өөр болсон бололтой.
Generative AI нь хиймэл оюун ухааныг эзэмшихээс аюулгүй гэж үзсэн салбаруудыг тасалдуулж болзошгүй олон зориулалттай хэрэгсэл болж байна.
Хэрэв хиймэл оюун ухаан хэдхэн үндсэн зааварчилгаанаас өөгүй код бичиж эхлэх юм бол бидэнд програмист хэрэгтэй юу? Хүмүүс хүссэн бүтээгдэхүүнээ хямд үнээр үйлдвэрлэхийн тулд генератив загварыг ашиглаж чадвал бүтээлч хүмүүсийг ажилд авах уу?
Хиймэл оюун ухааны үүслийн хувьсгалын ирээдүйг урьдчилан таамаглахад хэцүү байдаг. Харин одоо Пандорагийн дүрст хайрцгийг нээсэн тул технологи нь дэлхийд эерэг нөлөөлөл үлдээж чадах илүү сонирхолтой инноваци хийх боломжийг олгоно гэж найдаж байна.
хариу үлдээх