Том хэлний загварууд: Таны мэдэх ёстой бүх зүйл

Гарчиг[Нуух][Үзүүлэх]

Том хэлний загвар гэж юу вэ?
LLM-г хэрхэн бэлтгэдэг вэ?+-
- Трансформаторын архитектуртай урьдчилсан сургалт
- Нарийвчлал
Том хэлний загваруудын хязгаарлалт+-
Дүгнэлт

Хиймэл оюун ухааны сонгодог асуудал бол хүний хэлийг ойлгох машиныг эрэлхийлэх явдал юм.

Жишээлбэл, таны дуртай хайлтын системээс "ойролцоох итали ресторанууд" гэж хайж байхдаа алгоритм нь таны асуулгын үг бүрийг шинжилж, холбогдох үр дүнг гаргах ёстой. Зохистой орчуулгын програм нь англи хэл дээрх тодорхой үгийн контекстийг ойлгож, хэлний дүрмийн ялгааг ямар нэгэн байдлаар тайлбарлах ёстой.

Эдгээр бүх ажил болон бусад олон зүйл нь компьютерийн шинжлэх ухааны дэд салбарт багтдаг Байгалийн хэлний боловсруулалт эсвэл NLP. NLP-ийн дэвшил нь Amazon-ийн Alexa гэх мэт виртуал туслахуудаас эхлээд хортой имэйлийг илрүүлдэг спам шүүлтүүр хүртэл өргөн хүрээний практик хэрэглээнд хүргэсэн.

NLP-ийн хамгийн сүүлийн үеийн нээлт бол a том хэлний загвар эсвэл LLM. GPT-3 гэх мэт LLM нь маш хүчирхэг болсон тул бараг бүх NLP даалгавар эсвэл хэрэглээний тохиолдлуудад амжилтанд хүрч байгаа юм шиг санагддаг.

Энэ нийтлэлд бид LLM гэж юу болох, эдгээр загваруудыг хэрхэн сургадаг, одоо байгаа хязгаарлалтуудыг авч үзэх болно.

Том хэлний загвар гэж юу вэ?

Хэлний загвар нь үндсэндээ үгийн дараалал нь зөв өгүүлбэр байх магадлалыг мэддэг алгоритм юм.

Хэдэн зуун номон дээр бэлтгэгдсэн маш энгийн хэлний загвар нь "Гэртээ харьсан" гэхээсээ илүү "Тэр гэртээ харьсан" гэдгийг хэлэх чадвартай байх ёстой.

Хэрэв бид харьцангуй жижиг өгөгдлийн багцыг интернетээс хасагдсан асар том мэдээллийн багцаар солих юм бол бид ийм санаа руу ойртож эхэлнэ. том хэлний загвар.

ашиглах мэдрэлийн сүлжээ, судлаачид LLM-ийг их хэмжээний текст өгөгдөл дээр сургах боломжтой. Загвар үзсэн текстийн өгөгдлийн хэмжээнээс шалтгаалан LLM нь дараалсан үгийг урьдчилан таамаглахад маш сайн болдог.

Загвар нь маш боловсронгуй болж, NLP-ийн олон ажлыг гүйцэтгэх боломжтой. Эдгээр даалгаварт текстийг нэгтгэн дүгнэх, шинэлэг контент бүтээх, тэр ч байтугай хүнтэй төстэй яриаг дуурайлган дуурайлган хийх зэрэг орно.

том хэлний загварууд нь сануулгууд дээр тулгуурлан шинэ контент үүсгэх боломжтой

Жишээлбэл, маш алдартай GPT-3 хэлний загвар нь 175 тэрбум гаруй параметрээр бэлтгэгдсэн бөгөөд өнөөг хүртэл хамгийн дэвшилтэт хэлний загвар гэж тооцогддог.

Энэ нь ажлын код үүсгэх, бүхэл бүтэн нийтлэл бичих, ямар ч сэдвээр асуултанд хариулах чадвартай.

LLM-г хэрхэн бэлтгэдэг вэ?

LLM нь сургалтын өгөгдлийнхөө хэмжээнээс ихээхэн хэмжээний эрх мэдэлтэй байдаг гэдгийг бид товч дурдлаа. Эцсийн эцэст бид тэднийг "том" хэлний загвар гэж нэрлэх шалтгаан бий.

Трансформаторын архитектуртай урьдчилсан сургалт

Сургалтын өмнөх үе шатанд LLM нь хэлний ерөнхий бүтэц, дүрмийг сурахын тулд одоо байгаа текст өгөгдөлтэй танилцдаг.

Сүүлийн хэдэн жилд LLM-үүдийг олон нийтийн интернетийн нэлээд хэсгийг хамарсан мэдээллийн багц дээр урьдчилан бэлтгэсэн. Жишээ нь, GPT-3-ийн хэлний загварыг өгөгдлийн дагуу сургасан Нийтлэг мөлхөгч өгөгдлийн багц, 50 сая гаруй домэйноос хасагдсан вэб нийтлэл, вэб хуудас, дижитал номноос бүрддэг.

Дараа нь их хэмжээний өгөгдлийн багцыг a гэж нэрлэгддэг загварт оруулна трансформаторын. Трансформаторууд нь нэг төрөл юм гүн мэдрэлийн сүлжээ Энэ нь дараалсан өгөгдөлд хамгийн сайн ажилладаг.

Том хэлний загварууд нь трансформаторыг ашигладаг

Трансформаторууд нь кодлогч-декодерийн архитектур оролт гаралтыг зохицуулах зориулалттай. Үндсэндээ трансформатор нь кодлогч ба декодер гэсэн хоёр мэдрэлийн сүлжээг агуулдаг. Кодлогч нь оруулсан текстийн утгыг гаргаж аваад вектор хэлбэрээр хадгалах боломжтой. Дараа нь декодер нь векторыг хүлээн авч, текстийн тайлбарыг гаргадаг.

Гэсэн хэдий ч трансформаторын архитектурыг маш сайн ажиллуулах боломжийг олгосон гол ойлголт бол a өөртөө анхаарал хандуулах механизм. Өөртөө анхаарал хандуулах тухай ойлголт нь загвар өмсөгчдөд өгөгдсөн өгүүлбэр дэх хамгийн чухал үгсэд анхаарлаа хандуулах боломжийг олгосон. Уг механизм нь бие биенээсээ хол байгаа үгсийн жинг хүртэл дараалан авч үздэг.

Өөртөө анхаарал хандуулахын бас нэг давуу тал нь үйл явцыг зэрэгцүүлж болно. Трансформаторын загварууд дараалсан өгөгдлийг дарааллаар нь боловсруулахын оронд бүх оролтыг нэг дор боловсруулах боломжтой. Энэ нь трансформаторыг бусад аргуудтай харьцуулахад асар их хэмжээний өгөгдөл дээр харьцангуй хурдан сургах боломжийг олгодог.

Нарийвчлал

Сургалтын өмнөх үе шат дууссаны дараа та үндсэн LLM-д шинэ текст оруулахаар сонгож болно. Бид үүнийг процесс гэж нэрлэдэг нарийн тааруулах мөн тодорхой даалгавар дээр LLM-ийн үр дүнг сайжруулахад ихэвчлэн ашиглагддаг.

Жишээлбэл, та өөрийн Twitter дансанд контент үүсгэхийн тулд LLM ашиглахыг хүсч болно. Хүссэн үр дүнгийн талаар ойлголт өгөхийн тулд бид таны өмнөх жиргээнүүдийн хэд хэдэн жишээг загварт өгч болно.

Нарийн тохируулгын хэд хэдэн төрөл байдаг.

Хэлний том загварууд нь хэд хэдэн удаа сурах чадвартай

Хэдхэн удаа сурах Хэлний загвар нь ижил төстэй гаралтыг хэрхэн гаргахыг олох болно гэсэн хүлээлттэй загварт цөөн тооны жишээ өгөх үйл явцыг хэлнэ. Нэг удаагийн сургалт нь ижил төстэй үйл явц бөгөөд зөвхөн ганц жишээг өгөөгүй.

Том хэлний загваруудын хязгаарлалт

GPT-3 зэрэг LLM нь нарийн тохируулгагүйгээр ч олон тооны хэрэглээний тохиолдлуудыг гүйцэтгэх чадвартай. Гэсэн хэдий ч эдгээр загварууд нь өөрийн гэсэн хязгаарлалттай хэвээр байна.

Дэлхий ертөнцийн талаархи семантик ойлголт дутмаг

Гаднаас нь харахад LLM нь оюун ухааныг харуулдаг. Гэсэн хэдий ч эдгээр загварууд нь ижил аргаар ажилладаггүй хүний тархи хийдэг. LLM-ууд зөвхөн статистик тооцоололд тулгуурлан гаралтыг бий болгодог. Тэд өөрсдийн санаа, үзэл баримтлалыг бие даан гаргах чадваргүй байдаг.

Ийм учраас LLM нь үгсийг тухайн дарааллаар нь байрлуулахад "зөв" эсвэл "статистикийн хувьд магадлалтай" мэт санагддаг учраас л утгагүй хариултуудыг гаргаж чаддаг.

Хөөсөнцөр

GPT-3 гэх мэт загварууд бас буруу хариултаас болж зовж шаналж байна. LLMs гэж нэрлэгддэг үзэгдлээс болж зовж шаналж болно хий үзэгдэл загварууд бодит байдалд ямар ч үндэслэлгүй гэдгийг ухамсарлахгүйгээр бодитой буруу хариултыг гаргадаг.

Жишээлбэл, хэрэглэгч загвар өмсөгчөөс Стив Жобсын хамгийн сүүлийн үеийн iPhone-ийн талаарх бодлыг тайлбарлахыг хүсч болно. Загвар нь сургалтын өгөгдөл дээр үндэслэн нимгэн агаараас үнийн санал гаргаж болно.

Хязгаарлагдмал ойлголт ба мэдлэг

Бусад олон алгоритмуудын нэгэн адил том хэлний загварууд нь сургалтын өгөгдөлд байгаа хэвийх утгыг өвлөн авах хандлагатай байдаг. Бид мэдээлэл авахын тулд LLM-д илүү их найдаж байгаа тул эдгээр загварыг хөгжүүлэгчид өрөөсгөл хариултын хор хөнөөлийг бууруулах арга замыг олох ёстой.

Үүнтэй төстэй хүчин чадлаар загварын сургалтын өгөгдлийн сохор цэгүүд нь загварт өөрөө саад болно. Одоогоор том хэлний загваруудыг сургахад хэдэн сар зарцуулдаг. Эдгээр загварууд нь хамрах хүрээний хувьд хязгаарлагдмал мэдээллийн багцад тулгуурладаг. Ийм учраас ChatGPT нь зөвхөн 2021 онд болсон үйл явдлын талаар хязгаарлагдмал мэдлэгтэй байдаг.

Дүгнэлт

Хэлний том загварууд нь технологи болон бидний ертөнцтэй хэрхэн харьцаж байгааг үнэхээр өөрчлөх чадвартай.

Интернетэд байгаа асар их мэдээлэл нь судлаачдад хэлний нарийн төвөгтэй байдлыг загварчлах арга замыг өгсөн. Гэсэн хэдий ч замдаа эдгээр хэлний загварууд ертөнцийг байгаагаар нь хүн шиг ойлгохыг олж авсан бололтой.

Олон нийт эдгээр хэлний загварт үнэн зөв гарна гэдэгт итгэж эхэлснээр судлаачид болон хөгжүүлэгчид технологи нь ёс суртахуунтай хэвээр байхын тулд хамгаалалтын хашлага нэмэх арга замыг аль хэдийн хайж байна.

Таны бодлоор LLM-ийн ирээдүй юу вэ?

Том хэлний загварууд: Таны мэдэх ёстой бүх зүйл

Том хэлний загвар гэж юу вэ?

LLM-г хэрхэн бэлтгэдэг вэ?