Mae Google wedi parhau i fod ar flaen y gad o ran ymchwil AI yn gyson, gan ddefnyddio ei adnoddau helaeth a chyflogi nifer sylweddol o beirianwyr dawnus. Fodd bynnag, o ran modelau iaith, roedd ymdrechion Google yn hwyr i'r gêm.
Gyda'r cawr technoleg Microsoft eisoes yn elwa o bartneriaeth ffrwythlon gydag OpenAI, nid oedd gan Google unrhyw ddewis ond dal i fyny.
Yng nghynhadledd Google I/O eleni, cyhoeddodd y cwmni ei ateb i'r ras arfau AI cynhyrchiol: PaLM 2. A fydd y model newydd hwn yn mesur perfformiad ochr yn ochr â GPT-4 OpenAI?
Beth yw PaLM 2?
Mae Google yn disgrifio PaLM 2 fel model iaith o'r radd flaenaf sy'n gwella ar eu model PaLM presennol a gyhoeddwyd gyntaf yn 2022. Yn debyg i fodelau iaith eraill, mae PaLM 2 yn gallu cyflawni tasgau cynhyrchu testun amrywiol fel PaLM yn gallu gwneud ystod eang o dasgau , gan gynnwys ateb cwestiynau, cyfieithu testun, cynhyrchu cod, a llawer mwy.
Mae profion wedi dangos bod y PaLM 2 eisoes yn dangos gwelliannau sylweddol, gan berfformio'n well na'r model PaLM tra'n defnyddio nifer llawer is o baramedrau.
Teulu o Fodelau yw PaLM 2
Fel modelau iaith eraill, mae prosiect PaLM 2 mewn gwirionedd yn deulu o fodelau sy'n amrywio o ran maint. Bydd Google yn darparu model PaLM 2 mewn pedwar maint: Gecko, Dyfrgi, Bison, ac Unicorn.
Mae'r amrywiaeth mewn meintiau yn ei gwneud hi'n hawdd defnyddio PaLM 2 mewn achosion defnydd amrywiol. Er enghraifft, mae model Gecko yn ddigon ysgafn fel y gall y model cyfan ffitio mewn dyfais symudol a hyd yn oed redeg all-lein.
Set Ddata Hyfforddiant PaLM 2
Un o'r agweddau pwysicaf ar fodel iaith llwyddiannus yw'r set ddata hyfforddiant. Rhaid i'r set ddata hyfforddi fod yn ddigon amrywiol i ganiatáu i'r model gael dealltwriaeth ddofn o'r pwnc y mae wedi'i gynllunio ar ei gyfer.
Ar gyfer modelau iaith mawr (LLMs), fel arfer nid oes unrhyw bwnc penodol y mae'n rhaid i'r model hyfforddi arno. Yn lle hynny, caiff LLMs eu hadeiladu i fod yn fodelau pwrpas cyffredinol y mae'n rhaid iddynt fod yn addas i gyflawni nifer eang o dasgau. Mae'r modelau hyn yn defnyddio setiau data testunol mawr sy'n dal cyfran fawr o'r we yn ogystal â deunydd cyfeirio cyhoeddedig, llenyddiaeth, a hyd yn oed cod ffynhonnell.
Y prif wahaniaeth rhwng set ddata hyfforddiant PaLM 2 a modelau eraill yw cynnwys canran uwch o ddata nad yw'n Saesneg. Yn ôl eu adroddiad technegol, mae ehangu'r set ddata i gynnwys testunau nad ydynt yn Saesneg yn amlygu'r model i amrywiaeth ehangach o ieithoedd a diwylliannau.
Hyfforddwyd model PaLM 2 hefyd ar ddata amlieithog cyfochrog i helpu’r model i ennill y gallu i gyfieithu o un iaith i’r llall. Mae'r data'n cynnwys parau o destun lle mae un cofnod yn Saesneg a'r llall yn destun cyfatebol mewn iaith arall.
Mae’r tabl uchod yn dangos dosbarthiad iaith y dogfennau gwe amlieithog a ddefnyddiwyd i hyfforddi PaLM 2.
PaLM 2 Nodweddion Allweddol
Dyma rai o'r prif feysydd y mae PaLM 2 yn rhagori arnynt o gymharu â modelau iaith eraill.
Rhesymu
Mae set ddata PaLM 2 yn cynnwys ffynonellau fel papurau gwyddonol a chynnwys gwe gyda mynegiadau mathemategol. Mae hyn yn rhoi galluoedd gwell i'r model mewn mathemateg, rhesymu synnwyr cyffredin, a rhesymeg.
Profodd ymchwilwyr alluoedd rhesymu mathemategol y model ar gwestiynau mathemateg ysgol radd ac ysgol uwchradd lle mae'n dangos canlyniadau tebyg i alluoedd mathemateg GPT-4.
Codio
Mae data hyfforddi PaLM 2 hefyd yn rhoi'r gallu iddo gynhyrchu cod mewn amrywiaeth o ieithoedd rhaglennu. Creodd tîm PALM 2 fodel PaLM 2 codio-benodol o'r enw PaLM 2-S* a gafodd ei hyfforddi ar set ddata amlieithog cod-trwm.
Nid yn unig y mae'r model yn gallu cynhyrchu cod, ond mae hefyd yn gallu delio â thasgau sy'n cynnwys ieithoedd lluosog. Er enghraifft, gallwch ofyn i PaLM 2 greu swyddogaeth didoli Python sy'n ychwanegu sylwadau llinell-wrth-lein yn Sbaeneg.
Amlieithrwydd
Ers i'r model gael ei hyfforddi ar set ddata sy'n cynnwys dros 100 o ieithoedd, mae PaLM 2 yn dangos hyfedredd mewn deall, cynhyrchu a chyfieithu testun ar draws sawl iaith.
Er mwyn profi amlieithrwydd, profodd yr ymchwilwyr y model ar wahanol brofion hyfedredd iaith mewn gwahanol ieithoedd. Dengys y canlyniadau nid yn unig fod PaLM 2 yn perfformio'n well na PaLM ond hefyd wedi cyflawni gradd pasio ar gyfer pob iaith a werthuswyd.
Mae PaLM 2 hefyd yn dangos ei alluoedd amlieithog trwy ei allu i ddeall idiomau mewn gwahanol ieithoedd, gan esbonio jôcs, trwsio teipiau, a gall hyd yn oed ddysgu sut i drosi testun ffurfiol i sgwrs llafar.
PaLM 2 Pwerau Cynhyrchion Google
Mae Google eisoes yn manteisio ar ddatblygiadau PaLM 2 trwy integreiddio'r model â chynhyrchion eraill.
bardd
Mae gallu'r model i drin tasgau amlieithog bellach yn pweru Google Arbrawf bardd wrth iddo ehangu i dros 180 o wledydd a thiriogaethau.
Mae Bard bellach yn defnyddio galluoedd codio PaLM 2 i gynorthwyo gyda thasgau rhaglennu a datblygu meddalwedd megis cynhyrchu cod a dadfygio cod.
Deuawd AI ar gyfer Google Workspace
Mae Google hefyd yn bwriadu ychwanegu nodweddion AI cynhyrchiol at ei grŵp o gymwysiadau Google Workspace. Bydd Gmail a Docs yn cynnwys nodwedd o'r enw yn fuan Deuawd AI a fydd yn helpu'r defnyddiwr i ddrafftio ei atebion a'i ysgrifennu gan ddefnyddio anogwyr.
Bydd Duet AI hefyd yn caniatáu i ddefnyddwyr greu cynlluniau personol yn Google Sheets ar gyfer tasgau a phrosiectau yn seiliedig ar awgrymiadau a roddir gan y defnyddiwr.
Casgliad
Mae Google yn sicr yn gobeithio cau'r bwlch yn y farchnad o offer iaith AI gyda'u model iaith PaLM 2. Er nad yw API y model ar gael yn gyhoeddus eto, mae canlyniadau eu hymchwil yn dangos bod y model yn ddigon cystadleuol i gyd-fynd â pherfformiad GPT-4.
Gyda sylfaen defnyddwyr presennol Google, yn sicr mae ganddynt y fantais o addasu enfawr os yw eu AI yn cael ei integreiddio i'w gwasanaethau fel eu peiriant chwilio neu eu cyfres o offer cynhyrchiant.
Gadael ymateb