Tartalomjegyzék[Elrejt][Előadás]
A nagy nyelvi modellek a természetes nyelvi programozás és a neurális hálózatok területén a legújabb fejlemények közé tartoznak.
Az OpenAI GPT-3 az egyik legjobban teljesítő modell. A modell kimenete gyakran megkülönböztethetetlen az emberektől származó szövegtől.
A GPT-3 azonban továbbra is zárt forráskódú modell. Bár hihetetlenül erős, vannak bizonyos korlátozások, amelyek alkalmatlanná tehetik bizonyos használati esetekben.
Ebben a cikkben áttekintünk néhány nagyot nyelvi modellek amely felveheti a versenyt a GPT-3 nyers teljesítményével.
Miért érdemes OpenAI GPT-3 alternatívát keresni?
Az OpenAI GPT-3 modellje fejlettet használ mély tanulás modellek emberszerű szöveg előállításához. Ez az OpenAI kutatólaboratóriumának harmadik generációs nyelvi előrejelzési modellje.
A modellt eredetileg zárt bétaként adták ki, mielőtt az OpenAI 2021 végén végül megnyitotta a nyilvánosság számára az API-t.
Jelenleg a GPT-3 négy alapmodell közül választhat. Ada, a legolcsóbb és leggyorsabb modell mindössze 0.0004 dollárba kerül 1000 tokenenként. Az OpenAI legerősebb modellje, a Davinci 0.02 dollárba kerül 1000 tokenenként, vagyis körülbelül 50-szer drágább.
Az OpenAI azt is megköveteli, hogy a fejlesztő kövesse a sajátját használati irányelvek. A fejlesztő korlátozott használati kvótát is biztosít, amely növelhető, ha a fejlesztő kérelmét manuális felülvizsgálati folyamattal jóváhagyták.
Míg a GPT-3 kimenet jól ismert kiváló minőségű kimenetéről, nem ez az egyetlen használható nyelvi előrejelzési modell.
Nézzünk meg néhány versengő modellt, amelyeket a GPT-3 alternatívájaként használhat.
1. GPT-J
A GPT-J az Eleuther AI csoport nyílt forráskódú nyelvi modellje.
A zero-shot teljesítmény nagyjából megegyezik a GPT-3-mal, és teljesítményben sokkal közelebb áll, mint sok más GPT-megvalósítás.
A 6 milliárd paraméteres autoregresszív szöveggenerálási modellt a „The Pile” néven ismert adathalmazra képezték ki.
A halom valójában 22 kisebb adatkészlet kombinációja. Összesített fájlmérete 825 GiB, és a megfigyelések szerint nagyobb hangsúlyt fektet a tudományos és szakmai forrásokra.
Ezen keresztül saját maga is kipróbálhatja a modellt ingyenes webes alkalmazás.
Egy egyszerű felszólítással ki tudtam próbálni a modellt. A GPT-J-nek sikerült felsorolnia az „új nyelv tanulásának legjobb módjait”.
A teljesítmény azonban kissé foltos, amikor megpróbáltam megkérdezni, hogy magyarázza el, mi is az az autoregresszív szöveggenerálási modell.
Bár a kimenetnek volt értelme, valójában nem válaszolt értelmes módon a felszólításra.
Árazás
Mivel a GPT-J egy nyílt forráskódú modell, saját példányát saját maga is futtathatja. Szerint a hivatalos adattár, a modellt tenzor feldolgozó egységen (TPU) való futtatásra tervezték. Bár optimális, nem biztos, hogy ez a legköltséghatékonyabb lehetőség, mivel a Google a legolcsóbb a felhőalapú TPU-k költsége körülbelül 4.50 USD/óra.
Hosszú távon olcsóbb lehet saját GPU használata vagy dedikált GPU-kiszolgáló bérlése olyan szolgáltatásokon keresztül, mint például Vast.ai or FluidStack.
2. Jurassic-1
A Jurassic-1 az AI21 Labs, egy NLP-re szakosodott izraeli AI vállalat által kiadott nyelvi modell. Az OpenAI-hoz hasonlóan ők is kínálnak egy API-t, amely lehetővé teszi a nyelvi modelljük elérését.
Fiókot hozhat létre náluk hogy hozzáférjen egy játszótéri webalkalmazáshoz, hogy saját maga tesztelje a modellt.
Az AI21 Studio egy olyan funkciót is tartalmaz, amellyel oktathatja és lekérdezheti Jurassic-1 modelljeik saját egyedi verzióit. Egy hivatalos blogbejegyzés, az egyedi modellek mindössze ötven példával felülmúlhatják az eredeti modellt használó azonnali tervezést.
Árazás
Rugalmas, felhasználáson alapuló árazást kínálnak mindhárom alapmodellhez. Például 0.25 dollárt számítanak fel a modell által generált minden 1000 token után. Átlagosan minden token körülbelül 1 szóból vagy hat karakterből áll.
Ez azt jelenti, hogy az AI21 legjobb modelljét használva 4000 szavas dokumentumot készíthet mindössze 1 dollárért. Egy dologra azonban emlékeznie kell, hogy havonta legalább 29 dollárt kell fizetnie a modell használatáért.
3. TextSynth
A TextSynth egy másik NLP webszolgáltatás, amellyel szöveget generálhat. Az előző két példával ellentétben a TextSynth nem önálló modell. A szolgáltatás úgy működik, hogy hozzáférést biztosít a felhasználónak számos más nyílt forráskódú nagy nyelvi modellhez, mint például a GPT-NeoX, M2M100 és még a GPT-J is.
A fejlesztők használhatják REST API hogy integrálják a nyelvi modelleket saját alkalmazásaikba. Megpróbálhatja megnézni ingyenesen játszótér oldal hogy megtudja, hogyan teljesítenek az egyes elérhető modellek.
Árazás
Ingyenes csomagjuk hozzáférést biztosít az összes nyelvi modelljükhöz, bizonyos díjkorlátokkal. A szolgáltatás minden kérést 200 token hosszára korlátoz.
A szabványos terv megszünteti a generált tokenek számának korlátozását. Az árazási modell hitelalapú a váratlan kiadások elkerülése érdekében. A megvásárolható kreditek minimális száma 20 USD. A fel nem használt kreditek egy év után érvénytelenek.
Az egyes kérések ára a bemeneti adatok és a generált tokenek számán alapul. A hivatalos weboldalukon található táblázat alapján az olcsóbb modellek használatáért körülbelül 0.75-1.25 dollárt kell fizetnie.
Következtetés
Remélhetőleg ez a cikk segít megtalálni egy megfizethető és hatékony nyelvi modellt, amelyet használhat OpenAI GPT-3 alternatíva.
A nagy nyelvi modellek nagyon hatékonyak, és különféle feladatokhoz használhatók. Használhatók szöveg generálására, nyelvek közötti fordításra, valamint a természetes nyelv megértésére és reagálására.
A térben végzett kutatásaim és az általam elvégzett tesztek alapján a GPT-3 még mindig felülmúlja a többit nagy nyelvi modell Megpróbáltam. Ez azonban a jövőben megváltozhat, ahogy a kutatók új modelleket fejlesztenek és bocsátanak ki.
A Google, a Facebook és más mesterséges intelligencia-laboratóriumok kutatói továbbra is saját LMM-jeik fejlesztésén dolgoznak. Minden bizonnyal lehetséges, hogy az AI csapatok egyike a GPT-3-nál jobb modellel jelentkezik.
Hagy egy Válaszol