పాత్‌వేస్ లాంగ్వేజ్ మోడల్ (PaLM) పరిచయం

విషయ సూచిక[దాచు][చూపండి]

Google యొక్క PalM అల్గోరిథం అంటే ఏమిటి?
Google PalM అల్గారిథమ్‌ను ఎలా అభివృద్ధి చేసింది?
PalMకి శిక్షణ ఇవ్వడానికి ఉపయోగించే పారామితులు
PalM బ్రేక్‌త్రూ సామర్థ్యాలు+-
ముగింపు

భాషా గుర్తింపు మరియు ఉత్పత్తి కోసం శిక్షణ పొందిన పెద్ద న్యూరల్ నెట్‌వర్క్‌లు ఇటీవలి సంవత్సరాలలో వివిధ రకాల పనులలో అత్యుత్తమ ఫలితాలను ప్రదర్శించాయి. GPT-3 విస్తృతమైన టాస్క్-నిర్దిష్ట డేటా లేదా మోడల్ పారామితులను మార్చకుండా కొన్ని-షాట్ లెర్నింగ్ కోసం పెద్ద భాషా నమూనాలను (LLMలు) ఉపయోగించవచ్చని మరియు అద్భుతమైన ఫలితాలను పొందవచ్చని నిరూపించింది.

గూగుల్, సిలికాన్ వ్యాలీ టెక్ బెహెమోత్, ప్రపంచవ్యాప్త సాంకేతిక పరిశ్రమకు తదుపరి తరం AI-భాష మోడల్‌గా PalM లేదా పాత్‌వేస్ లాంగ్వేజ్ మోడల్‌ను పరిచయం చేసింది. Google ఒక క్రొత్తదాన్ని చేర్చింది కృత్రిమ మేధస్సు AI-భాష మోడల్ నాణ్యతను మెరుగుపరచడానికి వ్యూహాత్మక లక్ష్యాలతో PalM లోకి నిర్మాణం.

ఈ పోస్ట్‌లో, మేము పామ్ అల్గారిథమ్‌ను శిక్షణ ఇవ్వడానికి ఉపయోగించే పారామీటర్‌లు, అది పరిష్కరించే సమస్య మరియు మరెన్నో వివరంగా పరిశీలిస్తాము.

ఏమిటి Google యొక్క PalM అల్గోరిథం?

పాత్‌వేస్ లాంగ్వేజ్ మోడల్ అంటే ఏమిటి PalM ఉన్నచో. ఇది పాత్‌వేస్ AI ఆర్కిటెక్చర్‌ను బలోపేతం చేయడానికి Google చే అభివృద్ధి చేయబడిన కొత్త అల్గారిథమ్. నిర్మాణం యొక్క ప్రధాన లక్ష్యం ఒకేసారి మిలియన్ విభిన్న కార్యకలాపాలను చేయడం.

సంక్లిష్ట డేటాను అర్థాన్ని విడదీయడం నుండి తగ్గింపు తార్కికం వరకు అన్నీ వీటిలో ఉన్నాయి. భాష మరియు తార్కిక పనులలో ప్రస్తుత AI స్టేట్ ఆఫ్ ది ఆర్ట్‌తో పాటు మనుషులను అధిగమించే సామర్థ్యాన్ని PalM కలిగి ఉంది.

ఇది ఫ్యూ-షాట్ లెర్నింగ్‌ని కలిగి ఉంటుంది, ఇది మానవులు కొత్త విషయాలను ఎలా నేర్చుకుంటారో మరియు మునుపెన్నడూ చూడని కొత్త సవాళ్లను పరిష్కరించడానికి విభిన్నమైన జ్ఞానాన్ని మిళితం చేసి, కొత్త సవాళ్లను పరిష్కరించడానికి దాని జ్ఞానాన్ని ఉపయోగించగల యంత్రం యొక్క ప్రయోజనంతో; PalMలోని ఈ నైపుణ్యానికి ఒక ఉదాహరణ, ఇది మునుపెన్నడూ వినని జోక్‌ను వివరించగల సామర్థ్యం.

PalM

భాషా గ్రహణశక్తి మరియు సృష్టి, మల్టీస్టెప్ అరిథ్‌మెటిక్ కోడ్-సంబంధిత కార్యకలాపాలు, ఇంగితజ్ఞానం తార్కికం, అనువాదం మరియు మరెన్నో సహా పలు రకాల సవాలు పనులపై PalM అనేక పురోగతి నైపుణ్యాలను ప్రదర్శించింది.

బహుభాషా NLP సెట్‌లను ఉపయోగించి సంక్లిష్ట సమస్యలను పరిష్కరించగల సామర్థ్యాన్ని ఇది ప్రదర్శించింది. కారణం మరియు ప్రభావం, సంభావిత కలయికలు, విభిన్న గేమ్‌లు మరియు అనేక ఇతర విషయాలను వేరు చేయడానికి ప్రపంచవ్యాప్త సాంకేతిక మార్కెట్ ద్వారా PalMని ఉపయోగించవచ్చు.

ఇది మల్టీస్టెప్ లాజికల్ ఇన్ఫరెన్స్, డీప్ లాంగ్వేజ్, గ్లోబల్ నాలెడ్జ్ మరియు ఇతర టెక్నిక్‌లను ఉపయోగించి అనేక సందర్భాల కోసం లోతైన వివరణలను కూడా రూపొందించగలదు.

Google PalM అల్గారిథమ్‌ను ఎలా అభివృద్ధి చేసింది?

PalMలో Google యొక్క పురోగతి పనితీరు కోసం, మార్గాలు 540 బిలియన్ పారామీటర్‌ల వరకు స్కేల్ చేయడానికి షెడ్యూల్ చేయబడ్డాయి. ఇది అనేక డొమైన్‌లలో సమర్ధవంతంగా మరియు ప్రభావవంతంగా సాధారణీకరించగల ఒక మోడల్‌గా గుర్తించబడింది. Google వద్ద పాత్‌వేస్ యాక్సిలరేటర్‌ల కోసం పంపిణీ చేయబడిన కంప్యూటింగ్‌ను అభివృద్ధి చేయడానికి అంకితం చేయబడింది.

PalM అనేది డీకోడర్-మాత్రమే ట్రాన్స్‌ఫార్మర్ మోడల్, ఇది పాత్‌వేస్ సిస్టమ్‌ను ఉపయోగించి శిక్షణ పొందింది. Google ప్రకారం, అనేక పనిభారంలో PalM అత్యాధునికమైన కొన్ని-షాట్ పనితీరును విజయవంతంగా సాధించింది. మొదటిసారిగా 6144 చిప్స్‌గా పిలవబడే అతిపెద్ద TPU-ఆధారిత సిస్టమ్ కాన్ఫిగరేషన్‌కు శిక్షణను విస్తరించడానికి PalM పాత్‌వేస్ సిస్టమ్‌ను ఉపయోగించింది.

AI-భాష మోడల్ కోసం శిక్షణ డేటాసెట్ ఇంగ్లీష్ మరియు ఇతర బహుభాషా డేటాసెట్‌ల మిశ్రమంతో రూపొందించబడింది. "లాస్‌లెస్" పదజాలంతో, ఇది అధిక-నాణ్యత వెబ్ కంటెంట్, చర్చలు, పుస్తకాలు, GitHub కోడ్, వికీపీడియా మరియు మరిన్నింటిని కలిగి ఉంది. లాస్‌లెస్ పదజాలం ఖాళీ స్థలాన్ని నిలుపుకోవడం మరియు పదజాలంలో లేని యూనికోడ్ అక్షరాలను బైట్‌లుగా విభజించడం కోసం గుర్తించబడింది.

ప్రామాణిక ట్రాన్స్‌ఫార్మర్ మోడల్ ఆర్కిటెక్చర్ మరియు స్విగ్లూ యాక్టివేషన్, ప్యారలల్ లేయర్‌లు, రోప్ ఎంబెడ్డింగ్‌లు, షేర్డ్ ఇన్‌పుట్-అవుట్‌పుట్ ఎంబెడ్డింగ్‌లు, మల్టీ-క్వరీ అటెన్షన్ మరియు పక్షపాతాలు లేదా పదజాలం లేని డీకోడర్ కాన్ఫిగరేషన్‌ని ఉపయోగించి PalMని Google మరియు పాత్‌వేస్ అభివృద్ధి చేశాయి. మరోవైపు, PalM, Google మరియు Pathways యొక్క AI- భాషా మోడల్‌కు బలమైన ఆధారాన్ని అందించడానికి సిద్ధంగా ఉంది.

PalMకి శిక్షణ ఇవ్వడానికి ఉపయోగించే పారామితులు

గత సంవత్సరం, Google పాత్‌వేస్‌ని ప్రారంభించింది, ఇది వేల, మిలియన్ల పనులు చేయడానికి శిక్షణ ఇవ్వగల ఒకే మోడల్‌ని- "తరువాతి తరం AI ఆర్కిటెక్చర్" అని పిలుస్తారు, ఎందుకంటే ఇది ఇప్పటికే ఉన్న మోడల్‌ల పరిమితులను అధిగమించగలదు. . ప్రస్తుత మోడల్‌ల సామర్థ్యాలను విస్తరించే బదులు, ఒకే పనిని సాధించడానికి కొత్త మోడల్‌లు తరచుగా దిగువ నుండి పైకి నిర్మించబడతాయి.

ఫలితంగా, వారు పదివేల విభిన్న కార్యకలాపాల కోసం పదివేల నమూనాలను రూపొందించారు. ఇది సమయం తీసుకునే మరియు వనరులతో కూడిన పని.

ఒకే మోడల్ వివిధ రకాల కార్యకలాపాలను నిర్వహించగలదని మరియు కొత్త పనులను మరింత వేగంగా మరియు సమర్ధవంతంగా నేర్చుకునేందుకు ప్రస్తుత ప్రతిభను పొందగలదని మరియు కలపగలదని Google పాత్‌వేస్ ద్వారా నిరూపించింది.

ఒకే సమయంలో దృష్టి, భాషా గ్రహణశక్తి మరియు శ్రవణ ప్రాసెసింగ్‌తో కూడిన మల్టీమోడల్ మోడల్‌లు మార్గాల ద్వారా ప్రారంభించబడవచ్చు. పాత్‌వేస్ లాంగ్వేజ్ మోడల్ (PaLM) దాని 4 బిలియన్ పారామీటర్ మోడల్‌కు కృతజ్ఞతలు తెలుపుతూ అనేక TPU v540 పాడ్‌లలో ఒకే మోడల్‌కి శిక్షణ ఇవ్వడానికి అనుమతిస్తుంది.

శిక్షణ మౌలిక సదుపాయాలు

PalM, దట్టమైన డీకోడర్-మాత్రమే ట్రాన్స్‌ఫార్మర్ మోడల్, విస్తృత శ్రేణి పనిభారంలో అత్యాధునికమైన కొన్ని-షాట్ పనితీరును అధిగమిస్తుంది. డేటా సెంటర్ నెట్‌వర్క్ (DCN) ద్వారా లింక్ చేయబడిన రెండు TPU v4 పాడ్‌లపై PalM శిక్షణ పొందుతోంది.

ఇది మోడల్ మరియు డేటా సమాంతరత రెండింటి ప్రయోజనాన్ని పొందుతుంది. పరిశోధకులు PalM కోసం ప్రతి పాడ్‌లో 3072 TPU v4 ప్రాసెసర్‌లను ఉపయోగించారు, ఇవి 768 హోస్ట్‌లకు కనెక్ట్ చేయబడ్డాయి. పరిశోధకుల అభిప్రాయం ప్రకారం, ఇది ఇంకా బహిర్గతం చేయబడిన అతిపెద్ద TPU కాన్ఫిగరేషన్, పైప్‌లైన్ సమాంతరతను ఉపయోగించకుండా శిక్షణను స్కేల్ చేయడానికి వీలు కల్పిస్తుంది.

పైప్ లైనింగ్ అనేది సాధారణంగా పైప్‌లైన్ ద్వారా CPU నుండి సూచనలను సేకరించే ప్రక్రియ. మోడల్ యొక్క పొరలు దశలుగా విభజించబడ్డాయి, వీటిని పైప్‌లైన్ మోడల్ సమాంతరత (లేదా పైప్‌లైన్ సమాంతరత) ద్వారా సమాంతరంగా ప్రాసెస్ చేయవచ్చు.

మైక్రో-బ్యాచ్ కోసం ఫార్వర్డ్ పాస్‌ను ఒక దశ పూర్తి చేసినప్పుడు యాక్టివేషన్ మెమరీ తదుపరి దశకు పంపబడుతుంది. కింది దశ దాని వెనుకబడిన ప్రచారం పూర్తి అయినప్పుడు ప్రవణతలు వెనుకకు పంపబడతాయి.

PalM బ్రేక్‌త్రూ సామర్థ్యాలు

PalM కష్టతరమైన పనుల పరిధిలో గ్రౌండ్ బ్రేకింగ్ సామర్ధ్యాలను ప్రదర్శిస్తుంది. ఇక్కడ అనేక ఉదాహరణలు ఉన్నాయి:

1. భాషా సృష్టి మరియు అవగాహన

ఆంగ్లంలో 29 వేర్వేరు NLP టాస్క్‌లపై PalM పరీక్షించబడింది.

కొన్ని-షాట్ ప్రాతిపదికన, ఓపెన్-డొమైన్ క్లోజ్డ్-బుక్ వేరియంట్ ప్రశ్న-సమాధాన టాస్క్‌లతో సహా 540 టాస్క్‌లలో 3పై GLaM, GPT-28, Megatron-Turing NLG, Gopher, Chinchilla మరియు LaMDA వంటి మునుపటి పెద్ద మోడళ్లను PalM 29B అధిగమించింది. , క్లోజ్ మరియు సెంటెన్స్-కంప్లీషన్ టాస్క్‌లు, వినోగ్రాడ్-స్టైల్ టాస్క్‌లు, ఇన్-కంటెక్స్ట్ రీడింగ్ కాంప్రహెన్షన్ టాస్క్‌లు, కామన్‌సెన్స్ రీజనింగ్ టాస్క్‌లు, సూపర్‌గ్లూ టాస్క్‌లు మరియు సహజ అనుమితి.

భాషా తరం అవగాహన

అనేక BIG-బెంచ్ టాస్క్‌లలో, PalM అద్భుతమైన సహజ భాషా వివరణ మరియు ఉత్పాదక నైపుణ్యాలను ప్రదర్శిస్తుంది. ఉదాహరణకు, మోడల్ కారణం మరియు ప్రభావం మధ్య తేడాను గుర్తించగలదు, నిర్దిష్ట పరిస్థితులలో సంభావిత కలయికలను అర్థం చేసుకోవచ్చు మరియు ఎమోజి నుండి సినిమాని ఊహించగలదు. శిక్షణ కార్పస్‌లో కేవలం 22% ఆంగ్లేతరమైనప్పటికీ, ఇంగ్లీష్ NLP టాస్క్‌లతో పాటు అనువాదంతో సహా బహుభాషా NLP బెంచ్‌మార్క్‌లపై PalM బాగా పని చేస్తుంది.

2. రీజనింగ్

PalM మోడల్ పరిమాణాన్ని చైన్-ఆఫ్-థాట్‌తో మిళితం చేస్తుంది, మల్టీస్టెప్ అరిథ్‌మెటిక్ లేదా కామన్‌సెన్స్ రీజనింగ్ అవసరమయ్యే తార్కిక సవాళ్లపై పురోగతి నైపుణ్యాలను ప్రదర్శించడానికి ప్రాంప్ట్ చేస్తుంది.

గోఫర్ వంటి మునుపటి LLMలు పనితీరును మెరుగుపరిచే పరంగా మోడల్ పరిమాణం నుండి తక్కువ ప్రయోజనం పొందాయి. చైన్-ఆఫ్-థాట్ ప్రాంప్టింగ్‌తో కూడిన PalM 540B మూడు అంకగణితం మరియు రెండు కామన్‌సెన్స్ థింకింగ్ డేటాసెట్‌లపై బాగా పనిచేసింది. రీజనింగ్

GPT-55 3B మోడల్‌ను 175 సమస్యలతో కూడిన శిక్షణా సెట్‌తో చక్కగా ట్యూన్ చేయడం ద్వారా మరియు దానిని GSM7500Kలోని 58 శాతం సమస్యలను పరిష్కరించడానికి బాహ్య కాలిక్యులేటర్ మరియు వెరిఫైయర్‌తో కలపడం ద్వారా పొందబడిన మునుపటి అత్యుత్తమ స్కోర్ 8%ని PalM అధిగమించింది. 8-షాట్ ప్రాంప్టింగ్‌ని ఉపయోగించి వేలాది కష్టతరమైన పాఠశాల స్థాయి గణిత ప్రశ్నల బెంచ్‌మార్క్.

ఇది 60-9 సంవత్సరాల వయస్సు గలవారు ఎదుర్కొనే అడ్డంకుల సగటు 12%కి చేరువైనందున ఈ కొత్త స్కోర్ ప్రత్యేకంగా గుర్తించదగినది. ఇది ఇంటర్నెట్‌లో అందుబాటులో లేని అసలైన జోక్‌లకు కూడా ప్రతిస్పందించగలదు.

ఒక జోక్‌ని వివరించడం

3. కోడ్ జనరేషన్

సహజ భాషా వివరణ (టెక్స్ట్-టు-కోడ్) నుండి కోడ్‌ను రూపొందించడం, భాషల మధ్య కోడ్‌ను అనువదించడం మరియు సంకలన లోపాలను పరిష్కరించడం వంటి కోడింగ్ పనులలో కూడా LLMలు బాగా పనిచేశాయని చూపబడింది. ప్రీ-ట్రైనింగ్ డేటాసెట్‌లో 5% కోడ్ మాత్రమే ఉన్నప్పటికీ, ఒకే మోడల్‌లో కోడింగ్ మరియు నేచురల్ లాంగ్వేజ్ టాస్క్‌లు రెండింటిలోనూ PalM 540B బాగా పనిచేస్తుంది.

కోడ్ జనరేషన్

12 రెట్లు తక్కువ పైథాన్ కోడ్‌తో శిక్షణ పొందుతున్నప్పుడు ఇది ఫైన్-ట్యూన్ చేయబడిన కోడెక్స్ 50Bతో సరిపోలడంతో దాని కొన్ని-షాట్ పనితీరు అద్భుతమైనది. పెద్ద మోడల్‌లు చిన్న మోడల్‌ల కంటే ఎక్కువ శాంపిల్ ఎఫెక్టివ్‌గా ఉండగలవని ముందస్తు పరిశోధనలతో ఈ అన్వేషణ వెనుకకు వచ్చింది ఎందుకంటే అవి బహుళ నుండి నేర్చుకోవడాన్ని మరింత ప్రభావవంతంగా బదిలీ చేయగలవు. ప్రోగ్రామింగ్ భాషలు మరియు సాదా భాష డేటా.

కోడ్ జనరేషన్ ఉదాహరణ.

ముగింపు

దట్టమైన డీకోడర్-మాత్రమే ట్రాన్స్‌ఫార్మర్ మోడల్‌తో బాగా అధ్యయనం చేయబడిన, బాగా స్థిరపడిన రెసిపీతో 4-బిలియన్ పారామీటర్ మోడల్‌ను సమర్థవంతంగా శిక్షణ ఇవ్వడం ద్వారా రెండు TPU v540 పాడ్‌ల మీదుగా వేలాది యాక్సిలరేటర్ ప్రాసెసర్‌లకు స్కేల్ చేయగల పాత్‌వేస్ సిస్టమ్ సామర్థ్యాన్ని PalM చూపిస్తుంది.

ఇది మోడల్ స్కేల్ యొక్క హద్దులను నెట్టడం ద్వారా సహజ భాషా ప్రాసెసింగ్, రీజనింగ్ మరియు కోడింగ్ సవాళ్ల పరిధిలో కొన్ని-షాట్ పనితీరును సాధించింది.

పాత్‌వేస్ లాంగ్వేజ్ మోడల్ (PaLM) పరిచయం

ఏమిటి Google యొక్క PalM అల్గోరిథం?

Google PalM అల్గారిథమ్‌ను ఎలా అభివృద్ధి చేసింది?

PalMకి శిక్షణ ఇవ్వడానికి ఉపయోగించే పారామితులు