భాషా గుర్తింపు మరియు ఉత్పత్తి కోసం శిక్షణ పొందిన పెద్ద న్యూరల్ నెట్వర్క్లు ఇటీవలి సంవత్సరాలలో వివిధ రకాల పనులలో అత్యుత్తమ ఫలితాలను ప్రదర్శించాయి. GPT-3 విస్తృతమైన టాస్క్-నిర్దిష్ట డేటా లేదా మోడల్ పారామితులను మార్చకుండా కొన్ని-షాట్ లెర్నింగ్ కోసం పెద్ద భాషా నమూనాలను (LLMలు) ఉపయోగించవచ్చని మరియు అద్భుతమైన ఫలితాలను పొందవచ్చని నిరూపించింది.
గూగుల్, సిలికాన్ వ్యాలీ టెక్ బెహెమోత్, ప్రపంచవ్యాప్త సాంకేతిక పరిశ్రమకు తదుపరి తరం AI-భాష మోడల్గా PalM లేదా పాత్వేస్ లాంగ్వేజ్ మోడల్ను పరిచయం చేసింది. Google ఒక క్రొత్తదాన్ని చేర్చింది కృత్రిమ మేధస్సు AI-భాష మోడల్ నాణ్యతను మెరుగుపరచడానికి వ్యూహాత్మక లక్ష్యాలతో PalM లోకి నిర్మాణం.
ఈ పోస్ట్లో, మేము పామ్ అల్గారిథమ్ను శిక్షణ ఇవ్వడానికి ఉపయోగించే పారామీటర్లు, అది పరిష్కరించే సమస్య మరియు మరెన్నో వివరంగా పరిశీలిస్తాము.
ఏమిటి Google యొక్క PalM అల్గోరిథం?
పాత్వేస్ లాంగ్వేజ్ మోడల్ అంటే ఏమిటి PalM ఉన్నచో. ఇది పాత్వేస్ AI ఆర్కిటెక్చర్ను బలోపేతం చేయడానికి Google చే అభివృద్ధి చేయబడిన కొత్త అల్గారిథమ్. నిర్మాణం యొక్క ప్రధాన లక్ష్యం ఒకేసారి మిలియన్ విభిన్న కార్యకలాపాలను చేయడం.
సంక్లిష్ట డేటాను అర్థాన్ని విడదీయడం నుండి తగ్గింపు తార్కికం వరకు అన్నీ వీటిలో ఉన్నాయి. భాష మరియు తార్కిక పనులలో ప్రస్తుత AI స్టేట్ ఆఫ్ ది ఆర్ట్తో పాటు మనుషులను అధిగమించే సామర్థ్యాన్ని PalM కలిగి ఉంది.
ఇది ఫ్యూ-షాట్ లెర్నింగ్ని కలిగి ఉంటుంది, ఇది మానవులు కొత్త విషయాలను ఎలా నేర్చుకుంటారో మరియు మునుపెన్నడూ చూడని కొత్త సవాళ్లను పరిష్కరించడానికి విభిన్నమైన జ్ఞానాన్ని మిళితం చేసి, కొత్త సవాళ్లను పరిష్కరించడానికి దాని జ్ఞానాన్ని ఉపయోగించగల యంత్రం యొక్క ప్రయోజనంతో; PalMలోని ఈ నైపుణ్యానికి ఒక ఉదాహరణ, ఇది మునుపెన్నడూ వినని జోక్ను వివరించగల సామర్థ్యం.
భాషా గ్రహణశక్తి మరియు సృష్టి, మల్టీస్టెప్ అరిథ్మెటిక్ కోడ్-సంబంధిత కార్యకలాపాలు, ఇంగితజ్ఞానం తార్కికం, అనువాదం మరియు మరెన్నో సహా పలు రకాల సవాలు పనులపై PalM అనేక పురోగతి నైపుణ్యాలను ప్రదర్శించింది.
బహుభాషా NLP సెట్లను ఉపయోగించి సంక్లిష్ట సమస్యలను పరిష్కరించగల సామర్థ్యాన్ని ఇది ప్రదర్శించింది. కారణం మరియు ప్రభావం, సంభావిత కలయికలు, విభిన్న గేమ్లు మరియు అనేక ఇతర విషయాలను వేరు చేయడానికి ప్రపంచవ్యాప్త సాంకేతిక మార్కెట్ ద్వారా PalMని ఉపయోగించవచ్చు.
ఇది మల్టీస్టెప్ లాజికల్ ఇన్ఫరెన్స్, డీప్ లాంగ్వేజ్, గ్లోబల్ నాలెడ్జ్ మరియు ఇతర టెక్నిక్లను ఉపయోగించి అనేక సందర్భాల కోసం లోతైన వివరణలను కూడా రూపొందించగలదు.
Google PalM అల్గారిథమ్ను ఎలా అభివృద్ధి చేసింది?
PalMలో Google యొక్క పురోగతి పనితీరు కోసం, మార్గాలు 540 బిలియన్ పారామీటర్ల వరకు స్కేల్ చేయడానికి షెడ్యూల్ చేయబడ్డాయి. ఇది అనేక డొమైన్లలో సమర్ధవంతంగా మరియు ప్రభావవంతంగా సాధారణీకరించగల ఒక మోడల్గా గుర్తించబడింది. Google వద్ద పాత్వేస్ యాక్సిలరేటర్ల కోసం పంపిణీ చేయబడిన కంప్యూటింగ్ను అభివృద్ధి చేయడానికి అంకితం చేయబడింది.
PalM అనేది డీకోడర్-మాత్రమే ట్రాన్స్ఫార్మర్ మోడల్, ఇది పాత్వేస్ సిస్టమ్ను ఉపయోగించి శిక్షణ పొందింది. Google ప్రకారం, అనేక పనిభారంలో PalM అత్యాధునికమైన కొన్ని-షాట్ పనితీరును విజయవంతంగా సాధించింది. మొదటిసారిగా 6144 చిప్స్గా పిలవబడే అతిపెద్ద TPU-ఆధారిత సిస్టమ్ కాన్ఫిగరేషన్కు శిక్షణను విస్తరించడానికి PalM పాత్వేస్ సిస్టమ్ను ఉపయోగించింది.
AI-భాష మోడల్ కోసం శిక్షణ డేటాసెట్ ఇంగ్లీష్ మరియు ఇతర బహుభాషా డేటాసెట్ల మిశ్రమంతో రూపొందించబడింది. "లాస్లెస్" పదజాలంతో, ఇది అధిక-నాణ్యత వెబ్ కంటెంట్, చర్చలు, పుస్తకాలు, GitHub కోడ్, వికీపీడియా మరియు మరిన్నింటిని కలిగి ఉంది. లాస్లెస్ పదజాలం ఖాళీ స్థలాన్ని నిలుపుకోవడం మరియు పదజాలంలో లేని యూనికోడ్ అక్షరాలను బైట్లుగా విభజించడం కోసం గుర్తించబడింది.
ప్రామాణిక ట్రాన్స్ఫార్మర్ మోడల్ ఆర్కిటెక్చర్ మరియు స్విగ్లూ యాక్టివేషన్, ప్యారలల్ లేయర్లు, రోప్ ఎంబెడ్డింగ్లు, షేర్డ్ ఇన్పుట్-అవుట్పుట్ ఎంబెడ్డింగ్లు, మల్టీ-క్వరీ అటెన్షన్ మరియు పక్షపాతాలు లేదా పదజాలం లేని డీకోడర్ కాన్ఫిగరేషన్ని ఉపయోగించి PalMని Google మరియు పాత్వేస్ అభివృద్ధి చేశాయి. మరోవైపు, PalM, Google మరియు Pathways యొక్క AI- భాషా మోడల్కు బలమైన ఆధారాన్ని అందించడానికి సిద్ధంగా ఉంది.
PalMకి శిక్షణ ఇవ్వడానికి ఉపయోగించే పారామితులు
గత సంవత్సరం, Google పాత్వేస్ని ప్రారంభించింది, ఇది వేల, మిలియన్ల పనులు చేయడానికి శిక్షణ ఇవ్వగల ఒకే మోడల్ని- "తరువాతి తరం AI ఆర్కిటెక్చర్" అని పిలుస్తారు, ఎందుకంటే ఇది ఇప్పటికే ఉన్న మోడల్ల పరిమితులను అధిగమించగలదు. . ప్రస్తుత మోడల్ల సామర్థ్యాలను విస్తరించే బదులు, ఒకే పనిని సాధించడానికి కొత్త మోడల్లు తరచుగా దిగువ నుండి పైకి నిర్మించబడతాయి.
ఫలితంగా, వారు పదివేల విభిన్న కార్యకలాపాల కోసం పదివేల నమూనాలను రూపొందించారు. ఇది సమయం తీసుకునే మరియు వనరులతో కూడిన పని.
ఒకే మోడల్ వివిధ రకాల కార్యకలాపాలను నిర్వహించగలదని మరియు కొత్త పనులను మరింత వేగంగా మరియు సమర్ధవంతంగా నేర్చుకునేందుకు ప్రస్తుత ప్రతిభను పొందగలదని మరియు కలపగలదని Google పాత్వేస్ ద్వారా నిరూపించింది.
ఒకే సమయంలో దృష్టి, భాషా గ్రహణశక్తి మరియు శ్రవణ ప్రాసెసింగ్తో కూడిన మల్టీమోడల్ మోడల్లు మార్గాల ద్వారా ప్రారంభించబడవచ్చు. పాత్వేస్ లాంగ్వేజ్ మోడల్ (PaLM) దాని 4 బిలియన్ పారామీటర్ మోడల్కు కృతజ్ఞతలు తెలుపుతూ అనేక TPU v540 పాడ్లలో ఒకే మోడల్కి శిక్షణ ఇవ్వడానికి అనుమతిస్తుంది.
PalM, దట్టమైన డీకోడర్-మాత్రమే ట్రాన్స్ఫార్మర్ మోడల్, విస్తృత శ్రేణి పనిభారంలో అత్యాధునికమైన కొన్ని-షాట్ పనితీరును అధిగమిస్తుంది. డేటా సెంటర్ నెట్వర్క్ (DCN) ద్వారా లింక్ చేయబడిన రెండు TPU v4 పాడ్లపై PalM శిక్షణ పొందుతోంది.
ఇది మోడల్ మరియు డేటా సమాంతరత రెండింటి ప్రయోజనాన్ని పొందుతుంది. పరిశోధకులు PalM కోసం ప్రతి పాడ్లో 3072 TPU v4 ప్రాసెసర్లను ఉపయోగించారు, ఇవి 768 హోస్ట్లకు కనెక్ట్ చేయబడ్డాయి. పరిశోధకుల అభిప్రాయం ప్రకారం, ఇది ఇంకా బహిర్గతం చేయబడిన అతిపెద్ద TPU కాన్ఫిగరేషన్, పైప్లైన్ సమాంతరతను ఉపయోగించకుండా శిక్షణను స్కేల్ చేయడానికి వీలు కల్పిస్తుంది.
పైప్ లైనింగ్ అనేది సాధారణంగా పైప్లైన్ ద్వారా CPU నుండి సూచనలను సేకరించే ప్రక్రియ. మోడల్ యొక్క పొరలు దశలుగా విభజించబడ్డాయి, వీటిని పైప్లైన్ మోడల్ సమాంతరత (లేదా పైప్లైన్ సమాంతరత) ద్వారా సమాంతరంగా ప్రాసెస్ చేయవచ్చు.
మైక్రో-బ్యాచ్ కోసం ఫార్వర్డ్ పాస్ను ఒక దశ పూర్తి చేసినప్పుడు యాక్టివేషన్ మెమరీ తదుపరి దశకు పంపబడుతుంది. కింది దశ దాని వెనుకబడిన ప్రచారం పూర్తి అయినప్పుడు ప్రవణతలు వెనుకకు పంపబడతాయి.
PalM బ్రేక్త్రూ సామర్థ్యాలు
PalM కష్టతరమైన పనుల పరిధిలో గ్రౌండ్ బ్రేకింగ్ సామర్ధ్యాలను ప్రదర్శిస్తుంది. ఇక్కడ అనేక ఉదాహరణలు ఉన్నాయి:
1. భాషా సృష్టి మరియు అవగాహన
ఆంగ్లంలో 29 వేర్వేరు NLP టాస్క్లపై PalM పరీక్షించబడింది.
కొన్ని-షాట్ ప్రాతిపదికన, ఓపెన్-డొమైన్ క్లోజ్డ్-బుక్ వేరియంట్ ప్రశ్న-సమాధాన టాస్క్లతో సహా 540 టాస్క్లలో 3పై GLaM, GPT-28, Megatron-Turing NLG, Gopher, Chinchilla మరియు LaMDA వంటి మునుపటి పెద్ద మోడళ్లను PalM 29B అధిగమించింది. , క్లోజ్ మరియు సెంటెన్స్-కంప్లీషన్ టాస్క్లు, వినోగ్రాడ్-స్టైల్ టాస్క్లు, ఇన్-కంటెక్స్ట్ రీడింగ్ కాంప్రహెన్షన్ టాస్క్లు, కామన్సెన్స్ రీజనింగ్ టాస్క్లు, సూపర్గ్లూ టాస్క్లు మరియు సహజ అనుమితి.
అనేక BIG-బెంచ్ టాస్క్లలో, PalM అద్భుతమైన సహజ భాషా వివరణ మరియు ఉత్పాదక నైపుణ్యాలను ప్రదర్శిస్తుంది. ఉదాహరణకు, మోడల్ కారణం మరియు ప్రభావం మధ్య తేడాను గుర్తించగలదు, నిర్దిష్ట పరిస్థితులలో సంభావిత కలయికలను అర్థం చేసుకోవచ్చు మరియు ఎమోజి నుండి సినిమాని ఊహించగలదు. శిక్షణ కార్పస్లో కేవలం 22% ఆంగ్లేతరమైనప్పటికీ, ఇంగ్లీష్ NLP టాస్క్లతో పాటు అనువాదంతో సహా బహుభాషా NLP బెంచ్మార్క్లపై PalM బాగా పని చేస్తుంది.
2. రీజనింగ్
PalM మోడల్ పరిమాణాన్ని చైన్-ఆఫ్-థాట్తో మిళితం చేస్తుంది, మల్టీస్టెప్ అరిథ్మెటిక్ లేదా కామన్సెన్స్ రీజనింగ్ అవసరమయ్యే తార్కిక సవాళ్లపై పురోగతి నైపుణ్యాలను ప్రదర్శించడానికి ప్రాంప్ట్ చేస్తుంది.
గోఫర్ వంటి మునుపటి LLMలు పనితీరును మెరుగుపరిచే పరంగా మోడల్ పరిమాణం నుండి తక్కువ ప్రయోజనం పొందాయి. చైన్-ఆఫ్-థాట్ ప్రాంప్టింగ్తో కూడిన PalM 540B మూడు అంకగణితం మరియు రెండు కామన్సెన్స్ థింకింగ్ డేటాసెట్లపై బాగా పనిచేసింది.
GPT-55 3B మోడల్ను 175 సమస్యలతో కూడిన శిక్షణా సెట్తో చక్కగా ట్యూన్ చేయడం ద్వారా మరియు దానిని GSM7500Kలోని 58 శాతం సమస్యలను పరిష్కరించడానికి బాహ్య కాలిక్యులేటర్ మరియు వెరిఫైయర్తో కలపడం ద్వారా పొందబడిన మునుపటి అత్యుత్తమ స్కోర్ 8%ని PalM అధిగమించింది. 8-షాట్ ప్రాంప్టింగ్ని ఉపయోగించి వేలాది కష్టతరమైన పాఠశాల స్థాయి గణిత ప్రశ్నల బెంచ్మార్క్.
ఇది 60-9 సంవత్సరాల వయస్సు గలవారు ఎదుర్కొనే అడ్డంకుల సగటు 12%కి చేరువైనందున ఈ కొత్త స్కోర్ ప్రత్యేకంగా గుర్తించదగినది. ఇది ఇంటర్నెట్లో అందుబాటులో లేని అసలైన జోక్లకు కూడా ప్రతిస్పందించగలదు.
3. కోడ్ జనరేషన్
సహజ భాషా వివరణ (టెక్స్ట్-టు-కోడ్) నుండి కోడ్ను రూపొందించడం, భాషల మధ్య కోడ్ను అనువదించడం మరియు సంకలన లోపాలను పరిష్కరించడం వంటి కోడింగ్ పనులలో కూడా LLMలు బాగా పనిచేశాయని చూపబడింది. ప్రీ-ట్రైనింగ్ డేటాసెట్లో 5% కోడ్ మాత్రమే ఉన్నప్పటికీ, ఒకే మోడల్లో కోడింగ్ మరియు నేచురల్ లాంగ్వేజ్ టాస్క్లు రెండింటిలోనూ PalM 540B బాగా పనిచేస్తుంది.
12 రెట్లు తక్కువ పైథాన్ కోడ్తో శిక్షణ పొందుతున్నప్పుడు ఇది ఫైన్-ట్యూన్ చేయబడిన కోడెక్స్ 50Bతో సరిపోలడంతో దాని కొన్ని-షాట్ పనితీరు అద్భుతమైనది. పెద్ద మోడల్లు చిన్న మోడల్ల కంటే ఎక్కువ శాంపిల్ ఎఫెక్టివ్గా ఉండగలవని ముందస్తు పరిశోధనలతో ఈ అన్వేషణ వెనుకకు వచ్చింది ఎందుకంటే అవి బహుళ నుండి నేర్చుకోవడాన్ని మరింత ప్రభావవంతంగా బదిలీ చేయగలవు. ప్రోగ్రామింగ్ భాషలు మరియు సాదా భాష డేటా.
ముగింపు
దట్టమైన డీకోడర్-మాత్రమే ట్రాన్స్ఫార్మర్ మోడల్తో బాగా అధ్యయనం చేయబడిన, బాగా స్థిరపడిన రెసిపీతో 4-బిలియన్ పారామీటర్ మోడల్ను సమర్థవంతంగా శిక్షణ ఇవ్వడం ద్వారా రెండు TPU v540 పాడ్ల మీదుగా వేలాది యాక్సిలరేటర్ ప్రాసెసర్లకు స్కేల్ చేయగల పాత్వేస్ సిస్టమ్ సామర్థ్యాన్ని PalM చూపిస్తుంది.
ఇది మోడల్ స్కేల్ యొక్క హద్దులను నెట్టడం ద్వారా సహజ భాషా ప్రాసెసింగ్, రీజనింగ్ మరియు కోడింగ్ సవాళ్ల పరిధిలో కొన్ని-షాట్ పనితీరును సాధించింది.
సమాధానం ఇవ్వూ