მსხვილმა ნერვულმა ქსელებმა, რომლებიც გაწვრთნილი იყო ენის ამოცნობისა და გენერირებისთვის, ბოლო წლებში აჩვენეს შესანიშნავი შედეგები სხვადასხვა ამოცანებში. GPT-3-მა დაამტკიცა, რომ დიდი ენობრივი მოდელები (LLMs) შეიძლება გამოყენებულ იქნას რამდენიმე დარტყმის სწავლისთვის და შესანიშნავი შედეგების მიღება, ამოცანების სპეციფიკური მონაცემების ან მოდელის პარამეტრების შეცვლის საჭიროების გარეშე.
Google-მა, სილიკონის ველის ტექნოლოგიურმა ბეჰემოთმა, გააცნო PaLM, ანუ Pathways Language Model, მსოფლიო ტექნოლოგიურ ინდუსტრიას, როგორც AI-ენის შემდეგი თაობის მოდელს. Google-მა ჩართო ახალი ხელოვნური ინტელექტი არქიტექტურა შევიდა PaLM სტრატეგიული მიზნებით, გააუმჯობესოს AI-ენოვანი მოდელის ხარისხი.
ამ პოსტში ჩვენ დეტალურად განვიხილავთ Palm-ის ალგორითმს, მათ შორის პარამეტრებს, რომლებიც გამოიყენება მისი ვარჯიშისთვის, მისი გადაჭრის პრობლემაზე და სხვა მრავალი.
რა არის Google-ის PaLM ალგორითმი?
Pathways ენის მოდელი არის რა პალმ დგას. ეს არის Google-ის მიერ შემუშავებული ახალი ალგორითმი Pathways AI არქიტექტურის გასაძლიერებლად. სტრუქტურის მთავარი მიზანია ერთდროულად გააკეთოს მილიონი განსხვავებული აქტივობა.
ეს მოიცავს ყველაფერს, რთული მონაცემების გაშიფვრიდან დედუქციურ მსჯელობამდე. PaLM–ს აქვს უნარი გადააჭარბოს თანამედროვე ხელოვნური ინტელექტის უნარს, ისევე როგორც ადამიანებს ენისა და მსჯელობის ამოცანებში.
ეს მოიცავს Few-Shot Learning-ს, რომელიც ასახავს იმას, თუ როგორ სწავლობენ ადამიანები ახალ ნივთებს და აერთიანებს ცოდნის მრავალფეროვნებას ახალი გამოწვევების დასაძლევად, რომლებიც აქამდე არასდროს უნახავთ. ამ უნარის ერთ-ერთი მაგალითი PaLM-ში არის მისი უნარი ახსნას ხუმრობა, რომელიც აქამდე არასდროს მსმენია.
PaLM-მა აჩვენა მრავალი გარღვევის უნარი სხვადასხვა რთულ ამოცანებში, მათ შორის ენის გაგება და შექმნა, მრავალსაფეხურიანი არითმეტიკული კოდთან დაკავშირებული აქტივობები, საღი აზრის მსჯელობა, თარგმანი და მრავალი სხვა.
მან აჩვენა თავისი უნარი გადაჭრას რთული საკითხები მრავალენოვანი NLP კომპლექტების გამოყენებით. PaLM შეიძლება გამოიყენოს მსოფლიო ტექნიკურმა ბაზარმა, რათა განასხვავოს მიზეზი და შედეგი, კონცეპტუალური კომბინაციები, განსხვავებული თამაშები და მრავალი სხვა რამ.
მას ასევე შეუძლია მრავალი კონტექსტის სიღრმისეული ახსნა-განმარტების გენერირება მრავალსაფეხურიანი ლოგიკური დასკვნის, ღრმა ენის, გლობალური ცოდნისა და სხვა ტექნიკის გამოყენებით.
როგორ შეიმუშავა Google-მა PaLM ალგორითმი?
Google-ის გარღვევის შესრულებისთვის PaLM-ში დაგეგმილია ბილიკები 540 მილიარდ პარამეტრამდე მასშტაბით. იგი აღიარებულია, როგორც ერთ-ერთი მოდელი, რომელსაც შეუძლია ეფექტურად და ეფექტურად განზოგადეს მრავალ დომენში. Google-ის Pathways ეძღვნება ამაჩქარებლების განაწილებული გამოთვლების განვითარებას.
PaLM არის მხოლოდ დეკოდერი ტრანსფორმატორის მოდელი, რომელიც გაწვრთნილი იყო Pathways სისტემის გამოყენებით. Google-ის თანახმად, PaLM-მა წარმატებით მიაღწია უახლესი ეფექტურობის რამდენიმე დარტყმას რამდენიმე დატვირთვის დროს. PaLM-მა გამოიყენა Pathways სისტემა ტრენინგის გასაფართოებლად TPU-ზე დაფუძნებული სისტემის ყველაზე დიდ კონფიგურაციამდე, რომელიც პირველად ცნობილია როგორც 6144 ჩიპი.
AI-ენოვანი მოდელის სასწავლო მონაცემთა ნაკრები შედგება ინგლისური და სხვა მრავალენოვანი მონაცემთა ნაკრების ნაზავისაგან. „დაკარგული“ ლექსიკით, ის შეიცავს მაღალი ხარისხის ვებ შინაარსს, დისკუსიებს, წიგნებს, GitHub კოდს, ვიკიპედიას და ბევრ სხვას. Lossless ლექსიკა აღიარებულია ცარიელი სივრცის შესანარჩუნებლად და უნიკოდის სიმბოლოების დაყოფისთვის, რომლებიც არ არის ლექსიკაში ბაიტებად.
PaLM შემუშავებულია Google-ისა და Pathways-ის მიერ, სტანდარტული ტრანსფორმატორის მოდელის არქიტექტურისა და დეკოდერის კონფიგურაციის გამოყენებით, რომელიც მოიცავდა SwiGLU აქტივაციას, პარალელურ შრეებს, RoPE ჩაშენებებს, საერთო შეყვანა-გამომავალი ჩაშენებებს, მრავალ შეკითხვის ყურადღებას და მიკერძოების ან ლექსიკის გარეშე. მეორეს მხრივ, PaLM მზად არის უზრუნველყოს მყარი საფუძველი Google-ისა და Pathways-ის AI-ენოვანი მოდელისთვის.
პარამეტრები, რომლებიც გამოიყენება PaLM-ის მოსამზადებლად
შარშან Google-მა გამოუშვა Pathways, ერთი მოდელი, რომელიც შეიძლება გაწვრთნას ათასობით, თუ არა მილიონობით საქმის გასაკეთებლად, რომელსაც უწოდეს "შემდეგი თაობის ხელოვნური ინტელექტის არქიტექტურა", რადგან მას შეუძლია გადალახოს არსებული მოდელების შეზღუდვები მხოლოდ ერთი საქმისთვის. . ამჟამინდელი მოდელების შესაძლებლობების გაფართოების ნაცვლად, ახალი მოდელები ხშირად შენდება ქვემოდან ზევით ერთი სამუშაოს შესასრულებლად.
შედეგად, მათ შექმნეს ათიათასობით მოდელი ათიათასობით სხვადასხვა საქმიანობისთვის. ეს არის შრომატევადი და რესურსების ინტენსიური ამოცანა.
Google-მა Pathways-ის საშუალებით დაამტკიცა, რომ ერთ მოდელს შეუძლია გაუმკლავდეს მრავალფეროვან აქტივობას და გამოიყენოს და დააკავშიროს მიმდინარე ნიჭი, რათა უფრო სწრაფად და ეფექტურად ისწავლოს ახალი ამოცანები.
მულტიმოდალური მოდელები, რომლებიც მოიცავს ხედვას, ენობრივ გაგებას და აუდიტორულ დამუშავებას ერთდროულად, შესაძლოა ჩართული იყოს გზების მეშვეობით. Pathways Language Model (PaLM) 4 მილიარდი პარამეტრიანი მოდელის წყალობით საშუალებას იძლევა ერთი მოდელის სწავლება მრავალრიცხოვან TPU v540 Pods-ში.
PaLM, მკვრივი ტრანსფორმატორის მოდელი, რომელიც მხოლოდ დეკოდერს იყენებს, აჯობებს უახლესი ტექნოლოგიის შესრულებას რამდენიმე დარტყმით სამუშაო დატვირთვის ფართო სპექტრში. PaLM სწავლობს ორ TPU v4 Pods-ზე, რომლებიც დაკავშირებულია მონაცემთა ცენტრის ქსელის (DCN) მეშვეობით.
ის იყენებს როგორც მოდელის, ასევე მონაცემთა პარალელიზმს. მკვლევარებმა გამოიყენეს 3072 TPU v4 პროცესორი თითოეულ Pod-ში PaLM-ისთვის, რომლებიც დაკავშირებული იყო 768 ჰოსტთან. მკვლევარების აზრით, ეს არის ყველაზე დიდი TPU კონფიგურაცია, რომელიც ჯერ კიდევ გამჟღავნებულია, რაც მათ საშუალებას აძლევს გააფართოვონ ტრენინგი მილსადენის პარალელურობის გამოყენების გარეშე.
მილების უგულებელყოფა არის ინსტრუქციების შეგროვების პროცესი CPU-დან ზოგადად მილსადენის მეშვეობით. მოდელის ფენები იყოფა ფაზებად, რომლებიც შეიძლება დამუშავდეს პარალელურად მილსადენის მოდელის პარალელიზმით (ან მილსადენის პარალელიზმით).
გააქტიურების მეხსიერება იგზავნება შემდეგ საფეხურზე, როდესაც ერთი ეტაპი დაასრულებს წინ გადასასვლელს მიკრო პარტიისთვის. შემდეგ გრადიენტები იგზავნება უკან, როდესაც შემდეგი ეტაპი დაასრულებს მის უკან გავრცელებას.
PaLM გარღვევის შესაძლებლობები
PaLM აჩვენებს ინოვაციური შესაძლებლობების მთელ რიგ რთულ ამოცანებს. აქ არის რამდენიმე მაგალითი:
1. ენის შექმნა და გაგება
PaLM გამოცდას ჩაუტარდა ინგლისურ ენაზე 29 სხვადასხვა NLP დავალებაზე.
რამდენიმე დარტყმის საფუძველზე, PaLM 540B აჯობა წინა დიდ მოდელებს, როგორიცაა GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla და LaMDA 28 ამოცანიდან 29-ში, მათ შორის ღია დომენის დახურული წიგნის ვარიანტის კითხვა-პასუხის ამოცანები. , დახურვა და წინადადების დასრულების ამოცანები, ვინოგრადის სტილის ამოცანები, კონტექსტში წაკითხულის გაგების ამოცანები, საღი აზრის მსჯელობის ამოცანები, SuperGLUE ამოცანები და ბუნებრივი დასკვნა.
რამდენიმე BIG სკამზე დავალებაზე, PaLM აჩვენებს შესანიშნავი ბუნებრივი ენის ინტერპრეტაციას და გენერირების უნარებს. მაგალითად, მოდელს შეუძლია განასხვავოს მიზეზი და შედეგი, გაიგოს კონცეპტუალური კომბინაციები გარკვეულ სიტუაციებში და გამოიცნოს ფილმი emoji-დან. მიუხედავად იმისა, რომ სასწავლო კორპუსის მხოლოდ 22% არის არაინგლისური, PaLM კარგად ასრულებს მრავალენოვან NLP სტანდარტებს, მათ შორის თარგმანს, გარდა ინგლისური NLP ამოცანებისა.
2. მსჯელობა
PaLM აერთიანებს მოდელის ზომას აზროვნების ჯაჭვთან, რაც იწვევს მსჯელობის გამოწვევებზე გარღვევის უნარების დემონსტრირებას, რომლებიც მოითხოვს მრავალსაფეხურიანი არითმეტიკული ან საღი აზრის მსჯელობას.
წინა LLM-ები, როგორიცაა Gopher, ნაკლებად ისარგებლეს მოდელის ზომით შესრულების გაზრდის თვალსაზრისით. PaLM 540B ჯაჭვური აზრების მოთხოვნით კარგად მუშაობდა სამი არითმეტიკული და ორი საღი აზროვნების მონაცემთა ნაკრების მიხედვით.
PaLM აღემატება წინა საუკეთესო ქულას 55%, რომელიც მიღებულ იქნა GPT-3 175B მოდელის დაზუსტებით 7500 ამოცანის სავარჯიშო ნაკრებით და მისი კომბინაციით გარე კალკულატორთან და ვერიფიკატორთან GSM58K-ის პრობლემების 8 პროცენტის გადასაჭრელად. ათასობით რთული კლასის სკოლის დონის მათემატიკური კითხვების საორიენტაციო მაჩვენებელი 8-კადრის მოთხოვნის გამოყენებით.
ეს ახალი ქულა განსაკუთრებით საყურადღებოა, რადგან ის უახლოვდება 60-9 წლის მოზარდების წინაშე არსებული დაბრკოლებების საშუალო 12%-ს. მას ასევე შეუძლია უპასუხოს ორიგინალურ ხუმრობებს, რომლებიც ინტერნეტში არ არის ხელმისაწვდომი.
3. კოდების გენერაცია
ასევე ნაჩვენებია, რომ LLM-ები კარგად ასრულებენ კოდირების ამოცანებს, მათ შორის კოდის გენერირებას ბუნებრივი ენის აღწერილობიდან (ტექსტი-კოდში), კოდის თარგმნა ენებს შორის და გადაჭრის შეცდომები. მიუხედავად იმისა, რომ აქვს მხოლოდ 5% კოდი წინასავარჯიშო მონაცემთა ბაზაში, PaLM 540B კარგად ასრულებს როგორც კოდირების, ასევე ბუნებრივი ენის ამოცანებს ერთ მოდელში.
მისი რამდენიმე დარტყმის შესრულება წარმოუდგენელია, რადგან ის ემთხვევა კარგად მორგებულ Codex 12B-ს 50-ჯერ ნაკლები პითონის კოდით ვარჯიშის დროს. ეს აღმოჩენა ადასტურებს წინა აღმოჩენებს, რომ უფრო დიდი მოდელები შეიძლება იყოს უფრო ეფექტური ვიდრე პატარა მოდელები, რადგან მათ შეუძლიათ უფრო ეფექტურად გადაიტანონ სწავლა მრავალიდან. პროგრამირების ენები და მარტივი ენის მონაცემები.
დასკვნა
PaLM გვიჩვენებს Pathways სისტემის შესაძლებლობას გაზარდოს ათასობით ამაჩქარებლის პროცესორამდე ორი TPU v4 Pods-ით 540 მილიარდი პარამეტრიანი მოდელის ეფექტურად მომზადებით, კარგად შესწავლილი, კარგად დამკვიდრებული რეცეპტით მკვრივი დეკოდერის მხოლოდ ტრანსფორმატორის მოდელით.
ის აღწევს გარღვევას რამდენიმე დარტყმის შესრულებას ბუნებრივი ენის დამუშავების, მსჯელობისა და კოდირების გამოწვევებში, მოდელის მასშტაბის საზღვრების გადალახვით.
დატოვე პასუხი