Pembelajaran Pengukuhan: AI Yang Belajar Daripada Kesilapannya

Jadual Kandungan[Sembunyi][Tunjukkan]

Apakah pembelajaran pengukuhan?
Contoh Mudah: Grid 4×4+-
- Polisi dan Ganjaran
- Penerokaan vs Eksploitasi
Aplikasi praktikal+-
Kesimpulan

Cuba bayangkan anda cuba mengajar robot cara berjalan. Tidak seperti mengajar komputer cara meramal harga saham atau mengkategorikan imej, kami sebenarnya tidak mempunyai set data besar yang boleh kami gunakan untuk melatih robot kami.

Walaupun ia mungkin datang secara semula jadi kepada anda, berjalan sebenarnya adalah satu tindakan yang sangat kompleks. Berjalan satu langkah biasanya melibatkan berpuluh-puluh otot yang berbeza bekerja bersama. Usaha dan teknik yang digunakan untuk berjalan dari satu tempat ke tempat lain juga bergantung kepada pelbagai faktor, termasuk sama ada anda membawa sesuatu atau sama ada terdapat condong atau halangan lain.

Dalam senario seperti ini, kita boleh menggunakan kaedah yang dikenali sebagai pembelajaran pengukuhan atau RL. Dengan RL, anda boleh menentukan matlamat khusus yang anda mahu model anda selesaikan dan secara beransur-ansur membiarkan model belajar sendiri cara mencapainya.

Dalam artikel ini, kami akan meneroka asas pembelajaran pengukuhan dan cara kami boleh menggunakan rangka kerja RL untuk pelbagai masalah berbeza dalam dunia sebenar.

Apakah pembelajaran pengukuhan?

Pembelajaran pengukuhan merujuk kepada subset tertentu daripada pembelajaran mesin yang memberi tumpuan kepada mencari penyelesaian dengan memberi ganjaran kepada tingkah laku yang diingini dan menghukum tingkah laku yang tidak diingini.

gambar rajah kerangka pembelajaran pengukuhan

Tidak seperti pembelajaran diselia, kaedah pembelajaran pengukuhan biasanya tidak mempunyai set data latihan yang menyediakan output yang betul untuk input yang diberikan. Sekiranya tiada data latihan, algoritma mesti mencari penyelesaian melalui percubaan dan kesilapan. Algoritma, yang biasanya kita rujuk sebagai ejen, mesti mencari penyelesaian dengan sendirinya dengan berinteraksi dengan persekitaran.

Penyelidik membuat keputusan mengenai hasil tertentu ganjaran dan apa yang algoritma mampu lakukan. Setiap tindakan algoritma yang diambil akan menerima beberapa bentuk maklum balas yang menjaringkan prestasi algoritma. Semasa proses latihan, algoritma akhirnya akan mencari penyelesaian yang optimum untuk menyelesaikan masalah tertentu.

Contoh Mudah: Grid 4×4

Mari kita lihat contoh mudah masalah yang boleh kita selesaikan dengan pembelajaran pengukuhan.

Katakan kita mempunyai grid 4×4 sebagai persekitaran kita. Ejen kami diletakkan secara rawak di salah satu petak bersama-sama dengan beberapa halangan. Grid hendaklah mengandungi tiga halangan "pit" yang mesti dielakkan dan satu ganjaran "berlian" yang mesti dicari oleh ejen. Penerangan lengkap tentang alam sekitar kita dikenali sebagai alam sekitar adalah.

pembelajaran pengukuhan bergantung kepada agen yang berinteraksi dengan persekitaran simulasi

Dalam model RL kami, ejen kami boleh berpindah ke mana-mana petak bersebelahan asalkan tiada halangan yang menghalangnya. Set semua tindakan yang sah dalam persekitaran tertentu dikenali sebagai ruang tindakan. Matlamat ejen kami adalah untuk mencari jalan terpendek ke ganjaran.

ejen mempunyai ruang tindakan atau set tindakan yang sah dalam keadaan tertentu

Ejen kami akan menggunakan kaedah pembelajaran pengukuhan untuk mencari laluan ke berlian yang memerlukan paling sedikit langkah. Setiap langkah yang betul akan memberi robot ganjaran dan setiap langkah yang salah akan menolak ganjaran robot. Model mengira jumlah ganjaran sebaik sahaja ejen mencapai berlian.

Memandangkan kita telah menentukan ejen dan persekitaran, kita juga mesti menentukan peraturan untuk digunakan untuk menentukan tindakan seterusnya yang akan diambil oleh ejen memandangkan keadaan semasa dan persekitarannya.

Polisi dan Ganjaran

Dalam model pembelajaran pengukuhan, a dasar merujuk kepada strategi yang digunakan oleh ejen untuk mencapai matlamat mereka. Polisi ejen adalah yang menentukan apa yang ejen perlu lakukan seterusnya berdasarkan keadaan semasa ejen dan persekitarannya.

Ejen mesti menilai semua polisi yang mungkin untuk melihat polisi mana yang optimum.

menilai dasar

Dalam contoh mudah kami, mendarat di ruang kosong akan mengembalikan nilai -1. Apabila ejen mendarat di ruang dengan ganjaran berlian, mereka akan menerima nilai 10. Dengan menggunakan nilai ini, kita boleh membandingkan polisi yang berbeza menggunakan fungsi utiliti U.

Mari kita bandingkan utiliti kedua-dua dasar yang dilihat di atas:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Keputusan menunjukkan bahawa Dasar A adalah jalan yang lebih baik untuk mencari ganjaran. Oleh itu, ejen akan menggunakan Laluan A berbanding Polisi B.

Penerokaan vs Eksploitasi

Masalah tukar ganti penerokaan vs eksploitasi dalam pembelajaran pengukuhan adalah dilema yang mesti dihadapi oleh ejen semasa proses keputusan.

Patutkah ejen menumpukan pada penerokaan laluan atau pilihan baharu atau patutkah mereka terus mengeksploitasi pilihan yang sudah mereka ketahui?

Jika ejen memilih untuk meneroka, terdapat kemungkinan untuk ejen mencari pilihan yang lebih baik, tetapi ia juga mungkin berisiko membuang masa dan sumber. Sebaliknya, jika ejen memilih untuk mengeksploitasi penyelesaian yang sudah diketahuinya, ia mungkin kehilangan pilihan yang lebih baik.

Aplikasi praktikal

Berikut adalah beberapa cara penyelidik AI telah menggunakan model pembelajaran pengukuhan untuk menyelesaikan masalah dunia sebenar:

Pembelajaran Pengukuhan dalam Kereta Pandu Sendiri

Pembelajaran pengukuhan telah diterapkan pada kereta pandu sendiri untuk meningkatkan keupayaan mereka untuk memandu dengan selamat dan cekap. Teknologi ini membolehkan kereta autonomi belajar daripada kesilapan mereka dan terus melaraskan tingkah laku mereka untuk mengoptimumkan prestasi mereka.

pembelajaran pengukuhan yang digunakan untuk memandu sendiri

Contohnya, syarikat AI yang berpangkalan di London Wayve telah berjaya menggunakan model pembelajaran pengukuhan mendalam untuk pemanduan autonomi. Dalam percubaan mereka, mereka menggunakan fungsi ganjaran yang memaksimumkan jumlah masa kenderaan berjalan tanpa pemandu di atas kapal memberikan input.

Model RL juga membantu kereta membuat keputusan berdasarkan persekitaran, seperti mengelakkan halangan atau bergabung dengan trafik. Model ini mesti mencari cara untuk menukar persekitaran kompleks yang mengelilingi kereta menjadi ruang keadaan perwakilan yang boleh difahami oleh model.

Pembelajaran Pengukuhan dalam Robotik

Penyelidik juga telah menggunakan pembelajaran pengukuhan untuk membangunkan robot yang boleh mempelajari tugas yang kompleks. Melalui model RL ini, robot dapat memerhati persekitaran mereka dan membuat keputusan berdasarkan pemerhatian mereka.

Sebagai contoh, penyelidikan telah dibuat tentang menggunakan model pembelajaran pengukuhan untuk membolehkan robot bipedal belajar bagaimana berjalan sendiri.

pembelajaran pengukuhan mengajar robot berjalan

Penyelidik menganggap RL sebagai kaedah utama dalam bidang robotik. Pembelajaran pengukuhan memberikan ejen robot satu rangka kerja untuk mempelajari tindakan canggih yang mungkin sukar untuk direkayasa.

Pembelajaran Pengukuhan dalam Permainan

Model RL juga telah digunakan untuk mempelajari cara bermain permainan video. Ejen boleh disediakan untuk belajar daripada kesilapan mereka dan terus meningkatkan prestasi mereka dalam permainan.

Penyelidik telah membangunkan ejen yang boleh bermain permainan seperti catur, Go, dan poker. Pada tahun 2013, Deepmind menggunakan Pembelajaran Pengukuhan Dalam untuk membolehkan model belajar cara bermain permainan Atari dari awal.

Banyak permainan papan dan permainan video mempunyai ruang aksi yang terhad dan matlamat konkrit yang jelas. Ciri-ciri ini berfungsi untuk kelebihan model RL. Kaedah RL boleh mengulangi berjuta-juta permainan simulasi dengan cepat untuk mempelajari strategi optimum untuk mencapai kemenangan.

Kesimpulan

Sama ada ia belajar cara berjalan atau belajar cara bermain permainan video, model RL telah terbukti sebagai rangka kerja AI yang berguna untuk menyelesaikan masalah yang memerlukan pembuatan keputusan yang rumit.

Memandangkan teknologi terus berkembang, kedua-dua penyelidik dan pembangun akan terus mencari aplikasi baharu yang memanfaatkan keupayaan pengajaran kendiri model tersebut.

Apakah aplikasi praktikal yang anda fikir pembelajaran pengukuhan boleh membantu?

Pembelajaran Pengukuhan: AI Yang Belajar Daripada Kesilapannya

Apakah pembelajaran pengukuhan?