Pembelajaran Penguatan: AI Yang Belajar Dari Kesalahannya

Daftar Isi[Bersembunyi][Menunjukkan]

Apa itu pembelajaran penguatan?
Contoh Sederhana: Kotak 4×4+-
- Kebijakan dan Penghargaan
- Eksplorasi vs Eksploitasi
Aplikasi Praktis+-
Kesimpulan

Bayangkan Anda mencoba mengajari robot cara berjalan. Tidak seperti mengajari komputer cara memprediksi harga saham atau mengkategorikan gambar, kami tidak benar-benar memiliki kumpulan data besar yang dapat kami gunakan untuk melatih robot kami.

Meskipun mungkin alami bagi Anda, berjalan sebenarnya adalah tindakan yang sangat kompleks. Berjalan satu langkah biasanya melibatkan lusinan otot berbeda yang bekerja bersama. Upaya dan teknik yang digunakan untuk berjalan dari satu tempat ke tempat lain juga bergantung pada berbagai faktor, termasuk apakah Anda membawa sesuatu atau apakah ada tanjakan atau bentuk rintangan lainnya.

Dalam skenario seperti ini, kita bisa menggunakan metode yang dikenal sebagai pembelajaran penguatan atau RL. Dengan RL, Anda dapat menentukan tujuan spesifik yang ingin diselesaikan oleh model Anda dan secara bertahap membiarkan model belajar sendiri cara mencapainya.

Pada artikel ini, kita akan menjelajahi dasar-dasar pembelajaran penguatan dan bagaimana kita dapat menerapkan kerangka RL ke berbagai masalah berbeda di dunia nyata.

Apa itu pembelajaran penguatan?

Penguatan pembelajaran mengacu pada subset tertentu dari Mesin belajar yang berfokus pada menemukan solusi dengan menghargai perilaku yang diinginkan dan menghukum perilaku yang tidak diinginkan.

diagram kerangka pembelajaran penguatan

Tidak seperti pembelajaran terawasi, metode pembelajaran penguatan biasanya tidak memiliki kumpulan data pelatihan yang memberikan keluaran yang tepat untuk masukan yang diberikan. Dengan tidak adanya data pelatihan, algoritme harus menemukan solusi melalui trial and error. Algoritma, yang biasanya kita sebut sebagai agen, harus menemukan solusinya sendiri dengan berinteraksi dengan lingkungan Hidup.

Peneliti memutuskan hasil tertentu untuk apa menghargai dan apa yang mampu dilakukan oleh algoritma. Setiap tindakan yang diambil algoritme akan menerima beberapa bentuk umpan balik yang menilai seberapa baik kinerja algoritme. Selama proses pelatihan, algoritme pada akhirnya akan menemukan solusi optimal untuk memecahkan masalah tertentu.

Contoh Sederhana: Kotak 4×4

Mari kita lihat contoh sederhana dari masalah yang bisa kita selesaikan dengan pembelajaran penguatan.

Misalkan kita memiliki kisi 4x4 sebagai lingkungan kita. Agen kami ditempatkan secara acak di salah satu kotak bersama dengan beberapa rintangan. Grid harus berisi tiga rintangan "lubang" yang harus dihindari dan satu hadiah "berlian" yang harus ditemukan oleh agen. Deskripsi lengkap tentang lingkungan kita dikenal sebagai lingkungan negara.

pembelajaran penguatan bergantung pada agen yang berinteraksi dengan lingkungan simulasi

Dalam model RL kami, agen kami dapat pindah ke kotak yang berdekatan selama tidak ada penghalang yang menghalangi mereka. Himpunan semua tindakan yang valid dalam lingkungan tertentu dikenal sebagai ruang aksi. Tujuan agen kami adalah menemukan jalur terpendek menuju hadiah.

agen memiliki ruang tindakan atau kumpulan tindakan yang valid dalam keadaan tertentu

Agen kami akan menggunakan metode pembelajaran penguatan untuk menemukan jalan menuju berlian yang membutuhkan langkah paling sedikit. Setiap langkah yang benar akan memberi robot hadiah dan setiap langkah yang salah akan mengurangi hadiah robot. Model menghitung total hadiah setelah agen mencapai berlian.

Sekarang setelah kita mendefinisikan agen dan lingkungan, kita juga harus menentukan aturan yang akan digunakan untuk menentukan tindakan selanjutnya yang akan diambil agen dengan kondisi dan lingkungan saat ini.

Kebijakan dan Penghargaan

Dalam model pembelajaran penguatan, a kebijaksanaan mengacu pada strategi yang digunakan oleh agen untuk mencapai tujuan mereka. Kebijakan agen adalah apa yang memutuskan apa yang harus dilakukan agen selanjutnya mengingat keadaan agen saat ini dan lingkungannya.

Agen harus mengevaluasi semua kemungkinan kebijakan untuk melihat kebijakan mana yang optimal.

mengevaluasi kebijakan

Dalam contoh sederhana kami, mendarat di ruang kosong akan mengembalikan nilai -1. Saat agen mendarat di ruang dengan hadiah berlian, mereka akan menerima nilai 10. Dengan menggunakan nilai ini, kita dapat membandingkan berbagai kebijakan menggunakan a fungsi utilitas U.

Sekarang mari kita bandingkan kegunaan dari dua kebijakan yang terlihat di atas:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Hasilnya menunjukkan bahwa Kebijakan A adalah jalan yang lebih baik untuk mendapatkan imbalan. Dengan demikian, agen akan menggunakan Jalur A di atas Kebijakan B.

Eksplorasi vs Eksploitasi

Masalah trade-off eksplorasi vs eksploitasi dalam pembelajaran penguatan adalah dilema yang harus dihadapi agen selama proses pengambilan keputusan.

Haruskah agen fokus mengeksplorasi jalur atau opsi baru atau haruskah mereka terus mengeksploitasi opsi yang sudah mereka ketahui?

Jika agen memilih untuk mengeksplorasi, ada kemungkinan agen menemukan opsi yang lebih baik, tetapi juga berisiko membuang-buang waktu dan sumber daya. Di sisi lain, jika agen memilih untuk mengeksploitasi solusi yang sudah diketahuinya, agen tersebut mungkin kehilangan opsi yang lebih baik.

Aplikasi Praktis

Berikut adalah beberapa cara Peneliti AI telah menerapkan model pembelajaran penguatan untuk memecahkan masalah dunia nyata:

Pembelajaran Penguatan dalam Mobil Mengemudi Sendiri

Pembelajaran penguatan telah diterapkan pada mobil self-driving untuk meningkatkan kemampuan mereka mengemudi dengan aman dan efisien. Teknologi tersebut memungkinkan mobil otonom untuk belajar dari kesalahan mereka dan terus menyesuaikan perilakunya untuk mengoptimalkan kinerjanya.

pembelajaran penguatan digunakan untuk mengemudi sendiri

Misalnya, perusahaan AI yang berbasis di London jalan telah berhasil menerapkan model pembelajaran penguatan mendalam untuk mengemudi secara otonom. Dalam percobaan mereka, mereka menggunakan fungsi hadiah yang memaksimalkan jumlah waktu kendaraan berjalan tanpa input dari pengemudi.

Model RL juga membantu mobil membuat keputusan berdasarkan lingkungan, seperti menghindari rintangan atau bergabung dengan lalu lintas. Model ini harus menemukan cara untuk mengubah lingkungan kompleks yang mengelilingi mobil menjadi ruang keadaan yang representatif yang dapat dipahami oleh model tersebut.

Pembelajaran Penguatan dalam Robotika

Para peneliti juga telah menggunakan pembelajaran penguatan untuk mengembangkan robot yang dapat mempelajari tugas-tugas kompleks. Melalui model RL ini, robot dapat mengamati lingkungannya dan membuat keputusan berdasarkan pengamatannya.

Misalnya, penelitian telah dilakukan tentang penggunaan model pembelajaran penguatan untuk memungkinkan robot bipedal mempelajari caranya berjalan sendiri.

pembelajaran penguatan mengajar robot untuk berjalan

Peneliti menganggap RL sebagai metode kunci di bidang robotika. Pembelajaran penguatan memberi agen robot kerangka kerja untuk mempelajari tindakan canggih yang mungkin sulit untuk direkayasa.

Pembelajaran Penguatan dalam Permainan

Model RL juga telah digunakan untuk mempelajari cara bermain video game. Agen dapat diatur untuk belajar dari kesalahan mereka dan terus meningkatkan performa mereka dalam permainan.

Peneliti telah mengembangkan agen yang dapat memainkan permainan seperti catur, Go, dan poker. Pada tahun 2013, DeepMind menggunakan Deep Reinforcement Learning untuk memungkinkan model mempelajari cara memainkan game Atari dari awal.

Banyak permainan papan dan permainan video memiliki ruang aksi terbatas dan tujuan konkret yang jelas. Ciri-ciri ini menguntungkan model RL. Metode RL dapat dengan cepat mengulangi jutaan game simulasi untuk mempelajari strategi optimal untuk mencapai kemenangan.

Kesimpulan

Baik itu belajar berjalan atau belajar bermain video game, model RL telah terbukti menjadi kerangka kerja AI yang berguna untuk memecahkan masalah yang membutuhkan pengambilan keputusan yang kompleks.

Seiring dengan perkembangan teknologi, baik peneliti maupun pengembang akan terus menemukan aplikasi baru yang memanfaatkan kemampuan otodidak model tersebut.

Aplikasi praktis apa yang menurut Anda dapat membantu pembelajaran penguatan?

Pembelajaran Penguatan: AI Yang Belajar Dari Kesalahannya

Apa itu pembelajaran penguatan?