Sinau Penguatan: AI Sing Sinau Saka Kesalahane

Bab lan Paragraf[Singidaken][Tampilake]

Apa sing diarani reinforcement learning?
Conto prasaja: 4 × 4 Grid+-
- Kawicaksanan lan Ganjaran
- Eksplorasi vs Eksploitasi
Aplikasi Praktis+-
kesimpulan

Coba bayangake sampeyan nyoba ngajar robot mlaku. Ora kaya ngajar komputer babagan prediksi rega saham utawa nggolongake gambar, kita ora duwe set data gedhe sing bisa digunakake kanggo nglatih robot.

Sanadyan bisa teka kanthi alami kanggo sampeyan, mlaku-mlaku minangka tumindak sing rumit banget. Mlaku-mlaku siji langkah biasane nglibatake puluhan otot sing beda-beda sing kerja bareng. Usaha lan teknik sing digunakake kanggo mlaku saka sak panggonan menyang panggonan liyane uga gumantung ing macem-macem faktor, kalebu apa sampeyan nggawa barang utawa ana miring utawa alangan liyane.

Ing skenario kaya iki, kita bisa nggunakake metode sing dikenal minangka reinforcement learning utawa RL. Kanthi RL, sampeyan bisa nemtokake tujuan tartamtu sing pengin dipecahake model lan mboko sithik supaya model sinau dhewe carane ngrampungake.

Ing artikel iki, kita bakal njelajah dhasar sinau penguatan lan cara ngetrapake kerangka RL kanggo macem-macem masalah sing beda ing jagad nyata.

Apa sing diarani reinforcement learning?

Learning reinforcement nuduhake subset tartamtu saka learning machine sing fokus kanggo nemokake solusi kanthi menehi ganjaran marang prilaku sing dikarepake lan ngukum prilaku sing ora dikarepake.

diagram kerangka pembelajaran penguatan

Ora kaya sinau sing diawasi, metode pembelajaran penguatan biasane ora duwe set data latihan sing nyedhiyakake output sing tepat kanggo input sing diwenehake. Yen ora ana data latihan, algoritma kudu nemokake solusi liwat nyoba lan kesalahan. Algoritma, sing biasane diarani minangka agen, kudu nemokake solusi dhewe kanthi sesambungan karo lingkungan.

Peneliti mutusake apa asil tartamtu ganjaran lan algoritma apa sing bisa ditindakake. Saben tumindak algoritma njupuk bakal nampa sawetara wangun saran sing ngetung carane uga algoritma wis dilakoni. Sajrone proses latihan, algoritma pungkasane bakal nemokake solusi optimal kanggo ngatasi masalah tartamtu.

Conto prasaja: 4 × 4 Grid

Ayo goleki conto prasaja saka masalah sing bisa ditanggulangi kanthi sinau penguatan.

Upaminipun kita duwe kothak 4 × 4 minangka lingkungan kita. Agen kita diselehake kanthi acak ing salah sawijining kothak bebarengan karo sawetara alangan. Kothak kasebut bakal ngemot telung alangan "pit" sing kudu dihindari lan ganjaran "berlian" siji sing kudu ditemokake dening agen. Gambaran lengkap lingkungan kita dikenal minangka lingkungan negara.

learning reinforcement gumantung ing agen sing sesambungan karo lingkungan simulasi

Ing model RL kita, agen kita bisa pindhah menyang sembarang kothak jejer anggere ora ana alangan sing ngalangi. Kumpulan kabeh tumindak sing bener ing lingkungan tartamtu dikenal minangka papan tumindak. Tujuan saka agen kita yaiku nemokake dalan sing paling cendhak kanggo entuk ganjaran.

agen duwe ruang tumindak utawa sakumpulan tumindak sing bener ing negara tartamtu

Agen kita bakal nggunakake metode pembelajaran penguatan kanggo nemokake dalan menyang berlian sing mbutuhake langkah-langkah sing paling sithik. Saben langkah sing bener bakal menehi robot ganjaran lan saben langkah sing salah bakal nyuda ganjaran robot kasebut. Model ngetung total ganjaran nalika agen tekan berlian.

Saiki kita wis nemtokake agen lan lingkungan, kita uga kudu nemtokake aturan sing digunakake kanggo nemtokake tumindak sabanjure sing bakal ditindakake agen kasebut miturut kahanan saiki lan lingkungane.

Kawicaksanan lan Ganjaran

Ing modhel pamulangan reinforcement, a privasi nuduhake strategi sing digunakake dening agen kanggo nggayuh tujuane. Kabijakan agen yaiku sing nemtokake apa sing kudu ditindakake agen sabanjure miturut kahanan saiki agen lan lingkungane.

Agen kudu ngevaluasi kabeh kabijakan sing bisa ditindakake kanggo ndeleng kabijakan sing paling optimal.

kawicaksanan ngevaluasi

Ing conto prasaja kita, kebangkrutan ing papan kosong bakal ngasilake nilai -1. Nalika agen ndharat ing papan karo ganjaran mirah, padha bakal nampa nilai 10. Nggunakake nilai iki, kita bisa mbandhingaké kawicaksanan beda nggunakake a fungsi utilitas U.

Ayo saiki mbandhingake utilitas saka rong kabijakan sing katon ing ndhuwur:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Asil nuduhake yen Kebijakan A minangka dalan sing luwih apik kanggo golek ganjaran. Dadi, agen bakal nggunakake Path A liwat Kebijakan B.

Eksplorasi vs Eksploitasi

Masalah trade-off eksplorasi vs eksploitasi ing pembelajaran penguatan minangka dilema sing kudu diadhepi agen sajrone proses keputusan.

Apa agen kudu fokus kanggo njelajah dalan utawa opsi anyar utawa kudu terus ngeksploitasi opsi sing wis dingerteni?

Yen agen milih kanggo njelajah, ana kamungkinan kanggo agen nemokake pilihan sing luwih apik, nanging uga resiko mbuang wektu lan sumber daya. Ing sisih liya, yen agen milih ngeksploitasi solusi sing wis dingerteni, bisa uga ora ana pilihan sing luwih apik.

Aplikasi Praktis

Kene sawetara cara Peneliti AI wis ngetrapake model pembelajaran penguatan kanggo ngrampungake masalah ing donya nyata:

Sinau Penguatan ing Mobil Nyopir Mandhiri

Learning reinforcement wis ditrapake kanggo mobil sing nyopir dhewe supaya bisa ningkatake kemampuan nyopir kanthi aman lan efisien. Teknologi kasebut ngidini mobil otonom sinau saka kesalahane lan terus-terusan nyetel prilaku supaya bisa ngoptimalake kinerja.

learning reinforcement digunakake kanggo nyopir dhewe

Contone, perusahaan AI berbasis London Wayve wis kasil ngetrapake model pembelajaran penguatan jero kanggo nyopir otonom. Ing eksperimen kasebut, dheweke nggunakake fungsi ganjaran sing nggedhekake wektu kendaraan mlaku tanpa driver onboard menehi input.

Model RL uga mbantu mobil nggawe keputusan adhedhasar lingkungan, kayata ngindhari alangan utawa gabung menyang lalu lintas. Model-model kasebut kudu nemokake cara kanggo ngowahi lingkungan kompleks sing ngubengi mobil dadi ruang negara sing bisa dingerteni model kasebut.

Sinau Penguatan ing Robotika

Peneliti uga wis nggunakake sinau penguatan kanggo ngembangake robot sing bisa sinau tugas rumit. Liwat model RL kasebut, robot bisa ngamati lingkungane lan nggawe keputusan adhedhasar pengamatan.

Contone, riset wis digawe babagan nggunakake model pembelajaran penguatan kanggo ngidini robot bipedal sinau carane lumaku ing dhewe.

pembelajaran penguatan ngajar robot mlaku

Peneliti nganggep RL minangka metode kunci ing bidang robotika. Learning reinforcement menehi agen robot kerangka kanggo sinau tumindak canggih sing bisa uga angel direkayasa.

Learning reinforcement ing Gaming

Model RL uga wis digunakake kanggo sinau carane muter video game. Agen bisa diatur kanggo sinau saka kesalahane lan terus nambah kinerja ing game kasebut.

Peneliti wis ngembangake agen sing bisa main game kayata catur, Go, lan poker. Ing taun 2013, Deepmind digunakake Deep Reinforcement Learning kanggo ngidini model sinau carane muter game Atari saka ngeruk.

Akeh game papan lan game video duwe ruang aksi sing winates lan tujuan konkrit sing wis ditemtokake. Sifat-sifat kasebut bisa digunakake kanggo keuntungan model RL. cara RL bisa cepet iterate liwat mayuta-yuta game simulasi kanggo sinau strategi optimal kanggo entuk kamenangan .

kesimpulan

Apa sinau mlaku utawa sinau main video game, model RL wis kabukten minangka kerangka AI sing migunani kanggo ngrampungake masalah sing mbutuhake pengambilan keputusan sing rumit.

Minangka teknologi terus berkembang, loro peneliti lan pangembang bakal terus nemokake aplikasi anyar sing njupuk kauntungan saka kemampuan poto-mucal model.

Apa sampeyan mikir aplikasi praktis sing bisa mbantu sinau penguatan?

Sinau Penguatan: AI Sing Sinau Saka Kesalahane

Apa sing diarani reinforcement learning?