Rövid bevezetés a megerősítő tanuláshoz

A megerősítő tanulás a gépi tanulás egy olyan aspektusa, ahol az ügynök megtanul viselkedni egy környezetben, bizonyos cselekvések végrehajtásával és az ezekből a cselekvésekből származó haszon figyelemmel.

A Robotics Arm Manipulation előrelépései, a Google Deep Mind egy professzionális Alpha Go Player-t legyőzve, az utóbbi időben pedig az OpenAI csapata egy professzionális DOTA játékost legyőzve, a megerősítő tanulás területe valóban felrobbant az elmúlt években.

Ebben a cikkben a következőket tárgyaljuk:

  • Mi a megerősítő tanulás és annak apró-cseprő jellegű jutalma, feladata stb
  • A megerősítő tanulás 3 kategorizálása

Mi az a megerősítő tanulás?

Kezdjük a magyarázatot egy példával - mondjuk van egy kis baba, aki elkezdi megtanulni a járást.

Osszuk fel ezt a példát két részre:

1. A baba járni kezd, és sikeresen eléri a kanapét

Mivel a kanapé a végcél, a baba és a szülők boldogok.

Tehát a baba boldog, és megbecsülést kap szüleitől. Pozitív - a baba jól érzi magát (pozitív jutalom + n).

2. A baba járni kezd, és valamilyen akadály miatt elesik, és megsérül.

Jaj! A baba megsérül és fáj. Negatív - a baba sír (Negatív Jutalom -n).

Mi, emberek, így tanulunk - nyomon és tévedésből. A megerősítő tanulás fogalmilag ugyanaz, de számítási megközelítés a cselekedetek általi tanuláshoz.

Megerősítő tanulás

Tegyük fel, hogy megerősítő tanulónk példaként tanulja meg a Mario játékát. A megerősítő tanulási folyamat iteratív ciklusként modellezhető, amely az alábbiak szerint működik:

  • Az RL ügynök S state állapotot kap a környezettől, azaz Mario-tól
  • Az S⁰ állapot alapján az RL ügynök A action műveletet hajt végre , mondjuk - az RL ügynökünk jobbra mozog. Kezdetben ez véletlenszerű.
  • Most a környezet új állapotban van (a Mario vagy a játék motor új kerete)
  • A környezet némi jutalmat ad R1- nek az RL ügynöknek. Valószínűleg +1-et ad, mert az ügynök még nem halt meg.

Ez az RL hurok addig folytatódik, amíg meg nem halunk, vagy el nem érjük célunkat, és folyamatosan kiad egy állapot-, cselekvési- és jutalomsorozatot.

RL ügynökünk alapvető célja a jutalom maximalizálása.

Jutalom maximalizálása

Az RL ügynök alapvetően a jutalom maximalizálásának hipotézisén dolgozik. Ezért a megerősítő tanulásnak a lehető legjobb cselekvéssel kell rendelkeznie a jutalom maximalizálása érdekében.

A kumulatív jutalmak a megfelelő művelettel minden egyes lépésnél a következőképpen íródnak:

A dolgok azonban nem működnek így, ha összesítjük az összes jutalmat.

Értsük meg ezt részletesen:

Tegyük fel, hogy az RL ügynökünk (robot egér) egy labirintusban van, amely sajtot, áramütést és macskákat tartalmaz . A cél az, hogy a lehető legnagyobb mennyiségű sajtot megegyék, mielőtt a macska elfogyasztaná őket, vagy áramütést kapnának.

Nyilvánvalónak tűnik, ha a közelünkben lévő sajtot eszik, nem pedig a macskához vagy az áramütéshez közeli sajtot, mert minél közelebb vagyunk az áramütéshez vagy a macskához, nő a halál halálának veszélye. Ennek eredményeként a macska melletti jutalom vagy az áramütés, még akkor is, ha nagyobb (több sajt), kedvezményes lesz. Ez a bizonytalansági tényező miatt történik.

Van értelme, igaz?

A jutalmak diszkontálása így működik:

Meghatározzuk a gamma nevű diszkontrátát . 0 és 1 között kell lennie. Minél nagyobb a gamma, annál kisebb lesz a kedvezmény és fordítva.

Tehát a várható (diszkontált) összesített haszon:

Feladatok és típusaik a megerősítő tanulásban

A feladat a megerősítő tanulási probléma egyetlen példánya. Alapvetően kétféle feladatunk van: folyamatos és epizodikus.

Folyamatos feladatok

Ezek a feladatok örökké tartanak. Például egy RL ügynök, amely automatizált Forex / részvény kereskedést végez.

Ebben az esetben az ügynöknek meg kell tanulnia a legjobb cselekvések kiválasztását és egyidejűleg kölcsönhatásba lépni a környezettel. Nincs kiindulópont és végállapot.

Az RL ügynöknek addig kell futnia, amíg úgy döntünk, hogy manuálisan leállítjuk.

Epizodikus feladat

Ebben az esetben van egy kiindulási és egy végpontunk, amelyet terminális állapotnak nevezünk. Ez létrehoz egy epizódot : az államok (S), a műveletek (A), a jutalmak (R) listáját.

MertPéldául , a játékot a counter strike , ahol lőni az ellenfelek, vagy mi öl meg them.We lőni mindet, és töltse ki az epizód, vagy mi ölte meg. Tehát csak két eset van az epizódok befejezéséhez.

A kutatás és a kiaknázás kiegyezik

Fontos koncepciója van a feltárás és a kiaknázás kereskedelmének az erősítő tanulásban. A feltárás lényege, hogy több információt találjon egy környezettől, míg a kiaknázás a már ismert információk felhasználásával maximalizálja a hasznot.

Valódi élet példa: Tegyük fel, hogy minden nap ugyanabba az étterembe jár. Alapvetően kihasználod. De másrészt, ha minden alkalommal új éttermet keres, mielőtt bármelyikbe eljutna, akkor az felfedezés . A feltárás nagyon fontos a jövőbeni jutalmak keresése szempontjából, amelyek magasabbak lehetnek, mint a közeli jutalmak.

A fenti játékban a robot egérünk jó mennyiségű apró sajtot tartalmazhat (+0,5 darab). De a labirintus tetején nagy mennyiségű sajt található (+100). Tehát, ha csak a legközelebbi jutalomra koncentrálunk, robot egerünk soha nem fogja elérni a sajt nagy összegét - csak kihasználja.

De ha a robot egér egy kicsit felfedez, akkor megtalálja a nagy jutalmat, vagyis a nagy sajtot.

Ez a feltárási és kiaknázási kompromisszum alapkoncepciója .

A megerősítő tanulás megközelítései

Most értsük meg a megerősítő tanulási problémák megoldásának megközelítéseit. Alapvetően 3 megközelítés létezik, de ebben a cikkben csak 2 fő megközelítést alkalmazunk:

1. Politikai alapú megközelítés

A szakpolitikai alapú megerősítő tanulásban van egy olyan politikánk, amelyet optimalizálnunk kell. A házirend alapvetően meghatározza az ügynök viselkedését:

Megtanulunk egy olyan politikai funkciót, amely segít az egyes államok legjobb cselekvéshez való hozzárendelésében.

A szakpolitikák mélyrehatóbbá tétele után további két típusra osztjuk az irányelveket:

  • Determinisztikus : egy adott állapot (ok) ban a politika mindig ugyanazt a műveletet adja vissza (a). Ez azt jelenti, hogy előre be van térképezve, mint S = (s) ➡ A = (a).
  • Sztochasztikus : Megadja a valószínűség eloszlását a különböző cselekvések között . azaz sztochasztikus politika ➡ p (A = a | S = s)

2. Értékalapú

Az érték-alapú RL, a cél a szer, hogy optimalizálja a értékfüggvény V (k) , amely a meghatározás szerintegy olyan funkció, amely megmondja nekünk a jövőben várható maximális jutalmat, amelyet az ügynök minden államban megkap.

Az egyes államok értéke annak a jutalomnak az összege, amelyet egy RL ügynök várhatóan összegyűjthet a jövőben, egy adott államtól.

Az ügynök a fenti értékfüggvény segítségével választja ki az egyes lépéseknél kiválasztandó állapotot. Az ügynök mindig a legnagyobb értékű államot veszi át.

Az alábbi példában azt látjuk, hogy minden lépésnél a legnagyobb értéket vesszük célunk eléréséhez: 1 3 4 ➡ 6, így tovább ...

A Pong játék - Intuitív esettanulmány

Vegyünk egy valós életpéldát a pongozásra. Ez az esettanulmány csak megismerteti Önt a tanulás megerősítésének értelmezésével . Ebben a példában nem térünk ki a részletekre, de a következő cikkben minden bizonnyal mélyebbre ásunk.

Tegyük fel, hogy megtanítjuk az RL ügynökünket a Pong játékára.

Alapvetően a játék kereteiben (új állapotok) tápláljuk az RL algoritmust, és hagyjuk, hogy az algoritmus döntse el, merre kell felfelé vagy lefelé haladni. Ez a hálózat állítólag szakpolitikai hálózat, amelyet a következő cikkünkben tárgyalunk.

Az algoritmus képzésére használt módszert házirend-gradiensnek nevezzük . Véletlenszerű képkockákat táplálunk a játékmotorból, és az algoritmus véletlenszerű kimenetet állít elő, amely jutalmat ad, és ez visszajut az algoritmusba / hálózatba. Ez egy iteratív folyamat.

A következő cikkben részletesen tárgyaljuk a szakpolitikai gradienseket .

A játék kapcsán az eredménytábla jutalomként vagy visszajelzésként működik az ügynöknek. Amikor az ügynök hajlamos a +1 pontszámra, megérti, hogy az általa tett cselekvés elég jó volt ebben az állapotban.

Most kiképezzük az ügynököt a pong játékra. Először egy csomó játékkeretet (állapotot) táplálunk a hálózatra / algoritmusra, és hagyjuk, hogy az algoritmus döntsön a műveletről. Az ügynök kezdeti műveletei nyilvánvalóan rosszak lesznek, de ügynökünk néha szerencsés lehet egy pont, és ez véletlenszerű esemény lehet. Ennek a szerencsés véletlenszerű eseménynek köszönhetően jutalomban részesül, és ez segít az ügynöknek megérteni, hogy a cselekvések sora elég jó volt jutalom megszerzéséhez.

Tehát a jövőben az ügynök valószínűleg megteszi azokat a cselekvéseket, amelyek jutalmat kapnak egy olyan cselekedetért, amely nem. Intuitív módon az RL ügynök hajlamos a játékra.

Korlátozások

Az ügynök kiképzése során, amikor az ügynök elveszít egy epizódot, az algoritmus elveti vagy csökkenti annak valószínűségét, hogy az ebben az epizódban létező összes cselekvéssorozatot megtette.

De ha az ügynök az epizód elejétől kezdve jól teljesített , de éppen az utolsó 2 cselekedet miatt az ügynök elvesztette a játékot, akkor nincs értelme minden műveletet elvetni. Inkább van értelme, ha csak az utolsó 2 akciót távolítjuk el, amely veszteséget eredményezett.

Ezt hívják Hitel-hozzárendelési problémának. Ez a probléma egy ritka jutalom beállítás miatt merül fel . Vagyis ahelyett, hogy minden lépésnél jutalmat kapnánk, az epizód végén megkapjuk a jutalmat. Tehát az ügynök feladata, hogy megtudja, melyik akció volt helyes, és melyik tényleges akció vezetett a játék elvesztéséhez.

Tehát ennek a ritka jutalom-beállításnak az RL-ben az algoritmus nagyon nem hatékony a mintában. Ez azt jelenti, hogy hatalmas képzési példákkal kell szolgálni az ügynök kiképzéséhez. De az a tény, hogy a ritka jutalombeállítások sok esetben kudarcot vallanak a környezet összetettsége miatt.

Tehát van valami, amit jutalomformálásnak neveznek, és amelyet ennek megoldására használnak. De megint a jutalomformálás is szenved némi korlátozást, mivel minden játékhoz egyedi jutalomfunkciót kell terveznünk.

Záró megjegyzés

Ma az erősítő tanulás izgalmas tanulmányi terület. Jelentős fejlesztések történtek a területen, amelyek közül az egyik a mélyreható tanulás.

A mélyreható tanulásról a következő cikkekben foglalkozunk. Ez a cikk sok fogalommal foglalkozik. Kérjük, szánjon rá időt arra, hogy megértse a megerősítő tanulás alapfogalmait.

De szeretném megemlíteni, hogy az erősítés nem titkos fekete doboz. Bármilyen előrelépést is tapasztalhatunk ma a megerősítő tanulás terén, azok fényes elméknek az eredményei, amelyek éjjel-nappal konkrét alkalmazásokon dolgoznak.

Legközelebb egy Q-learning ügynökön dolgozunk, és néhány alapvető dolgot is bemutatunk a megerősítő tanulásban.

Addig élvezze az AI-t?

Fontos : Ez a cikk a Deep Reinforcement Learning sorozat 1. része. A Complete sorozat mind a közepesen, mind a szövegben olvasható űrlapokon és a videómagyarázó űrlapon elérhető lesz a YouTube csatornámon.

A megerősítő tanulás mélyebb és intuitívabb megértése érdekében javasoljuk, hogy nézze meg az alábbi videót:

Feliratkozás YouTube csatornámra További AI videókért: ADL .

Ha tetszett a cikkem, kattintson a ? a s továbbra is motivált vagyok a cikkek írására, és kérem, kövessen a Medium &

Ha bármilyen kérdése van, kérjük, tudassa velem az alábbi megjegyzésben vagy a Twitteren . Feliratkozás YouTube csatornámra További technikai videókért: ADL .