
Következtetés
A statisztikai következtetés nagyon fontos téma, amely meghonosítja a modern gépi tanulás és a mély tanulás algoritmusait. Ez a cikk segít megismerkedni a következtetéseket alkotó fogalmakkal és matematikával.
Képzelje el, hogy tisztességtelen érmével szeretnénk becsapni néhány barátot. Tíz érménk van, és meg akarjuk ítélni, hogy bármelyikük igazságtalan-e - vagyis gyakrabban fog fejként megjelenni, mint a farok, vagy fordítva.
Tehát minden egyes érmét veszünk, egy csomószor feldobjuk - mondjuk 100-at -, és rögzítjük az eredményeket. A helyzet az, hogy az érmék valós eloszlásából (mintából) van egy részhalmaza. Megfontoltuk hüvelykujjunk állapotát, és arra a következtetésre jutottunk, hogy több adat összegyűjtése nagyon fárasztó lenne.
Ritkán ismerjük a valódi eloszlás paramétereit. Gyakran a valódi populációs paraméterekre akarunk következtetni a mintából.
Tehát most meg akarjuk becsülni annak valószínűségét, hogy egy érme leszálljon a fejekre. Érdekel a mintaátlag .
Mostanra valószínűleg azt gondolta: "Csak számolja meg a fejek számát, és ossza el a próbálkozások teljes számával!" Igen, így lehet tisztességtelen érmét találni, de hogyan tudnánk előállni ezzel a képlettel, ha eleve nem tudnánk?
Gyakori következtetés
Emlékezzünk vissza arra, hogy az érmehajításokat a legjobban a Bernoulli-disztribúcióval lehet modellezni, ezért biztosak vagyunk abban, hogy ez jól reprezentálja adatainkat. A valószínűségi tömegfüggvény (PMF) a Bernoulli-eloszláshoz így néz ki:

Az x egy véletlen változó, amely egy érme dobásának megfigyelését jelenti (tegyük fel, hogy 1 a fejeknél és 0 a farknál), és p egy paraméter - a fejek valószínűsége. Mi utal minden lehetséges paramétereket θ tovább . Ez a függvény azt jelzi, hogy az x egyes értéke mennyire valószínű az általunk választott eloszlási törvény szerint.
Ha x egyenlő 1-vel, akkor f (1; p) = p-t kapunk, és ha nulla f (0; p) = 1-p. Így Bernoulli disztribúciója megválaszolja a kérdést: „Mennyire valószínű, hogy olyan érmével rendelkező fejeket kapunk, amelyek p valószínűséggel a fejekre kerülnek ? ". Valójában ez az egyik legegyszerűbb példa a diszkrét valószínűségeloszlásra.
Tehát arra vagyunk kíváncsiak, hogy az adatokból meghatározzuk a p paramétert . A gyakori statisztikus valószínűleg a maximális valószínűség becslés (MLE) eljárás alkalmazását javasolja. Ez a módszer a D adatkészletre tekintettel megközelíti a paraméterek valószínűségének maximalizálását :

Ez azt jelenti, hogy a valószínűsége definíció szerint egy valószínűsége, hogy a megadott adatok a modell paraméterei. Ennek a valószínűségnek a maximalizálása érdekében meg kell találnunk azokat a paramétereket, amelyek segítenek modellünknek az adatok minél közelebb illeszteni az adatokat. Nem néz ki tanulásnak ? A maximális valószínűség az egyik módszer, amely a felügyelt tanulást eredményessé teszi.
Tegyük fel, hogy minden megfigyelésünk független. Ez azt jelenti, hogy a fenti kifejezésben szereplő együttes valószínűség egyszerűsíthető termékké a valószínűség alapvető szabályaival:

Most megy a fő rész: hogyan lehet maximalizálni a valószínűségi függvényt? Segítségül hívjuk a számítást, megkülönböztetjük a likelihood függvényt a parameters modellparaméterek tekintetében , 0-ra állítjuk és megoldjuk az egyenletet. Van egy ügyes trükk, amely a differenciálást a legtöbbször megkönnyíti - a logaritmusok nem változtatják meg a függvény szélsőségeit (minimum és maximum).


A maximális valószínűség becslésének óriási jelentősége van, és szinte minden gépi tanulási algoritmus. Ez az egyik legnépszerűbb módszer a matematikai tanulási folyamat megfogalmazására.
Most pedig alkalmazzuk a tanultakat és játsszunk az érmeinkkel. N független Bernoulli-próbát végeztünk érménk tisztességességének értékelésére. Így minden valószínűség megsokszorozható, és a valószínűség függvény így fog kinézni:

A fenti kifejezés deriváltjának vétele nem lesz szép. Tehát meg kell találnunk a napló valószínűségét:

Ez könnyebben néz ki. Továbblépés a differenciálásra

Itt osztjuk fel a deriváltakat standard d (f + g) = df + dg alkalmazásával. Ezután mozgatjuk az állandókat és megkülönböztetjük a logaritmusokat:

Az utolsó lépés viccesnek tűnhet a tábla flip miatt. Ennek oka, hogy a log (1-p) valójában két függvény összetétele, és itt a láncszabályt kell használnunk:

Voilà, készen vagyunk a rönk valószínűségével! Most közel állunk ahhoz, hogy megtaláljuk a maximális valószínűségi statisztikát a Bernoulli-eloszlás átlagához. Az utolsó lépés az egyenlet megoldása:

Mindent megszorozva p (1-p) -vel és kiterjesztve a zárójeleket

A feltételek törlése és átrendezése:

Tehát, itt van a mi levezetéseintuitív képlet? Y ou most játszani Bernoulli eloszlás és MLE becslése az átlag a vizualizációs alábbi
Gratulálunk a maximális valószínűség becslés új fantasztikus készségéhez! Vagy csak a meglévő ismeretek frissítéséért.Bayesi következtetés

Emlékezzünk vissza arra, hogy létezik egy másik megközelítés a valószínűségre. A bayesi statisztikáknak megvan a maga módszere a valószínűségi következtetések megtételére. Meg akarjuk találni a THETA paraméterek valószínűségi eloszlását - P (THETA | D) . De hogyan következtethetünk erre a valószínűségre? Bayes-tétel jön megmentésre:

- P (θ) -et előzetes eloszlásnak nevezzük, és magában foglalja a meggyőződésünket arról, hogy milyen paraméterek lehetnek, mielőtt bármilyen adatot látnánk. A korábbi hiedelmek kimondásának képessége az egyik fő különbség a maximális valószínűség és a bayesi következtetés között. Ez azonban a Bayes-megközelítés kritikájának fő pontja is. Hogyan állapíthatjuk meg az előzetes eloszlást, ha nem tudunk semmit az érdekelt problémáról? Mi van, ha rosszul választunk?
- P (D | θ) valószínűség, a Maximális valószínűség becslésében találkoztunk vele
- P (D) -t bizonyítéknak vagy marginális valószínűségnek nevezzük
A P (D) -t normalizációs állandónak is nevezzük, mivel biztosítja, hogy az eredmények érvényes valószínűség-eloszlást kapjanak. Ha átírjuk P (D) , mint

Látni fogjuk, hogy hasonló a Bayes-tétel számlálójához, de az összegzés minden lehetséges paramétert meghalad θ . Így két dolgot kapunk:
- A kimenet mindig érvényes valószínűségeloszlás a [0, 1] tartományban.
- Nagyobb nehézségek, amikor megpróbáljuk kiszámolni a P (D) értéket, mivel ehhez az összes lehetséges paraméter integrálása vagy összegzése szükséges. Ez lehetetlen a valódi szöveges problémák többségében.
De vajon a marginális valószínűség P (D) miatt a Bayesi-féle dolgot nem teszi-e célszerűvé? A válasz nem egészen. A legtöbb esetben a két lehetőség egyikét alkalmazzuk, hogy megszabaduljunk ettől a problémától.
Az első az, hogy valahogy közelítsük a P (D) értéket . Ezt különböző mintavételi módszerek segítségével érhetjük el, mint például a Fontosság mintavétele vagy a Gibbs-mintavétel, vagy a Variational Inference nevű technika (ami egyébként jó név?).
A második az, hogy teljesen kijusson az egyenletből. Fedezzük fel részletesebben ezt a megközelítést. Mi lenne, ha egy legvalószínűbb (ez a lehető legjobb) paraméter-kombináció megtalálására koncentrálnánk? Ezt az eljárást Maximum A Posteriori becslésnek (MAP) hívják.

A fenti egyenlet azt jelenti, hogy meg akarjuk találni θ , melyek expressziója belül arg max vesz a legnagyobb értékét - az arg kiállításával igazolni egy max Imum. A legfontosabb, amit itt észre kell venni, hogy P (D) független a paraméterektől, és kizárható az arg max-ból :

Más szavakkal, P (D) mindig állandó lesz a modell paraméterei tekintetében, és deriváltja egyenlő lesz 1-vel .
Ezt a tényt annyira elterjedten használják, hogy a Bayes-tételt ilyen formában írják:

A vezetékes hiányos végtelen jel a fenti kifejezésben azt jelenti, hogy "arányos" vagy "egyenlő egy állandóval".
Így eltávolítottuk a MAP számítási szempontból legnehezebb részét. Ennek van értelme, mivel alapvetően az összes lehetséges paraméterértéket elvetettük a valószínűségeloszlásból, és csak a lehető legvalószínűbbet siklottuk le.
Kapcsolat az MLE és a MAP között
És most vegyük fontolóra, mi történik, ha feltételezzük, hogy a prior egyöntetű (állandó valószínűség).

Kihelyeztük a C konstansot az arg max-ból, mivel ez nem befolyásolja az eredményt, mint a bizonyítékokkal. Ez minden bizonnyal hasonlít a maximális valószínűség becsléséhez! Végül a gyakorisági és a bayesi következtetés közötti matematikai különbség nem olyan nagy.
Megépíthetjük a hidat a másik oldalról is, és a Bayes-szemüvegen keresztül megtekinthetjük a maximális valószínűség becslését. Konkrétan kimutatható, hogy a bayesi preusok szoros kapcsolatban állnak a törvényesítési feltételekkel. De ez a téma megérdemel egy újabb bejegyzést (további részletekért lásd ezt a SO kérdést és az ESLR könyvet).
Következtetés

Ezek a különbségek eleinte finomnak tűnhetnek, de két statisztikai iskolát indítanak. A gyakorisági és a bayesi megközelítés nemcsak a matematikai kezelésben különbözik, hanem a statisztikák alapvető fogalmaival kapcsolatos filozófiai nézetekben is.
Ha Bayes-kalapot vesz fel, akkor az ismeretleneket valószínűség-eloszlásoknak, az adatokat pedig nem véletlenszerű rögzített megfigyeléseknek tekinti. A korábbi meggyőződéseket beépíti, hogy következtetéseket vonjon le a megfigyelt eseményekről.
Mint gyakoriság, úgy gondolja, hogy az ismeretlenekre egyetlen igaz érték van, amelyet keresünk, és az adatok véletlenszerűek és hiányosak. A Frequentist véletlenszerűen veszi fel az ismeretlen populáció adatait, és e minta felhasználásával következtetéseket von le az ismeretlen paraméterek valódi értékeiről.
Végül a bayesi és a frekvencia megközelítésnek megvannak a maga erősségei és gyengeségei. Mindegyik rendelkezik a szinte minden más probléma megoldására alkalmas eszközzel. A különböző programozási nyelvekhez hasonlóan ezeket is ugyanolyan erősségű eszközöknek kell tekinteni, amelyek jobban megfelelnek egy adott problémának, és elmaradnak a másiktól. Használja mindkettőt, használja okosan, és ne essen a statisztikusok két tábora közötti szent háború dühébe!
Tanult valamit? Kattints a ? hogy köszönöm! és segítsen másoknak megtalálni ezt a cikket.
