
Mi a regresszió?
A regresszió az egyik legfontosabb és leggyakrabban használt adatelemzési folyamat. Egyszerűen fogalmazva, ez egy statisztikai módszer, amely megmagyarázza a függő változó és egy vagy több független változó közötti kapcsolat erősségét.
A függő változó lehet egy olyan változó vagy egy mező, amelyet megpróbál megjósolni vagy megérteni. Független változó lehet az a mező vagy adatpont, amelyről úgy gondolja, hogy hatással lehet a függő változóra.
Ennek során megválaszol néhány fontos kérdést -
- Milyen változók számítanak?
- Mennyire számítanak ezek a változók?
- Mennyire vagyunk biztosak ezekben a változókban?
Vegyünk egy példát ...
A regressziós táblázat számainak jobb megmagyarázása érdekében úgy gondoltam, hogy hasznos lenne egy minta adatkészletet használni, és végigvezetni a számokat és azok fontosságát.
Egy kis adatkészletet használok, amely tartalmazza a GRE-t (egy tesztet, amelyet a hallgatók figyelembe vesznek az amerikai Grad-iskolákba való felvétel szempontjából) 500 hallgatói pontszámot és az egyetemre való felvétel esélyét.
Mivel chance of admittance
attól függ GRE score
, chance of admittance
függő változó és GRE score
független változó.

Regressziós vonal
Ha egyenes vonalat rajzolunk, amely a legjobban leírja a hallgatók GRE pontszámai és a felvételi esélyek közötti kapcsolatot, akkor a lineáris regressziós vonalat kapjuk . Ezt a különböző BI eszközökben trendvonalnak nevezik . A vonal megrajzolásának alapgondolata az, hogy minimalizálja az adatpontok közötti távolságot egy adott x koordinátán és az y koordinátán, amelyen keresztül a regressziós vonal áthalad.

A regressziós vonal megkönnyíti számunkra a kapcsolat képviseletét. Matematikai egyenleten alapul, amely az x-együtthatót és az y-metszést társítja.
Az Y metszéspont az a pont, ahol a vonal metszi az y tengelyt x = 0 értéknél. Ez az az érték is, amelyet a modell felvesz vagy megjósol, amikor x értéke 0.
Az együtthatók biztosítják a változó hatását vagy súlyát a teljes modell felé. Más szavakkal, megadja a függő változó változásának mértékét a független változó egységváltozásához.
A regressziós egyenlet kiszámítása
A modell y-metszésének megismerése érdekében a regressziós vonalat elég messzire meghosszabbítjuk, amíg az az y = tengelyen metszi az x = 0 értéket. Ez az y-metszésünk és -2,5 körül van. Lehet, hogy a számnak nincs értelme az általunk használt adatkészlet számára, de a szándék csak az y-metszés számításának bemutatása.

Ennek a modellnek az együtthatója csak a regressziós egyenes meredeksége lesz, és kiszámítható úgy, hogy megkapjuk a GRE-pontszámok változásának változását.

A fenti példában az együttható csak az lenne
m = (y2-y1) / (x2-x1)Ebben az esetben pedig közel lenne a 0,01-hez.
Az y = m * x + b képlet segít kiszámítani a regressziós vonal matematikai egyenletét. A regressziós vonal meghosszabbításával kapott y-metszés és meredekség értékeinek behelyettesítésével megfogalmazhatjuk az egyenletet -
y = 0,01x - 2,48A -2,48 pontosabb y-intercept érték, amelyet a regressziós táblából kaptam, amint ezt a bejegyzés később bemutatja.
Ez az egyenlet lehetővé teszi, hogy előre jelezzük és megjósoljuk a hallgató felvételének esélyét, amikor a GRE pontszáma ismert.
Most, hogy megvannak az alapok, térjünk át egy regressziós táblázat olvasására és értelmezésére.
Regressziós táblázat olvasása
A regressziós táblázat nagyjából három részre osztható -
- Varianciaelemzés (ANOVA): biztosítja a modell varianciájának elemzését, amint a neve is mutatja.
- regressziós statisztika: adjon meg numerikus információt a variációról és arról, hogy a modell mennyire magyarázza az adott adatok / megfigyelések variációját.
- maradék kimenet: megadja a modell által megjósolt értéket, valamint a függő változó tényleges megfigyelt értéke és az egyes adatpontok regressziós modellje által megjósolt értéke közötti különbséget.
Varianciaelemzés (ANOVA)

A szabadság fokai (df)
A df regresszió a független változók száma a regressziós modellünkben. Mivel ebben a példában csak a GRE pontszámokat vesszük figyelembe, ez 1.
A maradék df az adatkészlet megfigyelésének (sorainak) teljes száma, kivonva a becsült változók számával. Ebben a példában mind a GRE pontszám együtthatót, mind az állandót becsüljük meg.
Maradék df = 500 - 2 = 498
A teljes df - a regresszió és a maradék szabadságfokok összege, amely megegyezik az adatsor mínusz 1 méretével.
Négyzetek összege (SS)

A regresszió SS a függő változó teljes variációja, amelyet a regressziós modell magyaráz. A megjósolt érték és az összes adatpont értékének átlaga közötti különbség négyzetének összege.
∑ (ŷ - ӯ) ²Az ANOVA táblázatból a regressziós SS 6,5, a teljes SS pedig 9,9, ami azt jelenti, hogy a regressziós modell az adatkészlet összes változékonyságának kb. 6,5 / 9,9-et (kb. 65%) magyaráz.
Maradék SS - a függő változó teljes variációja, amelyet a regressziós modell megmagyarázhatatlanul hagy. Négyzetek hibájának összegének is nevezik, és az összes adatpont tényleges és előre jelzett értéke közötti különbség négyzetének összege.
∑ (y - ŷ) ²Az ANOVA táblázatból a maradék SS körülbelül 3,4. Általában minél kisebb a hiba, annál jobban megmagyarázza a regressziós modell az adatsor variációját, ezért általában ezt a hibát szeretnénk minimalizálni.
Összes SS - a regresszió és a maradék SS összege, vagy mennyivel változik a belépés esélye, ha NEM veszik figyelembe a GRE pontszámokat .
Átlagos négyzetes hibák (MS) - a négyzetek összegének átlaga vagy a négyzetek összegének elosztva a szabadság, a regresszió és a maradék fokaival.
Regresszió MS = ∑ (ŷ - ӯ) ² / reg. dfMaradvány MS = ∑ (y - ŷ) 2 / Res. dfF - annak a hipotézisnek a tesztelésére szolgál, hogy a független változó meredeksége nulla. Matematikailag úgy is kiszámítható
F = regressziós MS / maradék MSEzt egyébként úgy számítják ki, hogy összehasonlítjuk az F-statisztikát egy F-eloszlással, df regresszióval számláló fokokban és maradék df-vel nevező fokokban.
Az F szignifikancia - nem más, mint annak a nullhipotézisnek a p-értéke, miszerint a független változó együtthatója nulla, és mint minden p-érték esetében, az alacsony p-érték azt is jelzi, hogy szignifikáns összefüggés van a függő és független változók között.

Standard hiba - megadja az együtthatók eloszlásának becsült szórását. Ez az az összeg, amellyel az együttható különböző esetekben változik. A szokásos hibánál jóval nagyobb együttható annak valószínűségét jelenti, hogy az együttható nem 0.
t-Stat - a teszt t-statisztikája vagy t-értéke, és értéke megegyezik az együttható elosztva a standard hibával.
t-Stat = Együtthatók / Standard hibaIsmét minél nagyobb az együttható a standard hibához képest, annál nagyobb a t-Stat, és nagyobb annak a valószínűsége, hogy az együttható távol van a 0-tól.
p-érték - A t-statisztikát összehasonlítjuk a t-eloszlással a p-érték meghatározásához. Általában csak azt a független változó p-értékét vesszük figyelembe, amely biztosítja a minta megszerzésének valószínűségét, olyan közel, mint a regressziós egyenlet levezetése, és ellenőrizzük, hogy a regressziós egyenes meredeksége nulla-e, vagy az együttható közel van-e a kapott együttható.
A 0,05 alatti p-érték 95% -os megbízhatóságot jelez, hogy a regressziós egyenes meredeksége nem nulla, és ezért a függő és független változók között jelentős lineáris összefüggés van.
A 0,05-nél nagyobb p-érték azt jelzi, hogy a regressziós vonal meredeksége nulla lehet, és hogy a 95% -os megbízhatósági szint mellett nincs elegendő bizonyíték arra, hogy a függő és független változók között jelentős lineáris összefüggés áll fenn.
Mivel a független változó GRE-pontszám p-értéke nagyon közel van a 0-hoz, rendkívül biztosak lehetünk abban, hogy a GRE-pontszámok és a belépés esélye között jelentős lineáris összefüggés van.
Alsó és felső 95% - Mivel a regressziós egyenes és annak együtthatóinak becsléséhez többnyire adatmintát használunk, ezek többnyire a valódi együtthatók, és viszont a valódi regressziós egyenes közelítései. Az alsó és felső 95% -os határok adják az alsó és felső határok 95. konfidenciaintervallumát az egyes együtthatókhoz.
Mivel a GRE pontszámok 95% -os konfidencia intervalluma 0,009 és 0,01, a határok nem tartalmaznak nulla értéket, így 95% -ban biztosak lehetünk abban, hogy a GRE pontszámok és a belépés esélye között jelentős lineáris összefüggés van.
Felhívjuk figyelmét, hogy a 95% -os konfidenciaszintet széles körben használják, de a 95% -tól eltérő szint lehetséges és a regressziós elemzés során beállítható.
Regresszió statisztika

R² (R négyzet) - a modell erejét képviseli. Megmutatja a függő változó variációinak nagyságát, amelyet a független változó megmagyaráz, és mindig 0 és 1 értékek között helyezkedik el. Az R² növekedésével az adatok nagyobb variációit magyarázza a modell, és a modell jobban meg tudja becsülni. Az alacsony R² azt jelzi, hogy a modell nem felel meg jól az adatoknak, és hogy egy független változó nem magyarázza jól a függő változó variációját.
R² = Négyzetek regressziós összege / Négyzetek összes összegeAz R négyzet azonban nem tudja meghatározni, hogy az együttható-becslések és előrejelzések elfogultak-e, ezért értékelnie kell a maradék ábrákat, amelyeket a cikk később tárgyal.
Az R-négyzet azt sem jelzi, hogy a regressziós modell megfelelő-e. Lehet alacsony R-négyzet értéke egy jó modell esetében, vagy magas R-négyzet értéke lehet egy olyan modell esetében, amely nem felel meg az adatoknak.
Az R² ebben az esetben 65%, ami azt jelenti, hogy a GRE pontszámok magyarázzák a belépés esélyének 65% -át.
Korrigált R² - az R² szorozva egy beállítási tényezővel. Ezt a különböző regressziós modellek és független változók összehasonlításakor használják. Ez a szám jól jön, miközben több regressziós modellben dönt a megfelelő független változókról.
Többszörös R - az R² pozitív négyzetgyöke
Normál hiba - eltér az együtthatók szokásos hibájától. Ez a regressziós egyenlet hibájának becsült szórása, és jól mérhető a regressziós egyenes pontossága. Ez a maradék átlag négyzethibák négyzetgyöke.
Std. Hiba = √ (Res.MS)Maradék kimenet
A maradványok a regressziós modell tényleges értéke és az előre jelzett értéke közötti különbség, és a maradék kimenet a függő változónak a regressziós modell által előre jelzett értéke, és az egyes adatpontok maradványai.
És ahogy a neve is sugallja, a maradéktábla egy szóródási ábra a maradék és a független változó között, amely ebben az esetben az egyes hallgatók GRE-pontszáma.
A maradék cselekmény fontos az olyan dolgok felderítésében, mint a heteroszkedaszticitás , a nem-linearitás és a kiugró értékek . Ezeknek a kimutatásának folyamatát nem a cikk részeként tárgyaljuk, de az a tény, hogy a példánkban szereplő maradék ábrán véletlenszerűen vannak szétszórt adatok, segít abban, hogy megállapítsuk, hogy a modellben a változók közötti kapcsolat lineáris.

Elszánt
A cikk célja nem egy működő regressziós modell felépítése, hanem az, hogy szükség esetén áttekintést nyújtson az összes regressziós változóról és azok fontosságáról egy regressziós táblázatban szereplő mintaadatokkal.
Noha ez a cikk példaként magyarázatot ad egyetlen változó lineáris regresszióval, kérjük, vegye figyelembe, hogy ezeknek a változóknak némelyikének nagyobb jelentősége lehet többváltozós vagy más esetekben.
Hivatkozások
- Diplomás felvételi adatkészlet
- 10 dolog a regressziós táblázat olvasásáról
- Frissítés a regresszióanalízisről