A regressziós táblázat elolvasása

Mi a regresszió?

A regresszió az egyik legfontosabb és leggyakrabban használt adatelemzési folyamat. Egyszerűen fogalmazva, ez egy statisztikai módszer, amely megmagyarázza a függő változó és egy vagy több független változó közötti kapcsolat erősségét.

A függő változó lehet egy olyan változó vagy egy mező, amelyet megpróbál megjósolni vagy megérteni. Független változó lehet az a mező vagy adatpont, amelyről úgy gondolja, hogy hatással lehet a függő változóra.

Ennek során megválaszol néhány fontos kérdést -

  • Milyen változók számítanak?
  • Mennyire számítanak ezek a változók?
  • Mennyire vagyunk biztosak ezekben a változókban?

Vegyünk egy példát ...

A regressziós táblázat számainak jobb megmagyarázása érdekében úgy gondoltam, hogy hasznos lenne egy minta adatkészletet használni, és végigvezetni a számokat és azok fontosságát.

Egy kis adatkészletet használok, amely tartalmazza a GRE-t (egy tesztet, amelyet a hallgatók figyelembe vesznek az amerikai Grad-iskolákba való felvétel szempontjából) 500 hallgatói pontszámot és az egyetemre való felvétel esélyét.

Mivel chance of admittanceattól függ GRE score, chance of admittancefüggő változó és GRE scorefüggetlen változó.

Regressziós vonal

Ha egyenes vonalat rajzolunk, amely a legjobban leírja a hallgatók GRE pontszámai és a felvételi esélyek közötti kapcsolatot, akkor a lineáris regressziós vonalat kapjuk . Ezt a különböző BI eszközökben trendvonalnak nevezik . A vonal megrajzolásának alapgondolata az, hogy minimalizálja az adatpontok közötti távolságot egy adott x koordinátán és az y koordinátán, amelyen keresztül a regressziós vonal áthalad.

A regressziós vonal megkönnyíti számunkra a kapcsolat képviseletét. Matematikai egyenleten alapul, amely az x-együtthatót és az y-metszést társítja.

Az Y metszéspont az a pont, ahol a vonal metszi az y tengelyt x = 0 értéknél. Ez az az érték is, amelyet a modell felvesz vagy megjósol, amikor x értéke 0.

Az együtthatók biztosítják a változó hatását vagy súlyát a teljes modell felé. Más szavakkal, megadja a függő változó változásának mértékét a független változó egységváltozásához.

A regressziós egyenlet kiszámítása

A modell y-metszésének megismerése érdekében a regressziós vonalat elég messzire meghosszabbítjuk, amíg az az y = tengelyen metszi az x = 0 értéket. Ez az y-metszésünk és -2,5 körül van. Lehet, hogy a számnak nincs értelme az általunk használt adatkészlet számára, de a szándék csak az y-metszés számításának bemutatása.

Ennek a modellnek az együtthatója csak a regressziós egyenes meredeksége lesz, és kiszámítható úgy, hogy megkapjuk a GRE-pontszámok változásának változását.

A fenti példában az együttható csak az lenne

m = (y2-y1) / (x2-x1)

Ebben az esetben pedig közel lenne a 0,01-hez.

Az y = m * x + b képlet segít kiszámítani a regressziós vonal matematikai egyenletét. A regressziós vonal meghosszabbításával kapott y-metszés és meredekség értékeinek behelyettesítésével megfogalmazhatjuk az egyenletet -

y = 0,01x - 2,48

A -2,48 pontosabb y-intercept érték, amelyet a regressziós táblából kaptam, amint ezt a bejegyzés később bemutatja.

Ez az egyenlet lehetővé teszi, hogy előre jelezzük és megjósoljuk a hallgató felvételének esélyét, amikor a GRE pontszáma ismert.

Most, hogy megvannak az alapok, térjünk át egy regressziós táblázat olvasására és értelmezésére.

Regressziós táblázat olvasása

A regressziós táblázat nagyjából három részre osztható -

  • Varianciaelemzés (ANOVA): biztosítja a modell varianciájának elemzését, amint a neve is mutatja.
  • regressziós statisztika: adjon meg numerikus információt a variációról és arról, hogy a modell mennyire magyarázza az adott adatok / megfigyelések variációját.
  • maradék kimenet: megadja a modell által megjósolt értéket, valamint a függő változó tényleges megfigyelt értéke és az egyes adatpontok regressziós modellje által megjósolt értéke közötti különbséget.

Varianciaelemzés (ANOVA)

A szabadság fokai (df)

A df regresszió a független változók száma a regressziós modellünkben. Mivel ebben a példában csak a GRE pontszámokat vesszük figyelembe, ez 1.

A maradék df az adatkészlet megfigyelésének (sorainak) teljes száma, kivonva a becsült változók számával. Ebben a példában mind a GRE pontszám együtthatót, mind az állandót becsüljük meg.

Maradék df = 500 - 2 = 498

A teljes df - a regresszió és a maradék szabadságfokok összege, amely megegyezik az adatsor mínusz 1 méretével.

Négyzetek összege (SS)

A regresszió SS a függő változó teljes variációja, amelyet a regressziós modell magyaráz. A megjósolt érték és az összes adatpont értékének átlaga közötti különbség négyzetének összege.

∑ (ŷ - ӯ) ²

Az ANOVA táblázatból a regressziós SS 6,5, a teljes SS pedig 9,9, ami azt jelenti, hogy a regressziós modell az adatkészlet összes változékonyságának kb. 6,5 / 9,9-et (kb. 65%) magyaráz.

Maradék SS - a függő változó teljes variációja, amelyet a regressziós modell megmagyarázhatatlanul hagy. Négyzetek hibájának összegének is nevezik, és az összes adatpont tényleges és előre jelzett értéke közötti különbség négyzetének összege.

∑ (y - ŷ) ²

Az ANOVA táblázatból a maradék SS körülbelül 3,4. Általában minél kisebb a hiba, annál jobban megmagyarázza a regressziós modell az adatsor variációját, ezért általában ezt a hibát szeretnénk minimalizálni.

Összes SS - a regresszió és a maradék SS összege, vagy mennyivel változik a belépés esélye, ha NEM veszik figyelembe a GRE pontszámokat .

Átlagos négyzetes hibák (MS) - a négyzetek összegének átlaga vagy a négyzetek összegének elosztva a szabadság, a regresszió és a maradék fokaival.

Regresszió MS = ∑ (ŷ - ӯ) ² / reg. dfMaradvány MS = ∑ (y - ŷ) 2 / Res. df

F - annak a hipotézisnek a tesztelésére szolgál, hogy a független változó meredeksége nulla. Matematikailag úgy is kiszámítható

F = regressziós MS / maradék MS

Ezt egyébként úgy számítják ki, hogy összehasonlítjuk az F-statisztikát egy F-eloszlással, df regresszióval számláló fokokban és maradék df-vel nevező fokokban.

Az F szignifikancia - nem más, mint annak a nullhipotézisnek a p-értéke, miszerint a független változó együtthatója nulla, és mint minden p-érték esetében, az alacsony p-érték azt is jelzi, hogy szignifikáns összefüggés van a függő és független változók között.

Standard hiba - megadja az együtthatók eloszlásának becsült szórását. Ez az az összeg, amellyel az együttható különböző esetekben változik. A szokásos hibánál jóval nagyobb együttható annak valószínűségét jelenti, hogy az együttható nem 0.

t-Stat - a teszt t-statisztikája vagy t-értéke, és értéke megegyezik az együttható elosztva a standard hibával.

t-Stat = Együtthatók / Standard hiba

Ismét minél nagyobb az együttható a standard hibához képest, annál nagyobb a t-Stat, és nagyobb annak a valószínűsége, hogy az együttható távol van a 0-tól.

p-érték - A t-statisztikát összehasonlítjuk a t-eloszlással a p-érték meghatározásához. Általában csak azt a független változó p-értékét vesszük figyelembe, amely biztosítja a minta megszerzésének valószínűségét, olyan közel, mint a regressziós egyenlet levezetése, és ellenőrizzük, hogy a regressziós egyenes meredeksége nulla-e, vagy az együttható közel van-e a kapott együttható.

A 0,05 alatti p-érték 95% -os megbízhatóságot jelez, hogy a regressziós egyenes meredeksége nem nulla, és ezért a függő és független változók között jelentős lineáris összefüggés van.

A 0,05-nél nagyobb p-érték azt jelzi, hogy a regressziós vonal meredeksége nulla lehet, és hogy a 95% -os megbízhatósági szint mellett nincs elegendő bizonyíték arra, hogy a függő és független változók között jelentős lineáris összefüggés áll fenn.

Mivel a független változó GRE-pontszám p-értéke nagyon közel van a 0-hoz, rendkívül biztosak lehetünk abban, hogy a GRE-pontszámok és a belépés esélye között jelentős lineáris összefüggés van.

Alsó és felső 95% - Mivel a regressziós egyenes és annak együtthatóinak becsléséhez többnyire adatmintát használunk, ezek többnyire a valódi együtthatók, és viszont a valódi regressziós egyenes közelítései. Az alsó és felső 95% -os határok adják az alsó és felső határok 95. konfidenciaintervallumát az egyes együtthatókhoz.

Mivel a GRE pontszámok 95% -os konfidencia intervalluma 0,009 és 0,01, a határok nem tartalmaznak nulla értéket, így 95% -ban biztosak lehetünk abban, hogy a GRE pontszámok és a belépés esélye között jelentős lineáris összefüggés van.

Felhívjuk figyelmét, hogy a 95% -os konfidenciaszintet széles körben használják, de a 95% -tól eltérő szint lehetséges és a regressziós elemzés során beállítható.

Regresszió statisztika

R² (R négyzet) - a modell erejét képviseli. Megmutatja a függő változó variációinak nagyságát, amelyet a független változó megmagyaráz, és mindig 0 és 1 értékek között helyezkedik el. Az R² növekedésével az adatok nagyobb variációit magyarázza a modell, és a modell jobban meg tudja becsülni. Az alacsony R² azt jelzi, hogy a modell nem felel meg jól az adatoknak, és hogy egy független változó nem magyarázza jól a függő változó variációját.

R² = Négyzetek regressziós összege / Négyzetek összes összege

Az R négyzet azonban nem tudja meghatározni, hogy az együttható-becslések és előrejelzések elfogultak-e, ezért értékelnie kell a maradék ábrákat, amelyeket a cikk később tárgyal.

Az R-négyzet azt sem jelzi, hogy a regressziós modell megfelelő-e. Lehet alacsony R-négyzet értéke egy jó modell esetében, vagy magas R-négyzet értéke lehet egy olyan modell esetében, amely nem felel meg az adatoknak.

Az R² ebben az esetben 65%, ami azt jelenti, hogy a GRE pontszámok magyarázzák a belépés esélyének 65% -át.

Korrigált R² - az R² szorozva egy beállítási tényezővel. Ezt a különböző regressziós modellek és független változók összehasonlításakor használják. Ez a szám jól jön, miközben több regressziós modellben dönt a megfelelő független változókról.

Többszörös R - az R² pozitív négyzetgyöke

Normál hiba - eltér az együtthatók szokásos hibájától. Ez a regressziós egyenlet hibájának becsült szórása, és jól mérhető a regressziós egyenes pontossága. Ez a maradék átlag négyzethibák négyzetgyöke.

Std. Hiba = √ (Res.MS)

Maradék kimenet

A maradványok a regressziós modell tényleges értéke és az előre jelzett értéke közötti különbség, és a maradék kimenet a függő változónak a regressziós modell által előre jelzett értéke, és az egyes adatpontok maradványai.

És ahogy a neve is sugallja, a maradéktábla egy szóródási ábra a maradék és a független változó között, amely ebben az esetben az egyes hallgatók GRE-pontszáma.

A maradék cselekmény fontos az olyan dolgok felderítésében, mint a heteroszkedaszticitás , a nem-linearitás és a kiugró értékek . Ezeknek a kimutatásának folyamatát nem a cikk részeként tárgyaljuk, de az a tény, hogy a példánkban szereplő maradék ábrán véletlenszerűen vannak szétszórt adatok, segít abban, hogy megállapítsuk, hogy a modellben a változók közötti kapcsolat lineáris.

Elszánt

A cikk célja nem egy működő regressziós modell felépítése, hanem az, hogy szükség esetén áttekintést nyújtson az összes regressziós változóról és azok fontosságáról egy regressziós táblázatban szereplő mintaadatokkal.

Noha ez a cikk példaként magyarázatot ad egyetlen változó lineáris regresszióval, kérjük, vegye figyelembe, hogy ezeknek a változóknak némelyikének nagyobb jelentősége lehet többváltozós vagy más esetekben.

Hivatkozások

  • Diplomás felvételi adatkészlet
  • 10 dolog a regressziós táblázat olvasásáról
  • Frissítés a regresszióanalízisről