Megtanulják, hogyan lehet kiválasztani a legjobban teljesítő lineáris regressziót egyváltozós modellekhez

Tudja meg, melyik lineáris regressziós modell felel meg legjobban az adatainak

Az előző cikkem utáni kérdés inspirálva szeretnék megoldani egy problémát, amely gyakran felmerül a különböző lineáris modellek kipróbálása után: Meg kell választania, hogy melyik modellt szeretné használni. Pontosabban Khalifa Ardi Sidqi ezt kérdezte:

„Hogyan állapítható meg, melyik modell felel meg legjobban az adataimnak? Csak az R négyzetet, az SSE-t stb. Nézem? Mivel a modell (kvadratikus, gyökér stb.) Értelmezése nagyon eltérő lesz, nem kérdés? "

A kérdés második részére könnyen lehet választ adni. Először keressen egy modellt, amely a legjobban megfelel az adatainak, majd értelmezze annak eredményeit. Jó, ha van ötleted az adatok magyarázatára. Azonban csak a legjobb modellt értelmezze.

A cikk további része kérdésének első részével foglalkozik. Felhívjuk figyelmét, hogy megosztomaz én megközelítésemhogyanmodell kiválasztásához. Többféle módszer létezik, mások talán másképp csinálják. De leírom a számomra legmegfelelőbb módot.

Ez a megközelítés ráadásul csak az egyváltozós modellekre vonatkozik . Az egyváltozós modellek csak egy bemeneti változóval rendelkeznek. További cikket tervezek, ahol megmutatom, hogyan lehet több bemeneti változóval rendelkező többváltozós modelleket értékelni. A mai napra azonban összpontosítsunk az alapokra és az egyváltozós modellekre.

Ennek gyakorlása és érzése érdekében írtam egy kis ShinyApp-ot. Használja, és játsszon a különböző adatkészletekkel és modellekkel. Figyelje meg, hogy az egyszerű lineáris modellek értékelésével hogyan változnak és válnak magabiztosabbak a paraméterek. Végül az alkalmazást az adatok keretrendszereként is használhatja. Csak másold le a Githubról.

Az egyváltozós modellekhez használja a Adjusted R2-t

Ha csak egy bemeneti változót használ, akkor az adjusted R2érték jól jelzi, hogy a modell mennyire teljesít. Ez szemlélteti, hogy mennyi eltérést magyaráz a modellje.

Ezzel szemben az egyszerű R2, az adjusted R2elveszi az input tényezők figyelembe. Túl sok bemeneti tényezőt büntet és kedvez a párhuzamos modelleknek.

A fenti képernyőképen két olyan modell látható, amelyek értéke 71,3% és 84,32%. Úgy tűnik, hogy a második modell jobb, mint az első. Az alacsony értékű modellek azonban továbbra is hasznosak lehetnek, mivel az adjusted R2érzékeny az adatok zajszintjére. Mint ilyen, csak az azonos adatkészlet modelljeinek ezt a mutatóját hasonlítsa össze, mint a különböző adatkészletek között.

Általában kevés szükség van az SSE-re

Mielőtt tovább olvasna, győződjön meg arról, hogy ugyanarról az SSE-ről beszélünk. A Wikipédián az SSE a négyzetes hibák összegére utal. Egyes statisztikai tankönyvekben azonban az SSE hivatkozhat a megmagyarázott négyzetösszegre (pont az ellenkezőjére). Tehát most tegyük fel, hogy az SSE a négyzetes hibák összegére utal.

Ezért a adjusted R2megközelítőleg 1- SSE / SST. Az SST a négyzetek teljes összegére utal.

Nem akarok mélyebben belemerülni a matematika mögé. Amit én szeretnék, hogy mutassa meg, hogy a adjusted R2számítjuk az SSE . Tehát az SSE általában nem ad további információkat .

Továbbá az adjusted R2a normalizált, hogy mindig nulla és egy között legyen. Tehát Önnek és másoknak könnyebb értelmezni egy ismeretlen modellt adjusted R275% -kal, nem pedig 394-es SSE-vel - bár mindkét ábra ugyanazt a modellt magyarázhatja.

Vessen egy pillantást a maradványokra vagy a hibákra!

Amit gyakran figyelmen kívül hagynak, az a hibakifejezések vagy az úgynevezett maradványok. Gyakran többet mondanak el, mint amit gondolhatna.

A maradványok a megjósolt értékek és a tényleges értékek közötti különbség.

Előnyük, hogy megmutathatják a hibák nagyságát és irányát. Nézzünk meg egy példát :

Itt megpróbáltam megjósolni egy lineáris függvényű polinom adatkészletet. A maradványok elemzése azt mutatja, hogy vannak olyan területek, ahol a modell felfelé vagy lefelé torzít.

A t; 100, a maradványok nulla felett vannak. Tehát ezen a területen a tényleges értékek magasabbak voltak, mint az előre jelzett értékek - modellünk lefelé torzított.50 < x &l

A 100 < x &lt; 150, a maradványok azonban nulla alatt vannak. Így a tényleges értékek alacsonyabbak voltak, mint az előre jelzett értékek - a modell felfelé torzított.

Mindig jó tudni, hogy modellje túl magas vagy túl alacsony értékeket javasol-e. De általában nem akarod, hogy ilyen mintáid legyenek.

A maradéknak átlagosan nulla kell lennie (az átlaggal jelezve), és egyenlően kell elosztani. Ugyanannak az adatkészletnek a polinomiális függvényének előrejelzése 3 degreessokkal jobb illeszkedést javasol:

Ezenkívül megfigyelheti, hogy nő-e a hibák szórása. A statisztikában ezt heteroszkedaszticitásnak hívják. Ezt robusztus szabványos hibákkal könnyen kijavíthatja. Ellenkező esetben a hipotézis tesztje valószínűleg téves.

A maradványok hisztogramja

Végül a hisztogram összefoglalja a hiba kifejezés nagyságát. Információt nyújt a hibák sávszélességéről és jelzi, hogy mely hibák milyen gyakran fordultak elő.

A fenti képernyőképek két modellt mutatnak ugyanarra az adatkészletre. A bal hisztogramon a hibák a -338és tartományon belül fordulnak elő 520.

A jobb hisztogramon hibák fordulnak elő belül -293és belül 401. Tehát a kiugró értékek sokkal alacsonyabbak. Ezenkívül a jobb hisztogram modelljének legtöbb hibája közelebb van a nullához. Tehát a megfelelő modellt támogatnám.

Összegzés

A lineáris modell kiválasztásakor ezeket a tényezőket kell szem előtt tartani:

  • Csak egyazon adatkészlet lineáris modelljeit hasonlítsa össze.
  • Keressen egy olyan modellt, amelynek nagy a korrigált R2 értéke
  • Győződjön meg arról, hogy ennek a modellnek egyenletesen oszlik el a maradéka nulla körül
  • Győződjön meg arról, hogy a modell hibái kis sávszélességen belül vannak

Ha kérdése van, írjon megjegyzést alább, vagy vegye fel a kapcsolatot velem. Értékelem a visszajelzését.