9 kulcsfontosságú gépi tanulási algoritmus, magyarázat egyszerű nyelven

A gépi tanulás megváltoztatja a világot. A Google a gépi tanulás segítségével javasolja a felhasználóknak a keresési eredményeket. A Netflix arra használja, hogy filmeket ajánljon nézésre. A Facebook a gépi tanulás segítségével javasolja az ismerősöket.

A gépi tanulás még soha nem volt ilyen fontos. Ugyanakkor nehéz megérteni a gépi tanulást. A mező tele van zsargonnal. És a különböző ML algoritmusok száma évről évre növekszik.

Ez a cikk bemutatja a gépi tanulás alapvető fogalmait. Pontosabban a 9 legfontosabb gépi tanulási algoritmus mögött álló alapvető fogalmakat fogjuk megvitatni.

Ajánlási rendszerek

Mik azok az ajánlási rendszerek?

Ajánlási rendszereket használnak hasonló bejegyzések megtalálásához az adatkészletben.

Talán a legelterjedtebb reális példa az ajánlásra a Netflix belsejében. Pontosabban, a video streaming szolgáltatás ajánlott filmeket és tévéműsorokat fog ajánlani a már megtekintett tartalom alapján.

Egy másik ajánlási rendszer a Facebook „Emberek, akiket ismerhet” funkció, amely a meglévő barátlistád alapján javasolja az esetleges barátokat.

A teljesen kifejlesztett és kiépített ajánlási rendszerek rendkívül kifinomultak. Nagyon erőforrás-igényesek is.

Ajánlási rendszerek és lineáris algebra

A teljes értékű ajánlási rendszerek alapos felépítéséhez mély háttér szükséges a lineáris algebrában.

Emiatt ebben a szakaszban lehetnek olyan fogalmak, amelyeket nem ért, ha még soha nem tanult lineáris algebrát.

Ne aggódjon - a scikit-learn Python könyvtár nagyon megkönnyíti az ajánlási rendszerek felépítését. S0 a valós ajánlási rendszerek felépítéséhez nem kell sok lineáris algebra háttér.

Hogyan működnek az ajánlási rendszerek?

Az ajánlási rendszerek két fő típusa létezik:

  • Tartalom-alapú ajánlási rendszerek
  • Együttműködő szűrési ajánlási rendszerek

A tartalomalapú ajánlási rendszerek ajánlásokat adnak Önnek a már használt elemek hasonlósága alapján. Pontosan úgy viselkednek, ahogy elvárhatná egy ajánlási rendszer viselkedését.

Az együttműködésen alapuló szűrési ajánlási rendszerek a felhasználó és az elemek közötti interakciók ismeretén alapuló ajánlásokat készítenek. Másképp mondták, használják a tömeg bölcsességét. (Ezért a nevében az „együttműködő” kifejezés.)

A való világban az együttműködésen alapuló szűrési ajánlási rendszerek sokkal gyakoribbak, mint a tartalom-alapú rendszerek. Ez elsősorban azért van, mert jellemzően jobb eredményeket adnak. Egyes gyakorlók számára az együttműködésen alapuló szűrési ajánlási rendszerek is könnyebben érthetők.

Az együttműködésen alapuló szűrési ajánlási rendszerek szintén egyedülálló tulajdonsággal rendelkeznek, hogy hiányoznak a tartalmi alapú rendszerek. Ugyanis képesek önmagukban megtanulni a funkciókat.

Ez azt jelenti, hogy akár meg is kezdhetik azonosítani az elemek közötti hasonlóságokat olyan attribútumok alapján, amelyeket még nem is mondtál nekik, hogy vegyék figyelembe.

Két alkategória van az együttműködő szűrésen belül:

  • Memória alapú együttműködési szűrés
  • Modell alapú együttműködési szűrés

A gépi tanuláshoz nem kell ismernie a kétféle együttműködési szűrési ajánlási rendszer közötti különbségeket. Elég felismerni, hogy több típus létezik.

Szakasz áttekintése

Itt van egy rövid összefoglaló arról, hogy mit ismertettünk az oktatóanyagok ajánlási rendszereivel kapcsolatban:

  • Példák a való világ ajánlási rendszereire
  • A különböző típusú ajánlási rendszerek és az együttműködésen alapuló szűrőrendszerek gyakoribb használata, mint a tartalom-alapú ajánlási rendszerek
  • Az ajánlási rendszerek és a lineáris algebra kapcsolata

Lineáris regresszió

A lineáris regresszió segítségével néhány yértéket megjósolhat egy másik xértékkészlet értéke alapján.

A lineáris regresszió története

A lineáris regressziót az 1800-as években Francis Galton hozta létre.

Galton tudós volt, aki a szülők és a gyerekek kapcsolatát tanulmányozta. Pontosabban, Galton az apák és fiaik magassága közötti kapcsolatot vizsgálta.

Galton első felfedezése az volt, hogy a fiúk nagyjából olyan magasak voltak, mint apjuk. Ez nem meglepő.

Később Galton valami sokkal érdekesebbet fedezett fel. A fiú magassága általában közelebb állt az összes ember átlagos átlagos magasságához, mint saját apjának .

Galton nevet adott ennek a jelenségnek: regresszió . Konkrétan azt mondta, hogy „Egy apa fia magassága általában visszafejlődik (vagy elmozdul az átlagos) magasság felé”.

Ez a statisztika és a gépi tanulás teljes területéhez vezetett, regressziónak.

A lineáris regresszió matematikája

A regressziós modell létrehozásakor csak annyit próbálunk megtenni, hogy olyan vonalat húzunk, amely a lehető legközelebb áll az adatsor egyes pontjaihoz.

Ennek tipikus példája a lineáris regresszió „legkisebb négyzetek módszere”, amely csak egy vonal közelségét számítja felfelé és lefelé.

Íme egy példa ennek szemléltetésére:

Példa a legkisebb négyzetek regressziója mögötti matematikára

Regressziós modell létrehozásakor a végtermék egy egyenlet, amellyel megjósolhatja egy x-érték y-értékét, anélkül, hogy az y-értéket előre tudná.

Logisztikus regresszió

A logisztikai regresszió hasonló a lineáris regresszióhoz, azzal a különbséggel, hogy a numerikus yérték kiszámítása helyett megbecsüli, hogy az adatpont melyik kategóriába tartozik.

Mi a logisztikai regresszió?

A logisztikai regresszió egy gépi tanulási modell, amelyet osztályozási problémák megoldására használnak.

Íme néhány példa a gépi tanulás osztályozási problémáira:

  • Spam e-mailek (spam vagy nem spam?)
  • Gépjármű-biztosítási kárigények (leírás vagy javítás?)
  • Betegség diagnózis

Az osztályozási problémák mindegyikének pontosan két kategóriája van, ami példákat mutat a bináris osztályozási problémákra.

A logisztikus regresszió jól alkalmazható megoldási bináris osztályozási problémák - mi csak rendelni a különböző kategóriák értéke 0és 1rendre.

Miért van szükségünk logisztikai regresszióra? Mivel nem használhat lineáris regressziós modellt bináris osztályozás előrejelzésére. Ez nem vezetne megfelelő illeszkedéshez, mivel egy adatsoron keresztül próbál egyeneset illeszteni, amelynek csak két lehetséges értéke van.

Ez a kép segíthet megérteni, hogy a lineáris regressziós modellek miért nem alkalmasak bináris osztályozási problémákra:

Lineáris regressziós osztályozás

Ezen a képen y-axisa tumor rosszindulatúságának valószínűsége látható. Ezzel szemben az érték 1-yannak a valószínűségét jelzi, hogy a tumor nem rosszindulatú. Amint láthatja, a lineáris regressziós modell rosszul képes megjósolni ezt a valószínűséget az adathalmaz legtöbb megfigyelésénél.

Ezért hasznosak a logisztikai regressziós modellek. Hajlanak a legjobban illeszkedő vonalukhoz, ami sokkal jobban alkalmas a kategorikus adatok előrejelzésére.

Itt van egy példa, amely összehasonlítja a lineáris regressziós modellt egy logisztikai regressziós modellel, ugyanazon edzési adatok felhasználásával:

Lineáris regresszió vs logisztikai regresszió

A Sigmoid funkció

A logisztikai regressziós modell görbéje annak az oka, hogy nem lineáris egyenlet alapján számítják ki. Ehelyett a logisztikai regressziós modelleket a Sigmoid függvény felhasználásával (más néven logisztikai függvénynek hívják, mert logisztikai regresszióban használják) használják.

Nem kell megjegyeznie a Sigmoid függvényt, hogy sikeres legyen a gépi tanulásban. Ennek ellenére hasznos a megjelenésének bizonyos megértése.

Az egyenlet az alábbiakban látható:

A Sigmoid-egyenlet

A megérteni kívánt Sigmoid-függvény fő jellemzője ez: függetlenül attól, hogy milyen értéket ad át neki, mindig kimenetet generál valahol 0 és 1 között.

Logisztikai regressziós modellek használata előrejelzésekhez

A lineáris regressziós modell előrejelzésekhez való felhasználásához általában meg kell adni egy vágási pontot. Ez a határérték általában 0.5.

Használjuk korábbi képünk rákdiagnosztikai példáját, hogy lássuk ezt az elvet a gyakorlatban. Ha a logisztikai regressziós modell 0,5 alatti értéket ad ki, akkor az adatpont nem rosszindulatú daganat kategóriába tartozik. Hasonlóképpen, ha a Sigmoid-függvény 0,5 feletti értéket ad ki, akkor a daganatot rosszindulatúnak minősítenék.

Összevonási mátrix használata a logisztikai regresszió teljesítményének mérésére

A zavartsági mátrix eszközként használható a gépi tanulásban az igazi pozitív, az igazi negatív, a hamis pozitív és a hamis negatív összehasonlítására.

A zavaros mátrixok különösen hasznosak, ha a logisztikai regressziós modellek teljesítményének mérésére használják. Íme egy példa arra, hogyan használhatnánk egy zavartsági mátrixot:

Példa a zavartsági mátrixra

A zavartsági mátrix hasznos annak felmérésére, hogy a modellje különösen gyenge-e a zavartsági mátrix egy meghatározott negyedében. Példának okáért lehet, hogy abnormálisan sok a hamis pozitív.

Bizonyos alkalmazásokban is hasznos lehet, ha megbizonyosodik arról, hogy modellje jól teljesít a zavaros mátrix különösen veszélyes zónájában.

Például ebben a rákos példában nagyon biztosnak akar lenni abban, hogy a modellje nem rendelkezik túl nagy számú hamis negatívummal, mivel ez azt jelzi, hogy valakinek rosszindulatú daganata van, amelyet Ön helytelenül nem rosszindulatúnak minősített.

Szakasz áttekintése

Ebben a szakaszban volt az első kitettséged a logisztikai regressziós gépi tanulási modellekkel.

Itt van egy rövid összefoglaló arról, amit megtanult a logisztikai regresszióról:

  • A logisztikai regressziós modellek segítségével megoldható osztályozási problémák típusai
  • Hogy a logisztikai függvény (más néven Sigmoid függvény) mindig 0 és 1 közötti értéket ad ki
  • Hogyan lehet felhasználni a cut-off pontokat előrejelzések készítésére egy logisztikai regressziós gépi tanulási modell segítségével
  • Miért hasznosak a zavaros mátrixok a logisztikai regressziós modellek teljesítményének mérésére?

K-Legközelebbi szomszédok

A K-legközelebbi szomszédok algoritmus segíthet megoldani a besorolási problémákat, ha kettőnél több kategória van.

Mi a K-legközelebbi szomszédok algoritmusa?

A K-legközelebbi szomszédok algoritmus egy egyszerű elven alapuló osztályozási algoritmus. Valójában az elv annyira egyszerű, hogy a példán keresztül érthető meg legjobban.

Képzelje el, hogy rendelkezésére állt adatok a futballisták és kosárlabdázók magasságáról és súlyáról. A K-legközelebbi szomszédok algoritmusával meg lehet jósolni, hogy egy új sportoló focista vagy kosárlabdázó-e.

Ehhez a K-legközelebbi szomszédok algoritmus azonosítja Kaz új megfigyeléshez legközelebb eső adatpontokat.

A következő kép ezt vizualizálja, K értéke 3:

K legközelebbi szomszéd vizualizációja

Ezen a képen a futballistákat kék adatpontok, a kosárlabdázókat narancssárga pontok jelölik. Az adatpontot, amelyet megpróbálunk osztályozni, zöld színnel jelöltük.

Mivel a szekrények adatpontjainak többsége (3-ból 2) kék futballista, akkor a K-legközelebbi szomszédok algoritmusa megjósolja, hogy az új adatpont egyben focista is.

A K-legközelebbi szomszédok algoritmusának felépítésének lépései

A K-legközelebbi szomszédok algoritmusának felépítésének általános lépései:

  1. Tárolja az összes adatot
  2. Számítsa ki az euklideszi távolságot az új adatponttól az adatsor xösszes többi pontjáig
  3. Rendezze az adatkészlet pontjait a távolságtól való növekvő sorrendben x
  4. Tippelje meg, hogy ugyanazt a kategóriát használja, mint a Klegközelebbi adatpontok többségex

K jelentősége a K-legközelebbi szomszédok algoritmusában

Bár lehet, hogy kezdettől fogva nem nyilvánvaló, a KK-legközelebbi szomszédok algoritmus értékének megváltoztatása megváltoztatja, hogy melyik kategóriához rendeljen új pontot.

Pontosabban, ha nagyon alacsony az Kértéke, akkor a modell tökéletesen megjósolja az edzésadatokat és rosszul megjósolja a tesztadatokat. Hasonlóképpen, ha túl nagy az Kértéke, akkor a modellje szükségtelenül bonyolulttá válik.

A következő vizualizáció kiválóan illusztrálja ezt:

K érték és hibaarány

A K-legközelebbi szomszédok algoritmusának előnyei és hátrányai

A K-legközelebbi szomszédok algoritmusának bevezetésének befejezéséhez röviden meg akartam vitatni a modell használatának néhány előnyét és hátrányát.

A K-legközelebbi szomszédok algoritmusának néhány fő előnye:

  • Az algoritmus egyszerű és könnyen érthető
  • Triviális a modell új képzési adatokra való kiképzése
  • Bármely kategóriával működik egy osztályozási problémában
  • Könnyű több adatot hozzáadni az adathalmazhoz
  • A modell csak két paramétert fogad el: Kés a használni kívánt távolságmérőt (általában euklideszi távolságot)

Hasonlóképpen, íme az algoritmus néhány fő hátránya:

  • Az előrejelzések magas számítási költségekkel járnak, mivel a teljes adatsort rendezni kell
  • Nem működik jól kategorikus jellemzőkkel

Szakasz áttekintése

Itt van egy rövid összefoglaló arról, amit most tanult a k-legközelebbi szomszédok algoritmusáról:

  • Példa osztályozási problémára (focisták vs kosárlabdázók), amelyet a K-legközelebbi szomszédok algoritmusa megoldhatna
  • Hogyan használja a K-legközelebbi szomszédok a szomszédos adatpontok euklideszi távolságát annak megjóslásához, hogy egy új adatpont melyik kategóriába tartozik
  • Miért Kszámít a jóslat előrejelzésének értéke?
  • A K-legközelebbi szomszédok algoritmus használatának előnyei és hátrányai

Döntési fák és véletlenszerű erdők

A döntési fák és a véletlenszerű erdők egyaránt példák a fa módszerére.

Pontosabban, a döntési fák olyan gépi tanulási modellek, amelyek segítségével előrejelzéseket lehet végezni azáltal, hogy egy-egy adatcsoport minden funkcióját végigkísérik. A véletlenszerű erdők olyan döntési fák együttesei, amelyek az adatkészletek jellemzőinek véletlenszerű sorrendjét használták.

Mik azok a fa módszerek?

Mielőtt beleásnánk a fa-módszerek elméleti alapjait a gépi tanulásba, hasznos egy példával kezdeni.

Képzelje el, hogy minden hétfőn kosárlabdázik. Sőt, mindig ugyanazt a barátot hívod meg, hogy jöjjön el veled játszani.

Néha valóban eljön a barát. Néha nem.

A jövés eldöntése számos tényezőtől függ, mint például az időjárás, a hőmérséklet, a szél és a fáradtság. Kezd észrevenni ezeket a funkciókat, és nyomon követi őket barátja döntése mellett, hogy játszik-e vagy sem.

Ezekkel az adatokkal megjósolhatja, hogy barátja megjelenik-e kosárlabdázni. Az egyik technika, amelyet használhat, a döntési fa. Így néz ki ez a döntési fa:

Példa a döntési fára

Minden döntési fának kétféle eleme van:

  • Nodes: azok a helyek, ahol a fa valamilyen attribútum értéke szerint hasad
  • Edges: a következő csomópontra történő felosztás eredménye

Láthatjuk a fenti képen, hogy vannak csomópontok outlook, humidityés windy. Ezen attribútumok minden potenciális értékének van éle.

Íme két másik döntési fa terminológia, amelyet meg kell értenie a folytatás előtt:

  • Root: az első osztást végrehajtó csomópont
  • Leaves: terminális csomópontok, amelyek megjósolják a végeredményt

Most már alapvető ismeretekkel rendelkezik a döntési fákról. A következő szakaszban megtudhatjuk, hogyan lehet a semmiből döntési fákat építeni.

Hogyan készítsünk döntési fákat karcolásból

A döntési fák építése nehezebb, mint azt elképzelni lehet. Ennek az az oka, hogy annak eldöntése, hogy mely tulajdonságokra osztja fel az adatait (ez az a téma tartozik az Entrópia és az Információszerzés területéhez) matematikailag összetett probléma.

Ennek megoldására a gépi tanulást végző szakemberek általában sok döntési fát használnak a felosztásként kiválasztott jellemzők véletlenszerű mintájának felhasználásával.

Másképp fogalmazva, minden egyes fához minden egyes hasításnál új, véletlenszerű minta kerül kiválasztásra. Ezt a technikát véletlenszerű erdőknek nevezzük .

Általánosságban a szakemberek a jellemzők véletlenszerű mintájának méretét (jelölik m) választották az adatkészlet összes elemének négyzetgyökének (jelölve p). A tömörség mnégyzetgyöke p, majd véletlenszerűen kiválaszt egy adott tulajdonságot m.

Ha ennek most nincs teljes értelme, ne aggódjon. Világosabb lesz, ha végül elkészíti az első véletlenszerű erdőmodelljét.

A véletlenszerű erdők használatának előnyei

Képzelje el, hogy olyan adatkészlettel dolgozik, amelynek egy nagyon erős tulajdonsága van. Másképp mondva az adatkészletnek van egy olyan jellemzője, amely sokkal jobban megjósolja a végeredményt, mint az adatkészlet többi jellemzője.

Ha manuálisan készíti el a döntési fákat, akkor célszerű ezt a funkciót a döntési fa felső részeként használni. Ez azt jelenti, hogy több fája lesz, amelyek előrejelzései erősen korrelálnak.

Ezt el akarjuk kerülni, mivel a szorosan összefüggő változók átlagának megadása nem csökkenti jelentősen a varianciát. Ha véletlenszerűen választunk ki egy véletlenszerű erdő egyes fáira jellemzőket, akkor a fák dekorrelálódnak, és a kapott modell szórása csökken. Ez a dekorreláció a véletlenszerű erdők használatának fő előnye a kézzel készített döntési fákkal szemben

Szakasz áttekintése

Itt van egy rövid összefoglaló arról, amit ebben a cikkben tanult a döntési fákról és a véletlenszerű erdőkről:

  • Példa olyan problémára, amelyet a döntési fák használatával megjósolhat
  • Az elemek a döntési fa: nodes, edges, roots, ésleaves
  • Hogyan lehet véletlenszerű mintát venni a döntési fa jellemzőiből, lehetővé teszi számunkra, hogy véletlenszerű erdőt építsünk
  • Miért lehet a véletlenszerű erdők használata a változók dekorrelálására a végső modell varianciájának csökkentésében?

Támogatja a vektoros gépeket

A támogató vektorgépek olyan osztályozási algoritmusok (bár technikailag is felhasználhatók regressziós problémák megoldására), amelyek az adatsort kategóriákra osztják, a kategóriák közötti legszélesebb résen keresztül szeletelve. Ez a koncepció egy pillanat alatt vizualizációk révén világosabbá válik.

Melyek a támogató vektor gépek?

A támogató vektorgépek - vagy röviden SVM-ek - felügyelt gépi tanulási modellek társított tanulási algoritmusokkal, amelyek elemzik az adatokat és felismerik a mintákat.

A támogató vektor gépeket osztályozási és regressziós problémákra egyaránt lehet használni. Ebben a cikkben konkrétan megvizsgáljuk a támogatási vektor gépek használatát az osztályozási problémák megoldásához.

Hogyan működnek a vektorgépek támogatása?

Vizsgáljuk meg, hogyan működnek a támogató vektor gépek.

Adott egy sor képzési példa - amelyek mindegyike két kategória egyikéhez tartozik - egy támogató vektoros gépi oktatási algoritmus épít egy modellt. Ez a modell új példákat rendel a két kategória egyikébe. Ez a támogatási vektor gépet nem valószínűségi bináris lineáris osztályozóvá teszi.

Az SVM a geometria segítségével kategorikus előrejelzéseket készít.

Pontosabban, egy SVM-modell az adatpontokat a tér pontjaiként térképezi fel, és az elkülönített kategóriákat úgy osztja fel, hogy azokat a lehető legszélesebb nyílt rés osztja el. Az előrejelzések szerint az új adatpontok egy kategóriába tartoznak annak alapján, hogy a rés melyik oldalához tartoznak.

Íme egy példa a vizualizációról, amely segít megérteni a támogató vektoros gépek mögött rejlő intuíciót:

Mint látható, ha egy új adatpont a zöld vonal bal oldalára esik, akkor azt a piros kategóriával jelölik. Hasonlóképpen, ha egy új adatpont a zöld vonal jobb oldalára esik, akkor azt a kék kategóriába sorolják.

Ezt a zöld vonalat nevezzük hipersíknak , amely a támogató vektoros gépi algoritmusok fontos szókészlete.

Vessünk egy pillantást egy támogató vektor gép más vizuális megjelenítésére:

Ebben a diagramban a hipersíkot az optimális hipersíkként jelölik . A támogató vektor-gépelmélet úgy definiálja az optimális hipersíkot, mint amely maximalizálja az egyes kategóriák legközelebbi adatpontjai közötti különbözetet.

Mint látható, a margóvonal valójában három adatpontot érint - kettőt a vörös kategóriából és egyet a kék kategóriából. Ezeket az margóvonalakat érintő adatpontokat támogatási vektoroknak nevezzük, és innen kapják a nevüket a támogató vektorok .

Szakasz áttekintése

Itt van egy rövid összefoglaló arról, amit most megtanult a támogató vektoros gépekről:

  • Hogy a támogató vektoros gépek példák a felügyelt gépi tanulási algoritmusra
  • Hogy a támogató vektoros gépek mind osztályozási, mind regressziós problémák megoldására használhatók
  • Hogyan támogatják a támogatott vektorgépek az adatpontokat egy olyan hipersík segítségével, amely maximalizálja az adathalmaz kategóriák közötti margóját
  • Hogy a támaszvektor-gépben a margóvonalakat érintő adatpontokat támogatási vektoroknak nevezzük . Ezekből az adatpontokból származnak a támogató vektorgépek a nevük.

K-csoportosítást jelent

A K-jelentésű fürtözés egy gépi tanulási algoritmus, amely lehetővé teszi hasonló adatok szegmenseinek azonosítását egy adatkészleten belül.

Mi az a K-Means klaszterezés?

A K-jelentésű fürtözés felügyelet nélküli gépi tanulási algoritmus.

Ez azt jelenti, hogy címkézetlen adatokat vesz fel, és megpróbálja a megfigyelések hasonló csoportjait az adatokon belül csoportosítani.

A K-jelentésű klaszterező algoritmusok nagyon hasznosak a valós problémák megoldásához. Íme néhány használati eset ennek a gépi tanulási modellnek:

  • Ügyfélszegmentálás marketing csapatok számára
  • Dokumentumok besorolása
  • Szállítási útvonal optimalizálás olyan vállalatok számára, mint az Amazon, a UPS vagy a FedEx
  • A városon belüli bűnügyi központok azonosítása és reagálás azokra
  • Professzionális sportanalitika
  • A számítógépes bűnözés előrejelzése és megelőzése

A K elsődleges célja a klaszterező algoritmus az, hogy az adatsort elkülönített csoportokra osztja úgy, hogy az egyes csoportokon belüli megfigyelések hasonlóak legyenek.

Itt látható egy vizuális ábrázolás a gyakorlatban:

A K vizualizálása azt jelenti, hogy fürtözési algoritmus

A K-jelentésű klaszter mögötti matematikát ennek az oktatóanyagnak a következő szakaszában tárjuk fel.

Hogyan működnek a K-eszközök klaszterező algoritmusai?

A K-jelentésű fürtözési algoritmus futtatásának első lépése az, hogy kiválassza a fürtök számát, amelyekre fel szeretné osztani az adatait. Ez a fürtszám Kaz algoritmus nevében hivatkozott érték.

KFontos választás az érték kiválasztása a K-jelentésű fürtö algoritmuson belül. Arról, hogy miként válasszuk ki a megfelelő értéket K, a cikk későbbi részében többet fogunk beszélni .

Ezután véletlenszerűen kell rendelnie az adatkészlet minden egyes pontját egy véletlenszerű fürthöz. Ez megadja a kezdeti hozzárendelésünket, amelyen a következő iterációt futtatja, amíg a fürtök nem állnak le:

  • Számítsa ki az egyes fürtök centroidjait úgy, hogy az adott fürtön belüli pontok átlagvektorát veszi
  • Hozzárendeljen minden egyes adatpontot ahhoz a fürthöz, amelynek a legközelebbi centroidja van

Itt egy animáció hogyan is működik ez a gyakorlatban egy K-közép klaszter algoritmust Kértékét 3. Láthatja az egyes klaszterek centroidját, amelyet fekete +karakter képvisel .

A K vizualizálása azt jelenti, hogy fürtözési algoritmus

Amint láthatja, ez az iteráció addig folytatódik, amíg a fürtök leállnak - vagyis az adatpontok már nincsenek hozzárendelve új fürtökhöz.

Megfelelő K érték kiválasztása a K számára klaszterezési algoritmusokat jelent

Megfelelő Kértéket választani a K-jelentésű fürtö algoritmushoz valójában meglehetősen nehéz. Nincs „helyes” válasz a „legjobb” Kérték kiválasztására.

Az egyik módszert, amelyet a gépi tanulás gyakorlói gyakran alkalmaznak, könyökmetódusnak nevezzük .

A könyök metódus használatához az első dolog, amit meg kell tennie, hogy kiszámolja a négyzetes hibák összegét (SSE) az Ön számára. K-jelentésű fürtözési algoritmus Kértékcsoportra. Az SSE egy K-ban azt jelenti, hogy a fürtözési algoritmus a fürt egyes adatpontjai és az adott fürt centroidja közötti négyzet távolságának összege.

Példaként ezt a lépést, akkor lehet számítani a SSE az Kértékeit 2, 4, 6, 8, és 10.

Ezután létre kell hoznia az SSE diagramját ezen különböző Kértékek alapján. Látni fogja, hogy a hiba az Kérték növekedésével csökken .

Ennek van értelme - minél több kategóriát hoz létre egy adatkészleten belül, annál valószínűbb, hogy minden adatpont közel van az adott fürt közepéhez.

Ezzel a könyök módszer ötlete olyan érték kiválasztása K, amelynél az SSE hirtelen lassítja a csökkenés sebességét. Ez a hirtelen csökkenés egy elbowgrafikont eredményez.

Példaként itt az SSE grafikonja látható K. Ebben az esetben a könyök módszer azt javasolja, hogy Kkb 6.

A K vizualizálása azt jelenti, hogy fürtözési algoritmus

Fontos, hogy 6ez csak egy becslés a Kfelhasználás jó értékére . A KK-jelentésű fürtözési algoritmusban soha nincs „legjobb” érték. Mint sok minden a gépi tanulás területén, ez is nagyon helyzetfüggő döntés.

Szakasz áttekintése

Itt van egy rövid összefoglaló a cikkben tanultakról:

  • Példák felügyelet nélküli gépi tanulási problémákra, amelyek megoldására a K-jelentésű fürtö algoritmus képes
  • A K-alapú klaszterező algoritmus alapelvei
  • Hogyan működik a K-jelentésű fürtö algoritmus?
  • Hogyan lehet a könyök módszerrel kiválasztani a megfelelő értéket Kegy K-átlagú fürtözési modellben

Főkomponens analízis

A főkomponens-elemzést arra használják, hogy egy sok funkcióval rendelkező adatsort transzformált, kevesebb jellemzővel rendelkező adatsorzattá alakítsanak, ahol minden új szolgáltatás a már létező jellemzők lineáris kombinációja. Ennek az átalakított adatsornak az eredeti adatsorozat varianciájának nagy részét sokkal egyszerűbb módon kívánja megmagyarázni.

Mi az a fő alkotóelem-elemzés?

A főkomponens-elemzés egy gépi tanulási technika, amelyet a változóhalmazok közötti összefüggések vizsgálatára használnak.

Másképp mondva, a főkomponens-elemzés változókészleteket tanulmányoz annak érdekében, hogy azonosítsa a változók mögöttes szerkezetét.

A fő komponenselemzést néha faktoranalízisnek nevezik .

E leírás alapján azt gondolhatja, hogy a főkomponens-elemzés meglehetősen hasonló a lineáris regresszióhoz.

Ez nem így van. Valójában ennek a két technikának van néhány fontos különbsége.

A lineáris regresszió és a fő komponens elemzés közötti különbségek

A lineáris regresszió meghatározza a legjobban illeszkedő vonalat egy adatkészleten keresztül. A főkomponens-elemzés több ortogonális vonalat határoz meg, amelyek a legjobban illeszkednek az adatkészlethez.

Ha nem ismeri az ortogonális kifejezést , ez csak azt jelenti, hogy a vonalak egymással derékszögben (90 fok) vannak - például Észak, Kelet, Dél és Nyugat a térképen vannak.

Vegyünk egy példát, amely segít jobban megérteni ezt.

Fő elemzés

Vessen egy pillantást a kép tengelycímkéire.

Ezen a képen az x tengely főkomponense az adatkészlet varianciájának 73% -át példázza. Az y tengely főkomponense az adatkészlet varianciájának körülbelül 23% -át magyarázza.

Ez azt jelenti, hogy az adatkészlet varianciájának 4% -a megmagyarázhatatlan marad. Ezt a számot tovább csökkentheti, ha további fő összetevőket ad hozzá elemzéséhez.

Szakasz áttekintése

Íme egy rövid összefoglaló arról, amit az oktatóanyag fő elemzéséről tanult:

  • Ez a főkomponens-elemzés megkísérli megtalálni az ortogonális tényezőket, amelyek meghatározzák az adathalmaz változékonyságát
  • A főkomponens-elemzés és a lineáris regresszió közötti különbségek
  • Hogy néznek ki az ortogonális főkomponensek, amikor egy adatkészlet belsejében vizualizálják őket
  • Az, hogy további fő alkotóelemeket ad hozzá, segít megmagyarázni az adatkészlet varianciájának nagyobb részét