Az adattudomány izgalmas, gyorsan mozgó terület, amelyben részt kell venni. Tehetséges, elemző gondolkodású egyének iránt nincs hiány. Bármilyen méretű cégek alkalmaznak tudósokat, a szerep pedig az ipar és az alkalmazások széles körében nyújt valós értéket.
Gyakran előfordul, hogy az emberek először találkoznak a területtel a nagy kutatási szervezetek által generált sci-fi címsorok olvasásán keresztül. A közelmúltban elért haladás felvetette a gépi tanulás lehetőségét arra, hogy átalakítsa a világot, ahogyan azt egy generáción belül ismerjük.
Az egyetemen és a kutatáson kívül azonban az adattudomány sokkal többről szól az olyan fő témák mellett, mint a mély tanulás és az NLP.
Az adattudósok kereskedelmi értékének nagy része abból a világosságból és betekintésből származik, amelyet hatalmas mennyiségű adat hozhat. Ez a szerep mindent magában foglalhat az adatkezeléstől kezdve az adatelemzésen és a jelentéstételig - talán némi gépi tanulást bedobnak.
Különösen ez a helyzet egy induló cégnél. A korai és közepes stádiumú vállalatok adatigénye általában távol áll a neurális hálózatok és a számítógépes látás területétől. (Hacsak természetesen nem ezek a termék / szolgáltatás alapvető jellemzői).
Inkább pontos elemzésre, megbízható folyamatokra és gyors méretezésre van szükségük.
Ezért a sok hirdetett adattudományi szerephez szükséges készségek szélesek és változatosak. Mint az élet minden törekvése, az érték nagy része az alapok elsajátításából származik. A mesés 80:20 szabály érvényes - az érték körülbelül 80% -a a készség 20% -ából származik.
Itt van egy áttekintés néhány alapvető készségről, amelyet minden vágyakozó tudósnak el kell sajátítania.
Kezdje a statisztikákkal
A fő tulajdonság, amelyet egy tudós a vállalatuk számára hoz, az a képesség, hogy eldöntsék a betekintést a bonyolultságtól. Ennek eléréséhez kulcsfontosságú, hogy megértsük, hogyan fedezhetjük fel a jelentést a zajos adatokból.
A statisztikai elemzés ezért fontos elsajátítandó készség. A Statisztika segítségével:
- Írja le az adatokat, hogy részletes képet nyújtson az érdekelt feleknek
- Hasonlítsa össze az adatokat és tesztelje a hipotéziseket az üzleti döntések megalapozása érdekében
- Határozza meg azokat a trendeket és kapcsolatokat, amelyek valódi prediktív értéket nyújtanak
A statisztika hatékony eszközkészletet kínál a kereskedelmi és operatív adatok értelmezéséhez.
De légy óvatos! A korlátozott betekintésnél rosszabb a megtévesztő felismerés. Ezért létfontosságú megérteni a statisztikai elemzés alapjait.
Szerencsére van néhány vezérelv, amelyet követhet.
Értékelje feltevéseit
Nagyon fontos tisztában lenni az adataival kapcsolatos feltételezésekkel.
Mindig legyen kritikus a származással és szkeptikus az eredményekkel szemben. Lehet-e „érdektelen” magyarázat az adatok bármely megfigyelt trendjére? Mennyire érvényes az Ön által kiválasztott statisztikai teszt vagy módszertan? Adatai megfelelnek-e az összes mögöttes feltételezésnek?
Az a feltételezésektől is függ, hogy mely megállapítások „érdekesek” és érdemes jelentést tenni. Elemi eset annak eldöntése, hogy helyesebb-e az adatkészlet átlagának vagy mediánjának jelentése.
Gyakran fontosabb, mint hogy melyik megközelítést alkalmazzuk, az, hogy melyiket nem . Egy adott adatsor elemzésére általában többféle módszer létezik, de mindenképpen kerülje el a gyakori buktatókat.
Például több összehasonlítást mindig korrigálni kell. Semmilyen körülmények között ne próbáljon meg megerősíteni egy hipotézist ugyanazokkal az adatokkal, amelyeket a létrehozásához használtak! Meglepődnél, hogy ez milyen könnyen megvalósul.
Terjesztés> Hely
Amikor bevezető statisztikáról beszélek, mindig feltétlenül hangsúlyozok egy adott pontot: a változó eloszlása általában legalább annyira érdekes / informatív, mint a helye. Valójában gyakran inkább.

Ennek oka, hogy a változó eloszlása általában információkat tartalmaz az alapul szolgáló generatív (vagy mintavételi) folyamatokról.
Például a számlálási adatok gyakran Poisson-eloszlást követnek, míg a pozitív visszajelzéseket („megerősítést”) mutató rendszer hajlamos lesz a hatalmi törvény eloszlását felszínre hozni. Soha ne támaszkodjon az adatok normális elosztására anélkül, hogy először alaposan ellenőrizné.
Másodszor, az adatok eloszlásának megértése elengedhetetlen ahhoz, hogy tudjuk, hogyan kell vele dolgozni! Számos statisztikai teszt és módszer az adatok elosztására vonatkozó feltételezésekre támaszkodik.
Kitalált példaként mindig ügyeljen arra, hogy az unimodális és a bimodális adatokat másként kezelje. Lehet, hogy ugyanaz az átlag, de egy csomó fontos információt elveszít, ha figyelmen kívül hagyja a terjesztésüket.
Egy érdekes példa, amely szemlélteti, miért érdemes mindig ellenőriznie az adatait az összefoglaló statisztikák jelentése előtt, nézze meg az Anscombe kvartettjét:

Minden grafikon nagyon megkülönböztetően néz ki, igaz? Ennek ellenére mindegyiknek azonos az összesített statisztikája - beleértve azok átlagát, varianciáját és korrelációs együtthatóit. Az eloszlások némelyikének ábrázolása meglehetősen eltérőnek tűnik.

Végül egy változó eloszlása határozza meg a valódi értékkel kapcsolatos bizonyosságot. A „keskeny” eloszlás nagyobb biztonságot, míg a „széles” eloszlás kevesebbet enged meg.
Az átlag körüli eltérés döntő fontosságú a kontextus megadásához. Túl gyakran a nagyon nagy konfidencia intervallummal rendelkező eszközöket jelentik a nagyon szűk konfidencia intervallumokkal rendelkező eszközök mellett. Ez félrevezető lehet.
Megfelelő mintavétel
A valóság az, hogy a mintavétel fájdalmas pont lehet a kereskedelemorientált adattudósok számára, különösen azok számára, akik kutatási vagy mérnöki háttérrel rendelkeznek.
Kutatási körülmények között finomhangolhatja a pontosan megtervezett kísérleteket sokféle tényezővel és szinttel, valamint kontroll kezelésekkel. Az „élő” kereskedelmi feltételek azonban adatgyűjtés szempontjából gyakran nem optimálisak. Minden döntést gondosan mérlegelni kell a „szokásos üzletmenet” megszakításának kockázatával.
Ez megköveteli az adatkutatóktól, hogy találékonyak, mégis reálisak legyenek a problémamegoldáshoz való hozzáállásukkal.
Az A / B teszt kanonikus példája annak a megközelítésnek, amely szemlélteti, hogyan lehet a termékeket és a platformokat szemcsés szinten optimalizálni anélkül, hogy a szokásos üzletvitelt jelentős zavarás okozná.

A bayesi módszerek hasznosak lehetnek kisebb adathalmazokkal való munkavégzéshez, ha van egy ésszerűen informatív előkészlet, amelyből dolgozhat.
Bármely gyűjtött adatnál feltétlenül ismerje fel annak korlátozásait.
A felmérés adatai hajlamosak a mintavételi torzításra (gyakran a legerősebb véleményű válaszadók szánnak időt a felmérés kitöltésére). Az idősorokat és a téradatokat befolyásolhatja az autokorreláció. És végül, de nem utolsósorban, mindig figyeljen a multikollinearitásra, amikor a kapcsolódó forrásokból származó adatokat elemez.
Data Engineering
Valami adattudományi közhely, de a valóság az, hogy az adatkezelési munkafolyamat nagy részét az átlátóbb upstream elemzéshez szükséges nyers adatok beszerzésére, tisztítására és tárolására fordítja.
Viszonylag kevés időt fordítanak az algoritmusok nulláról történő megvalósítására. Valójában a legtöbb statisztikai eszköz belső működésével rendezett R csomagokba és Python modulokba van csomagolva.
Az „extrakció-átalakítás-terhelés” (ETL) folyamat kritikus fontosságú bármely adattudományi csapat sikeréhez. A nagyobb szervezetek számára elkötelezett adatmérnökök lesznek, hogy megfeleljenek összetett adatinfrastruktúra-követelményeiknek, de a fiatalabb vállalatok gyakran attól függenek, hogy tudósok erős, átfogó saját mérnöki készségekkel rendelkeznek.

Programozás a gyakorlatban
Az adattudomány erősen interdiszciplináris. A szerep a fejlett elemzési készségek és a területspecifikus ismeretek mellett szilárd programozási készségeket is igényel.
Arra nincs tökéletes válasz, hogy a vágyakozó tudós mely programozási nyelveket tanulja meg használni. Ez azt jelenti, hogy a Python és / vagy R legalább egyike nagyon jól fog szolgálni.

Bármelyik nyelvet is választja, törekedjen arra, hogy megismerje annak minden jellemzőjét és a környező ökoszisztémát. Böngésszen a rendelkezésére álló különféle csomagokban és modulokban, és állítsa be tökéletes IDE-jét. Ismerje meg azokat az API-kat, amelyeket a vállalat alapvető platformjaihoz és szolgáltatásaihoz kell használni.
Az adatbázisok az összes munkafolyamat kirakós játékának szerves részét képezik. Ügyeljen arra, hogy elsajátítsa az SQL néhány dialektusát. A pontos választás nem túl fontos, mert a közöttük történő váltás szükség esetén kezelhető folyamat.
Érdemes lehet megismerni a NoSQL adatbázisokat (például a MongoDB) is, ha cége használja őket.
Magabiztos parancssori felhasználóvá válás nagyban hozzájárul a napi termelékenység növeléséhez. Még az egyszerű bash szkriptek ismeretének átélése is erőteljes kezdéshez vezet az ismétlődő feladatok automatizálásában.
Hatékony kódolás
A feltörekvő adatkutatók számára nagyon fontos készség a hatékony kódolás. Az újrafelhasználhatóság kulcsfontosságú. Érdemes időt szakítani arra (amikor elérhető), hogy a kódot olyan absztrakciós szinten írják, amely lehetővé teszi annak többszörös használatát.
Meg kell találni az egyensúlyt a rövid és a hosszú távú prioritások között.
Nincs értelme kétszer annyi idő alatt megírni egy eseti szkriptet, hogy újrafelhasználható legyen, ha nincs esély arra, hogy valaha is releváns legyen. Mégis minden régi perc újrafuttatására fordított perc egy perc, amelyet korábban el lehetett volna menteni.
A szoftvertervezéssel kapcsolatos bevált gyakorlatokat érdemes kidolgozni annak érdekében, hogy valóban teljesítő gyártási kódot írjunk.
A verziókezelő eszközök, például a Git, sokkal egyszerűbbé teszik a kód telepítését és karbantartását. A feladatütemezők lehetővé teszik a rutin folyamatok automatizálását. A rendszeres kódellenőrzés és az elfogadott dokumentációs szabványok sokkal könnyebbé teszik csapatának jövőjét.
Bármely technikai szakterületen általában nincs szükség a kerék újrafeltalálására. Az adatkezelés sem kivétel. Az olyan keretrendszerek, mint az Airflow, megkönnyítik és megbízhatóbbá teszik az ETL folyamatok ütemezését és nyomon követését. Az elosztott adattároláshoz és -feldolgozáshoz vannak Apache Spark és Hadoop.

A kezdőnek nem feltétlenül kell ezeket mélységesen megtanulnia. Ennek ellenére mindig előnyös a környező ökoszisztéma és a rendelkezésre álló eszközök ismerete.
Kommunikáljon világosan
Az adattudomány egy teljes kötegű tudományág, az érdekelt felek számára fontos kezelőfelülettel: a jelentési réteggel.
A tény egyszerű - a hatékony kommunikáció jelentős kereskedelmi értéket hoz magával. Az adattudomány esetében a hatékony jelentéskészítésnek négy aspektusa van.
- Pontosság
Ez nyilvánvaló okokból döntő fontosságú. A készség itt az, hogyan kell értelmezni az eredményeket, miközben tisztában van az esetleges korlátozásokkal és figyelmeztetésekkel. Fontos, hogy egy adott eredmény relevanciáját ne hagyja túllépni vagy lebecsülni.
- Pontosság
Ez számít, mert a jelentésében felmerülő kétértelműség az eredmények téves értelmezéséhez vezethet. Ennek negatív következményei lehetnek tovább.
- Tömör
Tartsa a jelentését a lehető legrövidebb ideig, de ne rövidebbet. Egy jó formátum adhat némi kontextust a fő kérdéshez, tartalmazhatja a rendelkezésre álló adatok rövid leírását, és áttekintést ad a „címsor” eredményeiről és grafikájáról. Extra részleteket lehet (és kell) mellékelni egy függelékbe.
- Hozzáférhető
Folyamatosan egyensúlyba kell hozni egy jelentés technikai pontosságát a valósággal, miszerint az olvasók többsége a saját szakterületének szakértője lesz, és nem feltétlenül az adattudomány. Itt nincs egyszerű, mindenki számára megfelelő válasz. A gyakori kommunikáció és visszacsatolás elősegíti a megfelelő egyensúly kialakítását.
A grafikus játék
A hatékony adatmegjelenítések segítenek a komplex eredmények hatékony kommunikációjában az érdekelt felekkel. Egy jól megtervezett grafikon vagy diagram egy pillanat alatt felfedheti, hogy a szöveg melyik bekezdésére lenne szükség.
Az ingyenes és fizetett vizualizációs és irányítópult-építő eszközök széles választéka áll rendelkezésre, beleértve a Plotly, a Tableau, a Chartio, a d3.js és még sokan mások.
Gyors makettezés céljából néha nem lehet legyőzni olyan jó vágású táblázatkezelő szoftvereket, mint az Excel vagy a Google Sheets. Ezek szükség szerint elvégzik a munkát, bár nem rendelkeznek a célra épített megjelenítő szoftverek funkcionalitásával.
Az irányítópultok és grafikák készítésekor számos vezérelvet kell figyelembe venni. A mögöttes kihívás a vizualizáció információs értékének maximalizálása, az „olvashatóság” feláldozása nélkül.

A hatékony vizualizáció gyors pillantással magas szintű áttekintést nyújt. A bonyolultabb grafikáknak egy kicsit hosszabb ideig tarthat a néző megemésztése, és ennek megfelelően sokkal nagyobb információtartalmat kell kínálniuk.
Ha valaha csak egy könyvet olvasott az adatmegjelenítésről, akkor Edward Tufte klasszikusa A mennyiségi információk vizuális megjelenítésea kiemelkedő választás.
A Tufte egymaga népszerűsítette és feltalálta az adatmegjelenítés területének nagy részét. A széles körben használt kifejezések, mint például a „chartjunk” és az „adatsűrűség”, Tufte munkájának köszönhetik eredetüket. Az „adat-tinta arány” koncepciója harminc éven át továbbra is befolyásos.
A színek, az elrendezés és az interaktivitás használata gyakran különbséget tesz a jó és a jó minőségű, professzionális megjelenítés között.

Végül egy nagyszerű adatmegjelenítés létrehozása olyan képességeket érint, amelyek gyakrabban kapcsolódnak az UX-hez és a grafikai tervezéshez, mint az adattudományhoz. Szabadidejében olvasva ezeket a tantárgyakat, nagyszerű módja annak, hogy tudatosítsa, mi működik és mi nem.
Feltétlenül nézze meg az olyan webhelyeket, mint a bl.ocks.org, hogy ihletet nyújtson!
Az adattudomány változatos készségeket igényel
Négy alapvető készségterület van, amelyeken Önnek, mint vágyakozó tudósnak, a fejlesztésre kell összpontosítania. Ők:
- Statisztikák, beleértve az alapul szolgáló elméletet és a valós alkalmazásokat is.
- Programozás, legalább az egyik Python vagy R, valamint SQL és a parancssor használata
- Adatmérnöki bevált gyakorlatok
- Hatékony kommunikáció a munkájáról
Bónusz! Tanulj folyamatosan
Ha eddig elolvastad és egyáltalán csüggedtnek érzed magad - nyugodj meg. A fő képesség egy ilyen gyorsan változó területen a tanulás és az újratanulás megtanulása. Kétségtelen, hogy az elkövetkező években új keretek, eszközök és módszerek jelennek meg.
Előfordulhat, hogy a most elsajátított pontos készségeket öt-tíz éven belül teljesen frissíteni kell. Számíts erre. Ezáltal és felkészülve folyamatos áttanulással maradhat a játék előtt.
Soha nem tudhatsz mindent, és az igazság az, hogy soha senki sem tudja. De ha elsajátítja az alapokat, akkor abban a helyzetben lesz, hogy bármi mást fel tudjon venni ismeretigény alapján.
És ez vitathatatlanul a siker kulcsa minden gyorsan fejlődő tudományágban.