Ha fejlesztő vagy, aki áttér az adattudományra, itt találod a legjobb forrásokat

Úgy tűnik, manapság mindenki adatkutató akar lenni - a doktoranduszoktól az adatelemzőkig, a régi főiskolai szobatársadig, aki a Linkedin üzenetét továbbítja, hogy „kávét ragadjon”.

Lehet, hogy ugyanaz volt a gondolata, hogy legalább meg kellene vizsgálnia néhány adattudományi álláspontot, és meg kell néznie, hogy mi a hype. Talán láttál olyan cikkeket, mint Vicki Boykis 'Data Science másképp most, amely kimondja:

Egyértelművé válik, hogy a hype-ciklus késői szakaszában az adattudomány aszimptotikusan közelebb kerül a mérnöki tudományhoz, és az adattudósok előrelépéséhez szükséges készségek kevésbé vizualizálódnak és statisztikákon alapulnak, és jobban megfelelnek a hagyományos informatikának …: Olyan fogalmak, mint az egység tesztelése és a folyamatos integráció, gyorsan eljutottak a szaknyelvbe és az ML-mérnökökkel foglalkozó számtudósok által gyakran használt eszközkészletbe.

vagy olyan tweetek, mint Tim Hopper:

Ami nem világos, hogy hogyan lehet szoftvermérnökként szerzett tapasztalatait felhasználni egy adattudományi pozícióba. Néhány további kérdésed lehet:

Mit kell prioritásként kezelnem?

Vannak-e bevált gyakorlatok vagy eszközök, amelyek eltérnek az adatkutatóktól?

Átvisz-e jelenlegi készségkészletem egy tudományi szerepbe?

Ez a cikk áttekintést nyújt az adattudós szerepéről és arról, hogy a háttere miért alkalmas az adattudományra, valamint kézzelfogható lépésenkénti műveletekkel, amelyeket fejlesztőként megtehet az adattudomány fokozása érdekében.

Szeretné megtekinteni a legfrissebb adattudományi szerepeket? Iratkozzon fel a kéthetente megjelenő ML Jobs Newsletterre az új adattudományi állásajánlatokért a postaládájába.

Data Scientist kontra Data Engineer

Először is meg kell különböztetnünk két egymást kiegészítő szerepet: Data Scientist és Data Engineer. Míg ezek a szerepek mind a gépi tanulási modelleket kezelik, kölcsönhatásuk ezekkel a modellekkel, valamint az adatkutatók és az adatmérnökök követelményei és munkájának jellege nagyon eltérő.

Megjegyzés: A gépi tanulásra szakosodott Data Engineer szerep a „szoftvermérnök, gépi tanulás” vagy „gépi tanulás mérnökei” munkaköri leírásokban is megnyilvánulhat.

A gépi tanulás munkafolyamatának részeként az adattudós elvégzi a szükséges statisztikai elemzést annak meghatározásához, hogy melyik gépi tanulási megközelítést használja, majd megkezdi a prototípusok készítését és a modellek felépítését.

A gépi tanulási mérnökök a modellezési folyamat előtt és után is gyakran együttműködnek adatkutatókkal: (1) adatcsatornákat építenek az adatok betáplálása érdekében ezekbe a modellekbe és (2) egy olyan mérnöki rendszert terveznek, amely ezeket a modelleket szolgálja a modellek folyamatos állapotának biztosítása érdekében.

Az alábbi ábra az egyik módja a készségek ezen folyamatának megtekintésére:

Rengeteg online forrás található az adatkutatók és az adatmérnökök közötti különbségről - ellenőrizze, hogy:

  • Panoply: Mi a különbség az adatmérnök és az adatkutató között?
  • Ugródeszka: Machine Learning Engineer vs Data Scientist
  • O'Reilly: Adatmérnökök és adatkutatók

Jogi nyilatkozatként ez a cikk elsősorban a Data Scientist szerepét fedi le, némi rábólintással a Machine Learning Engineering oldalára (különösen akkor releváns, ha egy kisebb vállalat pozícióját vizsgálja, ahol esetleg mindkettőnek szolgálnia kell). Ha kíváncsi arra, hogyan lehet átállni adatmérnök vagy gépi tanulási mérnökre, tudassa velünk az alábbi megjegyzésekben!

Előny fejlesztőként

Mindenki kárára a gépi tanulás körüli órák, mint például az „Bevezetés az adattudományba a Pythonban” vagy Andrew Ng Coursera tanfolyamai, nem terjednek ki a szoftvertervezés fogalmaira és bevált gyakorlataira, mint például az egység tesztelése, a moduláris újrafelhasználható kód írása, a CI / CD vagy a verziókezelés. Még a legfejlettebb gépi tanulási csapatok egy része sem használja ezeket a gyakorlatokat a gépi tanulási kódokhoz, ami zavaró tendenciához vezet ...

Pete Warden ezt a tendenciát „a gépi tanulás reprodukálhatóságának válságaként” jellemezte:

még mindig a sötét korban vagyunk, amikor a változásokat követjük és a modelleket a semmiből építjük fel. Olyan rossz, hogy néha olyan érzés visszalépni az időben, amikor forráskód nélkül kódoltunk.

Lehet, hogy nem látja, hogy ezek a „szoftverfejlesztési” készségek kifejezetten szerepelnek az adatkutatók munkaköri leírásaiban, de ha jól ismeri ezeket a készségeket a háttér részeként, az már 10-szer megkönnyíti adatkutatói munkáját. Ráadásul akkor kerülnek alkalmazásra, amikor ideje lesz megválaszolni ezeket a programozási kérdéseket az adattudományi interjú során.

Érdekes perspektívát találhat a másik oldalról Trey Causey „Szoftverfejlesztési készségek az adatkutatók számára” című cikkében, melyben azt javasolja, hogy az adatkutatók megtanuljanak „jobb kódot írni, jobban együttműködni a szoftverfejlesztőkkel, és végül időt és időt takaríthatnak meg. fejfájás ”.

Fokozni az adattudományt

Nagyszerű, hogy jó alapokkal rendelkezik a szoftvertervezés terén, de mi a következő lépés az adatkutatóvá válás felé? Meglepően pontos Josh Will nyelvtudós tweetje az adatkutató meghatározásáról:

Az egyik olyan témára utal, amelyet érdemes felzárkóznia, ha érdekel egy adatkutatói szerep vagy karrier: statisztika. Ebben a következő szakaszban nagy forrásokkal foglalkozunk:

  • ML-specifikus ismeretek építése
  • Építőipari ismeretek
  • Eszközök az ML veremben
  • Képességek és képesítések

ML-specifikus ismeretek építése

A leghatékonyabb az elméletalapú ismeretek kombinációjának felépítése a valószínűség és a statisztika, valamint az alkalmazott készségek körében, például az adatkezelés vagy a GPU-k / elosztott számítás képzési modelljei között.

A megszerzett tudás egyik módja a gépi tanulás munkafolyamatával való összehasonlítás.

Tekintse meg a Skymind AI részletes munkafolyamatát

Itt felsoroljuk a gépi tanulás legjobb forrásait. Lehetetlen lenne teljes listát készíteni, és helyet (és olvasási időt) spórolni, nem említettünk olyan nagyon népszerű forrásokat, mint Andrew Ng Coursera tanfolyama vagy a Kaggle.

Tanfolyamok:

  • Fast.ai MOOC (ingyenes tanfolyamok, amelyek nagyon alkalmazott ismereteket tanítanak a gyakorlati mély tanulás számára a kódolók számára, a mélyreható tanulás a kódolók számára, a számítási lineáris algebra és a gépi tanulás bevezetése a kódolók számára)
  • Khan Akadémia
  • 3Blue1Brown és mathematicalmonk youtube csatorna
  • Udacity tanfolyamok (beleértve a gépi tanulás előkészítését a Pythonban)
  • Springboard AI / ML-specifikus pálya

Tankönyvek: * ezek többségéhez online próbáltak ingyenes PDF-fájlokat találni *

  • Valószínűségi programozás és bayesi módszerek a hackerek számára
  • Valószínűség és véletlenszerű folyamatok
  • A statisztikai tanulás elemei
  • Lineáris Algebra Kész Jobbra
  • Bevezetés a lineáris algebra
  • Algoritmus tervezése

Útmutatók:

  • Google Developers gépi tanulási útmutató
  • Gépi tanulási elsajátítási útmutatók (a jó kiindulópontért lásd ezt a mini tanfolyamot a Python gépi tanulásról)
  • Pyimagesearch (számítógépes látáshoz)

Meetups: * elsősorban NYC-alapúak *

  • A szeretett papírok
  • NYC mesterséges intelligencia és gépi tanulás
  • DataC Council.ai
  • NY mesterséges intelligencia
Hűvös kiindulópontként nézze meg Will Wolf „Nyílt forráskódú gépi tanulási mesterei” című cikkét arról, hogy hogyan lehet strukturálni az idejét konkrét témák tanulmányozása és projektek kidolgozása során, hogy bemutassa a szakértelmet egy olcsó távoli helyen.

Ipar-specifikus ismeretek építése

Ha olyan elképzelése van, hogy szeretne egy adott iparág lenni, mint például az egészségügy, a pénzügyi szolgáltatások, a fogyasztási cikkek, a kiskereskedelem stb. tanulás.

Egy profi tipp = beolvashatja a függőleges specifikus mesterséges intelligenciával foglalkozó startupok webhelyeit, és megnézheti, hogyan pozícionálják értékajánlataikat, és hol játszik szerepet a gépi tanulás. Ez ötleteket ad a gépi tanulás konkrét területeihez, valamint a munkáját bemutató projektek témái.

Végigvezethetünk egy példát: tegyük fel, hogy érdekel az egészségügyben végzett munka.

  1. A „ gépi tanulás egészségügyének” gyors Google-keresésével megtaláltam ezt a listát a Healthcareweekly.com webhelyről a „Legjobb egészségügyi startupok, amelyekre figyelni kell 2019-ben” címmel.
Gyors kereséseket is végezhet a Crunchbase-en vagy az AngelList-en, kulcsszóként az „egészségügy”

2. Vegyük példának a listán szereplő vállalatok egyikét, a BenevolentAI-t.

3. A BenevolentAI honlapja a következőket mondja ki:

AI-cég vagyunk, amely a gyógyszer korai felfedezésétől a késői stádiumú klinikai fejlesztésig a végétől a végéig képes. A BenevolentAI ötvözi a számítástechnikai orvostudomány és a fejlett mesterséges intelligencia erejét a nyílt rendszerek és a felhőalapú számítás alapelveivel annak érdekében, hogy átalakítsa a gyógyszerek tervezésének, fejlesztésének, tesztelésének és piacra juttatásának módját. A jóindulatú platformot azért hoztuk létre, hogy jobban megértsük a betegségeket és új dolgokat tervezzünk, és a meglévő kezelések javítása hatalmas mennyiségű orvos-orvosi információ felhasználásával. Úgy gondoljuk, hogy technológiánk felhatalmazza a tudósokat a gyógyszerek gyorsabb és költséghatékonyabb fejlesztésére. 30 másodpercenként új kutatási cikk jelenik meg, a tudósok azonban jelenleg csak a rendelkezésre álló tudás töredékét használják fel a betegség okának megértésére és új kezelési javaslatokra. Platformunk elfogyasztja,Az írásos dokumentumokból, adatbázisokból és a kísérleti eredményekből származó információk hatalmas mennyiségét „olvassa” és kontextusba hozza. Végtelenül több levonást és következtetést képes levonni ezeken az eltérő, összetett adatforrásokon keresztül, azonosítva és létrehozva azokat a kapcsolatokat, trendeket és mintákat, amelyeket lehetetlen lenne egyedül az ember számára megtenni.

4. Azonnal láthatja, hogy a BenevolentAI természetes nyelvi feldolgozást (NLP) használ, és valószínűleg tudásgrafikonokkal dolgozik, ha azonosítják a betegségek és a kezelési kutatások közötti összefüggéseket.

5. Ha megnézi a BenevolentAI karrier oldalát, láthatja, hogy felvesznek egy vezető gépi kutató kutatóhoz. Ez magas rangú szerep, ezért nem tökéletes példa, de nézze meg az alábbiakban megkövetelt készségeket és képesítéseket:

Jegyzet:

  • természetes nyelv feldolgozása, tudásgráf következtetés, aktív tanulás és biokémiai modellezés
  • strukturált és strukturálatlan adatforrások
  • bayesi modell megközelítései
  • az ML modern eszközeinek ismerete

Ez ad néhány lépést a következő megközelítéshez:

  • strukturált adatokkal való munka
  • strukturálatlan adatokkal dolgozni
  • kapcsolatok osztályozása tudásgrafikonokban (lásd egy jó forrást itt)
  • bayesi valószínűség és modellezés megközelítésének elsajátítása
  • munka egy NLP projekten (tehát szöveges adatok)

Nem javasoljuk, hogy jelentkezzen a keresés során megtalált cégek felé, inkább nézze meg, hogyan írják le ügyfeleik fájdalmas pontjait, cégük értékajánlatait, és milyen készségeket sorolnak fel munkaköri leírásukban a kutatás irányításához.

Eszközök az ML veremben

A BenevolentAI Senior Machine Learning Researcher munkaköri leírásában „az ML modern eszközeinek, például a Tensorflow, a PyTorch stb.” Ismeretét kérik.

Ezeknek a modern eszközöknek az elsajátítása az ML számára ijesztőnek tűnhet, mivel a tér mindig változik. A tanulási folyamat kezelhető részekre bontásához ne felejtse el felülről rögzíteni gondolkodását a gépi tanulási munkafolyamat körül - „Milyen eszköz segíthet a munkafolyamat ezen részében?” ?

Ha meg szeretné tudni, hogy a gépi tanulás munkafolyamatának mely lépései kísérik, olvassa el Roger Huang „Bevezetés a gépi tanulási halomba” című cikkét, amely olyan eszközöket tartalmaz, mint a Docker, a Comet.ml és a dask-ml.

Taktikai szempontból a Python és az R a leggyakoribb programozási nyelv, amelyet az adatkutatók használnak, és találkozhat olyan adattudományi alkalmazásokhoz tervezett kiegészítő csomagokkal, mint például a NumPy és a SciPy, valamint a matplotlib. Ezeket a nyelveket értelmezik, nem pedig fordítják, így az adatkutató szabadon a probléma problémájára, nem pedig a nyelv árnyalataira összpontosíthat. Érdemes időt fordítani az objektum-orientált programozásra, hogy megértsük az adatstruktúrák osztályként történő megvalósítását.

Ha fel akarja érni az ML keretrendszereket, például a Tensorflow, a Keras és a PyTorch, győződjön meg arról, hogy áttekintette a dokumentációikat, és megpróbálta az oktatóanyagokat végponttól végig megvalósítani.

A nap végén meg kell győződnie arról, hogy olyan projekteket épít ki, amelyek bemutatják ezeket a modern eszközöket az adatgyűjtéshez és a küzdelemhez, a gépi tanulási kísérletek kezeléséhez és a modellezéshez.

Némi inspirációt a projektjeihez, tekintse meg Edouard Harris cikkét: „A hidegindítási probléma: hogyan lehet felépíteni a gépi tanulási portfóliót”

Képességek és képesítések

Ezt a szakaszt hagytuk utoljára, mivel összesíti az előző szakaszok információinak nagy részét, de kifejezetten az adattudományi interjúk előkészítésére irányul. Hat fő téma van egy adattudós interjú során:

  1. Kódolás
  2. Termék
  3. SQL
  4. A / B tesztelés
  5. Gépi tanulás
  6. Valószínűség (itt talál egy jó definíciót a statisztikákkal szemben)

Észre fogja venni, hogy e témák egyike nem olyan, mint a többi (Termék). Az adattudományi pozíciók szempontjából döntő jelentőségű a kommunikáció a műszaki koncepciókról és eredményekről, valamint az üzleti mutatókról és hatásokról.

Néhány hasznos adattudományi interjúk összesítése: ?? https: //github.com/kojino/120-Data-Science-Interview-Questions ?? https: //github.com/iamtodor/data-science-interview-questions-and-answers ???? https://hookedondata.org/red-flags-in-data-science-interviews/ ?? https://medium.com/@XiaohanZeng/i-interviewed-at-five-top-companies-in-silicon-valley-in-five-days-and-luckily-got-five-job-offers-25178cf74e0f

Észre fogja venni, hogy a Hooked on Data „Vörös zászlók az adattudományi interjúkban” című cikkét belefoglaltuk - a szerepkörökkel való interjú során olyan vállalatokkal találkozhat, amelyek még mindig építik az adatinfrastruktúrájukat, vagy esetleg nem értik meg jól adattudományi csapatuk belefér a nagyobb vállalat értékébe.

Lehetséges, hogy ezek a vállalatok az igények ezen hierarchiáján felfelé emelkednek.

Az adattudományi interjúkkal kapcsolatos néhány elvárásnak azt javaslom, hogy olvassa el Tim Hopper cikkét: „Néhány gondolat a visszautasításról sok adattudományi munkához”

Köszönöm, hogy elolvasta! Reméljük, hogy ez az útmutató segít megérteni, hogy az adattudomány olyan karrier, amelyet érdemes figyelembe vennie, és hogyan kezdje el ezt az utat!

Szeretné megtekinteni a legfrissebb adattudományi szerepeket? Iratkozzon fel a kéthetente megjelenő ML Jobs Newsletterre az új adattudományi állásajánlatokhoz a postaládájában:

ML Jobs Newsletter - Revue

Iratkozzon fel, hogy megkapja ezt a kéthetente összeállított listát az adatkutatással kapcsolatos állásajánlatokról az iparág legjobb vállalatainál. Szerepek ... www.getrevue.co