Méretezhető adatelemzési csővezeték létrehozása

Minden alkalmazás generál adatokat, de mit jelentenek ezek az adatok? Erre a kérdésre minden adatkutatót felkérnek.

Kétségtelen, hogy ez az információ a legértékesebb árucikk egy vállalkozás számára. De még fontosabb az adatok értelmezése, betekintés létrehozása és döntésekké alakítása.

Mivel az adatok mennyisége folyamatosan növekszik, az adatelemzési folyamatoknak skálázhatónak kell lenniük a változás mértékének adaptálásához. Ezért teljesen logikus a csővezeték felhőben történő telepítésének választása (mivel a felhő igény szerint méretezhetőséget és rugalmasságot kínál).

Ebben a cikkben bemutatom, hogyan lehet méretezhető és adaptálható adatfeldolgozási folyamatot felépíteni a Google Cloud szolgáltatásban. És ne aggódjon - ezek a fogalmak bármely más felhőbeli vagy helyszíni adatcsatornában alkalmazhatók.

5 lépés az adatelemzési csővezeték létrehozásához:

  • Először az adatforrást használja fel
  • Ezután dolgozza fel és gazdagítsa az adatokat, hogy a későbbi rendszerek felhasználhassák azokat abban a formátumban, amelyet a legjobban ért.
  • Ezután egy adattárba vagy adattárházba tárolja az adatokat hosszú távú archiválás céljából, vagy jelentések és elemzések céljából.
  • Ezután elemezheti az adatokat elemzési eszközökbe történő betáplálásával.
  • Alkalmazza a gépi tanulást az előrejelzésekhez, vagy hozzon létre jelentéseket, amelyeket megoszthat a csapataival.

Nézzük át részletesebben ezeket a lépéseket.

Az adatok rögzítése

Attól függően, hogy honnan származnak az adatai, több lehetősége is lehet a felvételére.

  • Használjon adatmigrációs eszközöket az adatok helyszíni vagy egyik felhőből a másikba történő migrálásához. A Google Cloud tárolási átviteli szolgáltatást kínál erre a célra.
  • A harmadik féltől származó SAAS-szolgáltatások adatainak felvételéhez használja az API-kat, és küldje el az adatokat az adattárházba. A Google Cloud BigQuery alkalmazásban a szerver nélküli adattárház adatátviteli szolgáltatást nyújt, amely lehetővé teszi, hogy adatokat hozzon be olyan saas alkalmazásokból, mint a YouTube, a Google Ads, az Amazon S3, a Teradata, a ResShift és így tovább.
  • A Pub / Sub szolgáltatással valós idejű adatokat is streamelhet az alkalmazásaiból. Az adatforrást úgy konfigurálja, hogy az eseményüzeneteket a Pub / Sub-be tolja, ahonnan az előfizető felveszi az üzenetet és megteszi a megfelelő lépéseket.
  • Ha rendelkezik IoT-eszközzel, valós idejű adatokat továbbíthatnak a Cloud IoT mag segítségével, amely támogatja az IoT-eszközök MQTT protokollját. IoT-adatokat is elküldhet a Pub / Sub webhelyre.

Az adatok feldolgozása

Az adatok bevitele után azokat feldolgozni vagy gazdagítani kell annak érdekében, hogy hasznosak legyenek a későbbi rendszerek számára.

Három fő eszköz segíti ezt a Google Cloud szolgáltatásban:

  • A Dataproc lényegében a Hadoop kezelt. Ha a Hadoop ökoszisztémát használja, akkor tudja, hogy bonyolult lehet annak beállítása, órákig, sőt napokig is. A Dataproc 90 másodperc alatt képes felpörgetni egy fürtöt, így gyorsan elkezdheti elemezni az adatokat.
  • A Dataprep egy intelligens grafikus felhasználói felület eszköz, amely segít az adatelemzőknek az adatok gyors feldolgozásában, anélkül, hogy bármilyen kódot kellene írniuk.  
  • A Dataflow szerver nélküli adatfeldolgozó szolgáltatás adatfolyamok és kötegelt adatok továbbítására. Az Apache Beam nyílt forráskódú SDK-ján alapul, amely a csővezetékeket hordozhatóvá teszi. A szolgáltatás elválasztja a tárolást a számítástól, amely lehetővé teszi a zökkenőmentes méretezést. További részletekért tekintse meg az alábbi GCPSketnotot.

Az adatok tárolása

A feldolgozás után az adatokat egy hosszú távú archiváláshoz, vagy jelentések készítéséhez vagy elemzéshez egy adattárban vagy adattárházban kell tárolnia.

Két fő eszköz segíti ezt a Google Cloud szolgáltatásban:

A Google Cloud Storage egy képtár, kép, videó, fájl stb. Tárhely, amely 4 típusban kapható:

  1. Normál tárhely: Jó a gyakran használt „forró” adatokhoz, beleértve a webhelyeket, a videofolyamot és a mobilalkalmazásokat.
  2. Nearline tárolás: Alacsony költség. Jó a legalább 30 napig tárolható adatokhoz, ideértve az adatmentést és a hosszú farok multimédiás tartalmat.
  3. Coldline tárolás: Nagyon alacsony költség. Jó a legalább 90 napig tárolható adatokhoz, beleértve a katasztrófa utáni helyreállítást is.
  4. Archív tárhely: A legalacsonyabb költség. Jó a legalább 365 napig tárolható adatokhoz, beleértve a szabályozási archívumokat is.

A BigQuery egy szerver nélküli adattárház, amely zökkenőmentesen méretezhet petabájt adatokra anélkül, hogy szervert kellene kezelnie vagy karbantartania.

Az adatokat SQL segítségével tárolhatja és lekérdezheti a BigQuery-ben. Ezután könnyedén megoszthatja az adatokat és a lekérdezéseket a csapat más tagjaival.

100 ingyenes nyilvános adatállományt is tartalmaz, amelyeket elemzésében felhasználhat. Beépített csatlakozókat biztosít más szolgáltatásokhoz, így az adatok könnyen beolvashatók és kinyerhetők belőlük vizualizáció vagy további feldolgozás / elemzés céljából.

Az adatok elemzése

Miután az adatokat feldolgozták és egy adattárban vagy adattárházban tárolták, készen állnak elemzésre.  

Ha az adatok tárolásához a BigQuery-t használja, akkor ezeket az adatokat közvetlenül elemezheti a BigQuery-ben az SQL használatával.

Ha a Google Cloud Storage szolgáltatást használja, akkor könnyen áthelyezheti az adatokat a BigQuery alkalmazásba.

A BigQuery gépi tanulási funkciókat is kínál a BigQueryML segítségével. Tehát modelleket készíthet és előre jelezheti a BigQuery felhasználói felületről a talán ismertebb SQL használatával.

Az adatok felhasználása és vizualizálása

Az adatok felhasználása

Miután az adatok az adattárházban vannak, felhasználhatja őket betekintéshez és előrejelzések készítéséhez a gépi tanulás segítségével.

A további feldolgozáshoz és előrejelzésekhez az igényeitől függően használhatja a Tensorflow keretrendszert és az AI platformot.

A Tensorflow egy végpontok közötti, nyílt forráskódú gépi tanulási platform, eszközökkel, könyvtárakkal és közösségi erőforrásokkal.

Az AI Platform megkönnyíti a fejlesztők, az adatkutatók és az adatmérnökök számára az ML munkafolyamatok egyszerűsítését. Tartalmaz eszközöket az ML életciklusának minden szakaszához, az Előkészítés -> Összeállítás -> Validálás -> Telepítés kezdetétől.

Az adatok megjelenítése

Rengeteg különféle eszköz van az adatok vizualizálására, és a legtöbbjüknek van egy csatlakozója a BigQuery-hez, hogy könnyedén hozzon létre diagramokat a választott eszközben.

A Google Cloud tartalmaz néhány olyan eszközt, amelyeket hasznos lehet megnéznie.

  • A Data Studio ingyenes, és nemcsak a BigQuery-hez, hanem számos más szolgáltatáshoz is csatlakozik az adatok egyszerű megjelenítéséhez. Ha a Google Drive-ot használta, a diagramok és az irányítópultok megosztása pontosan ilyen - rendkívül egyszerű.
  • A Looker ezen felül üzleti intelligencia, adatalkalmazások és beágyazott elemzések vállalati platformja.

Következtetés

Sok minden történik egy adatelemzési folyamatban. Bármelyik eszközt is választja, ügyeljen arra, hogy méretezhetők legyenek, ahogy az adatok a jövőben növekednek.

További ilyen tartalmakért követhetsz engem a Twitteren, a @pvergadia oldalon, és ellátogathatsz a webhelyemre, a thecloudgirl.dev oldalra.