Az Apache Hadoop Framework gyors áttekintése

Hadoopot, akit ma Apache Hadoop néven ismernek, egy játékelefántról nevezték el, amely Doug Cutting társalapító fiának volt a tulajdonosa. Doug a nyílt forráskódú projekt nevét választotta, mivel könnyű volt betűzni, kiejteni és megtalálni a keresési eredmények között. Az eredeti sárga kitömött elefánt, amely ihlette a nevet, megjelenik Hadoop logójában.

Mi az Apache Hadoop?

Az Apache Hadoop szoftverkönyvtár olyan keretrendszer, amely lehetővé teszi a nagy adatkészletek elosztott feldolgozását a számítógépek klaszterei között, egyszerű programozási modellek felhasználásával. Úgy tervezték, hogy egyetlen kiszolgálóról több ezer gépre bővüljön, amelyek mindegyike helyi számítást és tárolást kínál. Ahelyett, hogy a hardverekre támaszkodna a magas rendelkezésre állás érdekében, magát a könyvtárat úgy tervezték, hogy észlelje és kezelje a hibákat az alkalmazásrétegen, így egy magas rendelkezésre állású szolgáltatást nyújt a számítógépek klaszterének tetején, amelyek mindegyike hajlamos lehet a meghibásodásokra.

Forrás: Apache Hadoop

2003-ban a Google kiadta papírjaikat a Google Fájlrendszeren (GFS). Részletesen leírt egy szabadalmaztatott elosztott fájlrendszert, amelynek célja, hogy áruhardver segítségével hatékony hozzáférést biztosítson nagy mennyiségű adathoz. Egy évvel később a Google kiadott egy újabb cikket „MapReduce: egyszerűsített adatfeldolgozás nagy klasztereken” címmel. Abban az időben Doug a Yahoo-nál dolgozott. Ezek a cikkek inspirálták Apache Nutch nyílt forráskódú projektjét. 2006-ban az akkor Hadoop néven ismert projektelemek elköltöztek az Apache Nutch-ból, és kiadták őket.

Miért hasznos a Hadoop?

Naponta több milliárd gigabájtnyi adat jön létre különféle formákban. Néhány példa a gyakran létrehozott adatokra:

  • A telefonhasználat metaadatai
  • Webnaplók
  • Hitelkártya vásárlási tranzakciók
  • Közösségi média bejegyzések
  • Videók
  • Orvosi eszközökből gyűjtött információk

A „nagy adat” olyan adatkészletekre utal, amelyek túl nagyok vagy összetettek a hagyományos szoftveralkalmazásokkal történő feldolgozáshoz. Az adatok összetettségéhez hozzájárulnak az adatkészlet mérete, a rendelkezésre álló processzorok sebessége és az adatok formátuma.

Megjelenése idején a Hadoop képes volt nagyobb adatok feldolgozására, mint a hagyományos szoftverek.

Core Hadoop

Az adatokat a Hadoop Distributed File System (HDFS) tárolja. A térképcsökkentés használatával Hadoop párhuzamos darabokban dolgozza fel az adatokat (egyszerre több részt dolgoz fel), nem pedig egyetlen sorban. Ez csökkenti a nagy adatkészletek feldolgozásához szükséges időt.

A HDFS úgy működik, hogy nagy fájlokat darabokra osztva tárol, és sok szerveren replikálja őket. Több fájlmásolat esetén redundancia keletkezik, amely véd az adatvesztés ellen.

Hadoop ökoszisztéma

Sok más szoftvercsomag létezik a Hadoop kiegészítésére. Ezek a programok tartalmazzák a Hadoop ökoszisztémát. Egyes programok megkönnyítik az adatok betöltését a Hadoop fürtbe, míg mások megkönnyítik a Hadoop használatát.

A Hadoop ökoszisztéma a következőket tartalmazza:

  • Apache Hive
  • Apache Pig
  • Apache HBase
  • Apache Főnix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Több információ:

  • Apache Hadoop