Számos eszközről / keretrendszerről hallottam, amelyek segítik az embereket az adatok feldolgozásában (big data környezet).

Az egyik neve Hadoop, a másik a noSQL koncepció. Mi a különbség a feldolgozás pontjában?

Kiegészítik egymást?

Megjegyzések

  • Kutatási erőfeszítések hiányában leszavazták. A Hadoop és a noSQL máshol jól definiálható.
  • @Spacedman Egyetértek, de ez a Area51 kérdésének példája volt, akkor ha nem törölték, mielőtt azt hiszem, érvényes, és még a kérdést feltéve is tudtam a választ (legalábbis általánosan).

Válasz

A Hadoop nem adatbázis , a hadoop egy teljes ökoszisztéma.

a hadoop ökoszisztéma

A legtöbb ember a hadoopról beszélve mapreduce feladatokra hivatkozik . A mapreduce feladat nagy adatkészleteket oszt fel néhány apró adatrészletben, és a folytatáshoz elosztja azokat egy csomópontfürtön. Végül az egyes csomópontok eredményét újra egy adatkészletként állítják össze.


Tegyük fel, hogy feltöltjük a hadoopba egy <String, Integer> egyes városrészek lakosságával, és szeretné megkapni az egyes városok teljes városrészeinek átlagos népességét (1. ábra).

1. ábra

 [new york, 40394] [new york, 134] [la, 44] [la, 647] ... 

Most a hadoop először feltérképezi az egyes értékeket a billentyűk használatával (2. ábra)

2. ábra

[new york, [40394,134]] [la, [44,647]] ... 

A leképezés után az egyes kulcsok értékeit új értékre csökkenti (ebben a példában az egyes kulcsok halmazának átlaga felett) (3. ábra)

ábra 3

[new york, [20264]] [la, [346]] ... 

most mindenre elkészült a hadoop. Most betöltheti az eredményt a HDFS-be ( hadoop elosztott fájlrendszerbe), vagy bármilyen DBMS-be vagy fájlba.

Ez csak egy nagyon alap és egyszerű ex bőven abból, amit hadoop képes. Sokkal bonyolultabb feladatokat futtathat hadoopban.

Amint azt már kérdésedben említetted, a hadoop és a noSQL kiegészítik egymást. Ismerek néhány olyan beállítást, ahol a szenzorokból származó adathalmazok milliárdjait tárolják a HBase-ben, majd a hadoopon keresztül végül egy DBMS-be tárolják őket. válasz “>

A NoSQL olyan adatok tárolására szolgál, amelyek nem igényelnek valamiféle relációt. Kialakításának egyszerűsége és vízszintes skálázhatósága, az adatok tárolásának egyik módja a key : value páros kialakítás. Ez olyan feldolgozásnak felel meg, amely hasonló a Hadoop-hoz. A NoSQL db használata valóban attól függ, hogy milyen típusú problémával küzd.

Íme egy jó wikipédia-link NoSQL

A Hadoop egy olyan rendszer, amely hatalmas adatrészek tárolására és feldolgozására szolgál. Ez egy elosztott fájlrendszer dfs. Ennek az az oka, hogy a tervezés során központi szerepet játszik abban a feltételezésben, hogy a hardverhibák gyakoriak, így ugyanazon információ több példányát készíti el, és több gépen és állványon terjeszti, így ha az egyik lemegy, akkor semmi gond, mi legyen még két példánya. Itt van egy nagyszerű link a Hadoop számára a wikipédiából is, és látni fogja, hogy véleményem szerint nem csupán tárolás, hanem feldolgozás is: Hadoop

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük