Kuulin monista työkaluista / kehyksistä, jotka auttavat ihmisiä käsittelemään tietojaan (big data -ympäristö).

Yksi on nimeltään Hadoop ja toinen on noSQL-käsite. Mitä eroa on prosessointipisteessä?

Ovatko ne täydentäviä?

Kommentit

  • Äänestetty tutkimuksen puutteen vuoksi. Hadoop ja noSQL on määritelty hyvin muualla.
  • @Spacedman Olen samaa mieltä, mutta se oli esimerkki -alueen51 kysymyksestä, jos se oli ei poistettu ennen kuin luulen, että se on kelvollinen, ja vaikka tiesin vastauksen, kun lähetän kysymyksen (ainakin yleisesti).

Vastaa

Hadoop ei ole tietokanta , hadoop on koko ekosysteemi.

hadoop-ekosysteemi

Useimmat ihmiset viittaavat karttavähennettyihin työpaikkoihin puhuessaan hadoopista . Mapreduce-työ jakaa suuret tietojoukot joihinkin pieniin tietokokonaisuuksiin ja levittää ne solmujen joukolle jatkaakseen. Lopulta kunkin solmun tulos kootaan uudelleen yhtenä tietojoukkona.


Oletetaan, että lataat hadoopiin joukon <String, Integer> joidenkin kaupungin kaupunginosien väestön kanssa ja haluat saada keskimääräisen väestön jokaisen kaupungin koko naapurustosta (kuva 1).

kuva 1

 [new york, 40394] [new york, 134] [la, 44] [la, 647] ... 

Nyt hadoop kartoittaa ensin kunkin arvon näppäimillä (kuva 2)

kuva 2

[new york, [40394,134]] [la, [44,647]] ... 

Kartoituksen jälkeen se vähentää kunkin avaimen arvot uudeksi arvoksi (tässä esimerkissä kunkin avaimen asetetun arvon keskiarvo) (kuva 3)

kuva 3

[new york, [20264]] [la, [346]] ... 

nyt hadoop olisi tehty kaikella. Voit nyt ladata tuloksen HDFS: ään ( hadoopin hajautettu tiedostojärjestelmä) tai mihin tahansa DBMS: ään tai tiedostoon.

Se on vain yksi hyvin yksinkertainen ja yksinkertainen ex runsaasti mitä hadoop voi tehdä. Voit suorittaa paljon monimutkaisempia tehtäviä hadoopissa.

Kuten jo mainitsit kysymyksessäsi, hadoop ja noSQL täydentävät toisiaan. Tiedän muutamia asetuksia, joissa miljardeja antureiden tietojoukkoja tallennetaan HBaseen ja päästään sitten hadoopin läpi ja lopulta tallennetaan DBMS: ään.

Vastaa

NoSQL on tapa tallentaa tietoja, jotka eivät vaadi jonkinlaista suhdetta. Sen suunnittelun yksinkertaisuus ja vaaka-asteikkokyky, yksi tapa tallentaa tietoja, on key : value -parisuunnittelu. Tämä soveltuu Hadoopin kaltaiseen käsittelyyn. NoSQL db: n käyttö riippuu todella ongelman tyypistä.

Tässä on hyvä wikipedia-linkki NoSQL

Hadoop on järjestelmä, joka on tarkoitettu tallentamaan ja käsittelemään valtavia tietopaloja. Se on hajautettu tiedostojärjestelmä dfs. Syy tähän on, että suunnittelussa keskeinen se olettaa, että laitteistoviat ovat yleisiä, jolloin samasta tiedosta tehdään useita kopioita ja hajautetaan useille koneille ja telineille, joten jos yksi menee alas, ei ongelmaa, me on vielä kaksi kappaletta. Tässä on loistava linkki Hadoopille myös wikipediasta, huomaat, että se on mielestäni muutakin kuin pelkkä tallennus, mutta myös käsittely: Hadoop

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *