Jeg hørte om mange verktøy / rammer for å hjelpe mennesker med å behandle dataene deres (big data-miljø).

Den ene heter Hadoop og den andre er noSQL-konseptet. Hva er forskjellen i behandlingspunktet?

Er de utfyllende?

Kommentarer

  • Stemte ned for manglende forskningsinnsats. Hadoop og noSQL er veldefinerte andre steder.
  • @Spacedman Jeg er enig, men det var et eksempel på spørsmål fra Area51 , så hvis det var ikke slettet før jeg antar at det er gyldig, og til og med visste jeg svaret når jeg legger ut spørsmålet (i det minste generisk).

Svar

Hadoop er ikke en database , hadoop er et helt økosystem.

hadoop-økosystemet

De fleste vil referere til mapreduce jobber mens de snakker om hadoop . En mapreduce-jobb deler store datasett i noen små biter av data og sprer dem over en klynge av noder for å komme videre. Til slutt blir resultatet fra hver node satt sammen igjen som ett datasett.


La oss anta at du laster inn i hadoop et sett med <String, Integer> med befolkningen i noen bydeler i en by, og du vil få gjennomsnittlig befolkning over hele bydelene i hver by (figur 1).

figur 1

 [new york, 40394] [new york, 134] [la, 44] [la, 647] ... 

Nå vil hadoop først kartlegge hver verdi ved hjelp av tastene (figur 2)

figur 2

[new york, [40394,134]] [la, [44,647]] ... 

Etter kartleggingen vil det redusere verdiene til hver tast til en ny verdi (i dette eksemplet gjennomsnittet over verdisettet til hver tast) (figur 3)

figur 3

[new york, [20264]] [la, [346]] ... 

nå ville det være gjort med alt. Du kan nå laste resultatet inn i HDFS ( hadoop distribuert filsystem) eller i et hvilket som helst DBMS eller en fil.

Det er bare ett veldig grunnleggende og enkel ex rikelig med hva hadoop kan gjøre. Du kan kjøre mye mer kompliserte oppgaver i hadoop.

Som du allerede har nevnt i spørsmålet ditt, er hadoop og noSQL komplementære. Jeg kjenner noen få oppsett der dvs. milliarder datasett fra sensorer lagres i HBase og kommer seg gjennom hadoop til slutt å bli lagret i et DBMS.

Svar

NoSQL er en måte å lagre data som ikke krever at det er noe slags forhold. Enkelheten i utformingen og horisontal skaleringsevne, en måte de lagrer data på er key : value pardesignet. Dette egner seg til behandling som ligner på Hadoop. Bruken av NoSQL db avhenger virkelig av hvilken type problem man er ute etter.

Her er en god wikipedia-lenke NoSQL

Hadoop er et system som er ment å lagre og behandle store biter av data. Det er et distribuert filsystem dfs. Grunnen til at det gjør dette, er at sentralt i utformingen antar det at maskinvarefeil er vanlig, og dermed lager flere kopier av den samme informasjonen og sprer den over flere maskiner og stativer, så hvis man går ned, ikke noe problem, vi har to eksemplarer til. Her er en flott lenke til Hadoop fra wikipedia også, du vil se at det etter min mening er mer enn bare lagring, men også behandling: Hadoop

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *