Ik hoorde over veel tools / frameworks om mensen te helpen hun data te verwerken (big data-omgeving).

De ene heet Hadoop en de andere is het noSQL-concept. Wat is het verschil in verwerkingspunt?

Zijn ze complementair?

Reacties

  • Gestemd wegens gebrek aan onderzoeksinspanning. Hadoop en noSQL zijn elders goed gedefinieerd.
  • @Spacedman Ik ben het ermee eens, maar dat was een voorbeeld van een vraag uit de Area51 en als dat zo was niet verwijderd voordat ik denk dat het geldig is, en zelfs ik wist het antwoord toen ik de vraag postte (in ieder geval algemeen).

Antwoord

Hadoop is geen database , hadoop is een heel ecosysteem.

het Hadoop-ecosysteem

De meeste mensen zullen verwijzen naar mapreduce banen terwijl ze het hebben over hadoop . Een mapreduce-taak splitst grote datasets op in enkele kleine stukjes data en verspreidt deze over een cluster van knooppunten om verder te gaan. Uiteindelijk wordt het resultaat van elke node weer samengevoegd als één dataset.


Laten we aannemen dat je in hadoop een set <String, Integer> laadt met de bevolking van sommige wijken binnen een stad en je wilt de gemiddelde bevolking over de hele wijken van elke stad krijgen (figuur 1).

figuur 1

 [new york, 40394] [new york, 134] [la, 44] [la, 647] ... 

Hadoop zal nu eerst elke waarde in kaart brengen met behulp van de sleutels (figuur 2)

figuur 2

[new york, [40394,134]] [la, [44,647]] ... 

Na de mapping worden de waarden van elke sleutel teruggebracht tot een nieuwe waarde (in dit voorbeeld het gemiddelde over de waardenset van elke sleutel) (figuur 3)

figuur 3

[new york, [20264]] [la, [346]] ... 

nu zou hadoop met alles gedaan zijn. Je kunt nu het resultaat in de HDFS ( hadoop-gedistribueerd bestandssysteem) of in een DBMS of bestand.

Dat is slechts één heel eenvoudig en simple ex voldoende van wat hadoop kan doen. Je kunt veel meer gecompliceerde taken uitvoeren in hadoop.

Zoals je al zei in je vraag, zijn hadoop en noSQL complementair. Ik ken een paar opstellingen waarbij miljarden datasets van sensoren worden opgeslagen in HBase en dan door hadoop komen om uiteindelijk in een DBMS te worden opgeslagen.

Antwoord

NoSQL is een manier om gegevens op te slaan waarvoor geen relatie nodig is. De eenvoud van het ontwerp en de horizontale schaalbaarheid, een manier waarop ze gegevens opslaan, is het key : value paarontwerp. Dit leent zich voor verwerking die vergelijkbaar is met Hadoop. Het gebruik van een NoSQL-database hangt echt af van het type probleem dat men zoekt.

Hier is een goede wikipedia-link NoSQL

Hadoop is een systeem dat bedoeld is om enorme hoeveelheden gegevens op te slaan en te verwerken. Het is een gedistribueerd bestandssysteem dfs. De reden dat het dit doet, is dat het centraal staat in het ontwerp dat het de aanname maakt dat hardwarefouten vaak voorkomen, waardoor meerdere kopieën van hetzelfde stuk informatie worden gemaakt en deze worden verspreid over meerdere machines en rekken, dus als er een uitvalt, is er geen probleem. heb nog twee exemplaren. Hier is ook een geweldige link voor Hadoop van Wikipedia, je zult zien dat het naar mijn mening meer is dan alleen opslag, maar ook verwerking: Hadoop

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *