Escuché acerca de muchas herramientas / marcos para ayudar a las personas a procesar sus datos (entorno de big data).

Uno se llama Hadoop y el otro es el concepto noSQL. ¿Cuál es la diferencia en el punto de procesamiento?

¿Son complementarios?

Comentarios

  • Votado en contra por falta de esfuerzo de investigación. Hadoop y noSQL están bien definidos en otros lugares.
  • @Spacedman Estoy de acuerdo, pero ese fue un ejemplo de pregunta del Area51 , entonces si fue no eliminado antes, supongo que es válido, e incluso yo sabía la respuesta cuando publiqué la pregunta (al menos genéricamente).

Respuesta

Hadoop no es una base de datos , hadoop es un ecosistema completo.

el ecosistema hadoop

La mayoría de las personas se referirán a trabajos de mapreduce mientras hablan de hadoop . Un trabajo de mapreduce divide grandes conjuntos de datos en pequeños fragmentos de datos y los distribuye en un grupo de nodos para continuar. Al final, el resultado de cada nodo se reunirá nuevamente como un conjunto de datos.


Supongamos que carga en hadoop un conjunto de <String, Integer> con la población de algunos barrios dentro de una ciudad y desea obtener la población media de todos los barrios de cada ciudad (figura 1).

figura 1

 [new york, 40394] [new york, 134] [la, 44] [la, 647] ... 

Ahora hadoop primero mapeará cada valor usando las teclas (figura 2)

figura 2

[new york, [40394,134]] [la, [44,647]] ... 

Después del mapeo, reducirá los valores de cada clave a un nuevo valor (en este ejemplo, el promedio sobre el conjunto de valores de cada clave) (figura 3)

figura 3

[new york, [20264]] [la, [346]] ... 

ahora hadoop se haría con todo. Ahora puede cargar el resultado en el HDFS ( hadoop sistema de archivos distribuido) o en cualquier DBMS o archivo.

Eso es solo un muy básico y simple ex mucho de lo que puede hacer hadoop. Puede ejecutar tareas mucho más complicadas en hadoop.

Como ya mencionó en su pregunta, hadoop y noSQL son complementarios. Conozco algunas configuraciones en las que, por ejemplo, miles de millones de conjuntos de datos de sensores se almacenan en HBase y luego pasan a través de hadoop para finalmente almacenarse en un DBMS.

Respuesta

NoSQL es una forma de almacenar datos que no requiere que exista algún tipo de relación. La simplicidad de su diseño y su capacidad de escala horizontal, una forma en que almacenan datos es el diseño de pares key : value. Esto se presta a un procesamiento similar al de Hadoop. El uso de una base de datos NoSQL realmente depende del tipo de problema que se esté buscando.

Aquí hay un buen enlace de wikipedia NoSQL

Hadoop es un sistema que está destinado a almacenar y procesar grandes cantidades de datos. Es un sistema de archivos distribuido dfs. La razón por la que hace esto es que es fundamental para su diseño que asume que las fallas de hardware son comunes, haciendo así múltiples copias de la misma pieza de información y distribuyéndola entre múltiples máquinas y racks, así que si una falla, no hay problema, nosotros tener dos copias más. Aquí hay un gran enlace para Hadoop desde wikipedia, verá que, en mi opinión, es más que solo almacenamiento, sino también procesamiento: Hadoop

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *