Hadoop
martes 22 de octubre de 2013
09:50 a.m.
http://gavinbadcock.wordpress.com/2013/02/06/googles-bigquery-vs-hadoop-complimentors-or-competitors/?goback=.gde_45685_member_5798112454600830978#
Ejemplo Hadoop
http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/
¿Qué es Hadoop?
• Apache Hadoop es un proyecto de código abierto regulado por la Apache Software Foundation (ASF), que le permite obtener una v isión de grandes cantidades de datos
estructurados y no estructurados de forma rápida y sin una inversión significativa.
• Es un proyecto que ofrece una serie de herramientas para solventar los problemas del big data.
• Implementa un clúster de procesamiento usando poco hardware.
• El clúster está particionado en varios servidores.
• La idea es, llevar el procesamiento a la data.
• Algunos de los componentes son: Hadoop Distributed Files Sytem (HDFS), Apache Hive, Apache HCatalog, Apache Pig
The Hadoop Distributed Files System
• Es la base del clúster.
• Administra como se guardan los datasets dentro del clúster.
• Responsable de cómo se distribuyen los datos por los datanodes, replicación y tareas administrativas ( agregar, remover, recuperar datanodes).
Apache Hive
•
•
•
•
•
•
Interfaz de usuario que da una vista estilo data warehouse.
Utiliza lenguaje parecido al SQL.
Crea data sumarizado, ejecuta ad-hoc queries, análisis de muchos datasets del clúster.
El concepto es crear una tabla en el dataset para luego manipularla con HiveQL.
Herramienta Beewax.
HCatalog
• Mantiene la ubicació n y metadata de la información dentro del Hadoop Clúster.
• Ayuda a los Scripts y MapReduce a separarse (decoupled) de esa ubicación.
• Es capaz de compartir la ubicación de datos y metadatos entre varias herramientas (Hive and Pig).
Apache Pig
•
•
•
•
Lenguaje de expresiones para análisis y procesamiento de infrastructura.
Se traduce en Jobs MapReduce que se ejecutan en el clúster.
Se puede utiliza JAVA para escribirlos.
Provee un lengujae de alto nivel para crear objetos MapReduce que procesen datos en el Hadoop Clúster.
Big Data página 11