Procesando Big Data en Hadoop usando el Repartition Join

Publicación:
Entidad Editora:
Editor Técnico:
ISSN:
Ejemplar/Número:

Cateoría:
Páginas:
Colección:
Fecha de inicio:
Periodicidad:

Programación Matemática y Software
Universidad Autónoma del Estado de Morelos
Dr.Marco Antonio Cruz Chávez
2007-3283

Volumen 7, Número 2 /Junio del 2015
Periodo Junio-Septiembre 2015
Artículo de Investigación
52-58
Computación

Junio del 2015

Cuatrimestral

 

 

 

 

PDF(725 KB)

Nestor Ivan Escalante Fol, Alberto Portilla Flores, Genoveva Vargas del Solar, Carolina Rocío Sánchez Pérez, Marva Angélica Mora Lumbreras y Norma Sánchez Sánchez

Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala, Calzada Apizaquito s/n. C.P. 90300 Apizaco, Tlaxcala, México

French Council of Scientific Research, LIG-LAFMIA, 681 rue de la Passerelle BP 72, 38402 Saint Martin d’Heres, France

Recibido: 31 de julio 2014 Aceptado: 6 de noviembre 2014 Publicado en línea: 30 junio 2015

Resumen. El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como Big Data. En este artículo presentamos la implementación del algoritmo “repartition join” para realizar la operación join en un conjunto grande de datos. El algoritmo join fue programado bajo el modelo de programación de MapReduce. Implementar un join en el contexto de Big Data resulta ser complejo y costoso, es por ello que apoyándose de la plataforma de Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por 3 nodos, analizando los resultados de ejecución para su posterior uso en aplicaciones con datos reales.

Palabras claves: Big Data, MapReduce, Hadoop, Join.

 

Abstract.The main objective of this work is related to the processing of Big Data. Therefore repartition implementation algorithm is proposed to perform the join operation in a large data set, applying under the MapReduceprogramming model. Implementing a join in the context of Big Data is complex and costly, therefore we use Hadoop platform, which provides the necessary tool for managing large volumes of information utilities to analyze the behavior of the algorithm and to evaluate its performance. The algorithm was tested in a cluster consisting of 3 nodes, analyzing the execution results for later use with real data.

Keywords:Big Data, MapReduce, Hadoop, Join.

 
Nestor Ivan Escalante Fol(Autor de correspondencia)
Email:nestorescalantefol@gmail.com
 
Alberto Portilla Flores
Email:alberto.portilla@gmail.com
 
Genoveva Vargas del Solar
Email:genoveva.vargas@gmail.com
 
Carolina Rocío Sánchez Pérez
Email:krlinasp@gmail.com
 
Marva Angélica Mora Lumbreras
Email:marva.mora@gmail.com
 
Norma Sánchez Sánchez
Email:norma.sanchez@gmail.com