Documento sin título

Anterior
Procesando Big Data en Hadoop usando el Repartition Join
	Publicación: Entidad Editora: Editor Técnico: ISSN: Ejemplar/Número: Cateoría: Páginas: Colección: Fecha de inicio: Periodicidad:	Programación Matemática y Software Universidad Autónoma del Estado de Morelos Dr.Marco Antonio Cruz Chávez 2007-3283 Volumen 7, Número 2 /Junio del 2015 Periodo Junio-Septiembre 2015 Artículo de Investigación 52-58 Computación Junio del 2015 Cuatrimestral

PDF(725 KB)

Nestor Ivan Escalante Fol, Alberto Portilla Flores, Genoveva Vargas del Solar, Carolina Rocío Sánchez Pérez, Marva Angélica Mora Lumbreras y Norma Sánchez Sánchez

Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala, Calzada Apizaquito s/n. C.P. 90300 Apizaco, Tlaxcala, México

French Council of Scientific Research, LIG-LAFMIA, 681 rue de la Passerelle BP 72, 38402 Saint Martin d’Heres, France

Recibido: 31 de julio 2014 Aceptado: 6 de noviembre 2014 Publicado en línea: 30 junio 2015

Resumen. El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como Big Data. En este artículo presentamos la implementación del algoritmo “repartition join” para realizar la operación join en un conjunto grande de datos. El algoritmo join fue programado bajo el modelo de programación de MapReduce. Implementar un join en el contexto de Big Data resulta ser complejo y costoso, es por ello que apoyándose de la plataforma de Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por 3 nodos, analizando los resultados de ejecución para su posterior uso en aplicaciones con datos reales.

Palabras claves: Big Data, MapReduce, Hadoop, Join.

Abstract.The main objective of this work is related to the processing of Big Data. Therefore repartition implementation algorithm is proposed to perform the join operation in a large data set, applying under the MapReduceprogramming model. Implementing a join in the context of Big Data is complex and costly, therefore we use Hadoop platform, which provides the necessary tool for managing large volumes of information utilities to analyze the behavior of the algorithm and to evaluate its performance. The algorithm was tested in a cluster consisting of 3 nodes, analyzing the execution results for later use with real data.

Keywords:Big Data, MapReduce, Hadoop, Join.

Nestor Ivan Escalante Fol(Autor de correspondencia)

Email:nestorescalantefol@gmail.com

Alberto Portilla Flores

Email:alberto.portilla@gmail.com

Genoveva Vargas del Solar

Email:genoveva.vargas@gmail.com

Carolina Rocío Sánchez Pérez

Email:krlinasp@gmail.com

Marva Angélica Mora Lumbreras

Email:marva.mora@gmail.com

Norma Sánchez Sánchez

Email:norma.sanchez@gmail.com