Procesando Big Data en Hadoop usando el Repartition Join |
||
Publicación: |
Programación Matemática y Software |
PDF(725 KB) |
Nestor Ivan Escalante Fol, Alberto Portilla Flores, Genoveva Vargas del Solar, Carolina Rocío Sánchez Pérez, Marva Angélica Mora Lumbreras y Norma Sánchez Sánchez |
Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala, Calzada Apizaquito s/n. C.P. 90300 Apizaco, Tlaxcala, México French Council of Scientific Research, LIG-LAFMIA, 681 rue de la Passerelle BP 72, 38402 Saint Martin d’Heres, France |
Recibido: 31 de julio 2014 Aceptado: 6 de noviembre 2014 Publicado en línea: 30 junio 2015 |
Resumen. El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como Big Data. En este artículo presentamos la implementación del algoritmo “repartition join” para realizar la operación join en un conjunto grande de datos. El algoritmo join fue programado bajo el modelo de programación de MapReduce. Implementar un join en el contexto de Big Data resulta ser complejo y costoso, es por ello que apoyándose de la plataforma de Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por 3 nodos, analizando los resultados de ejecución para su posterior uso en aplicaciones con datos reales. |
Palabras claves: Big Data, MapReduce, Hadoop, Join. |
Abstract.The main objective of this work is related to the processing of Big Data. Therefore repartition implementation algorithm is proposed to perform the join operation in a large data set, applying under the MapReduceprogramming model. Implementing a join in the context of Big Data is complex and costly, therefore we use Hadoop platform, which provides the necessary tool for managing large volumes of information utilities to analyze the behavior of the algorithm and to evaluate its performance. The algorithm was tested in a cluster consisting of 3 nodes, analyzing the execution results for later use with real data. |
Keywords:Big Data, MapReduce, Hadoop, Join. |
Nestor Ivan Escalante Fol(Autor de correspondencia) |
Email:nestorescalantefol@gmail.com |
Alberto Portilla Flores |
Email:alberto.portilla@gmail.com |
Genoveva Vargas del Solar |
Email:genoveva.vargas@gmail.com |
Carolina Rocío Sánchez Pérez |
Email:krlinasp@gmail.com |
Marva Angélica Mora Lumbreras |
Email:marva.mora@gmail.com |
Norma Sánchez Sánchez |
Email:norma.sanchez@gmail.com |