Evaluando la similitud semántica en textos cortos usando el contexto relacionado y DISCO

Publicación:
Entidad Editora:
Editor Técnico:
ISSN:
Ejemplar/Número:

Cateoría:
Páginas:
Colección:
Fecha de inicio:
Periodicidad:

Programación Matemática y Software
Universidad Autónoma del Estado de Morelos
Dr.Marco Antonio Cruz Chávez
2007-3283

Volumen 11, Número 1 /Febrero de 2019
Periodo Febrero-Mayo 2019
Artículo de Investigación
1-8
Computación

Febrero del 2019

Cuatrimestral

 

 

 

 

PDF(2646 KB)

Franco Rojas-López 1, Mariano Larios Gómez2, Adriana Hernandez-Beristain2, Jorge Jaime Juárez-Lucero1

1Universidad Politécnica Metropolitana de Puebla
2Benemérita Universidad Autónoma de Puebla

Recibido: 28 de junio de 8 Aceptado:10 de octubre de 2018 Publicado en línea:28 febrero de 2019

Resumen.Medir el grado de similitud semántica entre textos o conceptos es una tarea desafiante e importante en varias aplicaciones de Recuperación de Información y Procesamiento del Lenguaje Natural. Dada la importancia de la tarea, en este artículo se propone un método para medir la similitud semántica entre un par de oraciones usando la técnica “Hipótesis Distribucional”, para recuperar desde la Web, contextos relacionados con el conjunto de entrenamiento. Los contextos relacionados son un componente importante para calcular la similitud semántica entre pares de oraciones. En el artículo se presentan los resultados obtenidos desde un conjunto de entrenamiento estándar. La evaluación empírica muestra que el enfoque propuesto supera el baseline, así como algunos métodos propuestos previamente en el conjunto de entrenamiento estándar.

Palabras Clave: Contexto relacionado, información mutua, hipótesis distribucional, procesamiento del lenguaje natural.

 

Abstract. Measuring the degree of semantic similarity between texts or concepts is a challenge task and important in several applications in Information Retrieval and Natural Language Processing. Given the importance of the task, a method is proposed to measure the semantic similarity between a pair of sentences using the technique Distributional Hypothesis to extract from the web related contexts to the training set.
The related contexts are an important component to calculate the semantic similarity between pairs of sentences. The article presents the results obtained from a standard training set. The empirical evaluation shows that the proposed approach exceeds the baseline, as well as some methods previously proposed in the standard training set.


Keywords:distributional hypothesis, mutual information, natural language processing, related context, semantic similarity.

Franco Rojas-López (Autor de correspondencia)
Email:franco.rojas@metropoli.edu.mx
 
Adriana Hernandez-Beristain
Email:adrianah.beristain@correo.buap.mx
 
Jorge Jaime Juárez-Lucero
Email:jorge.jaime@metropoli.edu.mx