Implementación del Clasificador Naive Bayes para la Acentuación Automática de Palabras Ambiguas del Español

Automatic accent detection using naive Bayes clasifier for Spanish language

Publicación:
Entidad Editora:
Editor Técnico:
ISSN:
Ejemplar/Número:
Cateoría:
Páginas:
Colección:
Fecha de inicio:
Periodicidad:

Programación Matemática y Software
Universidad Autónoma del Estado de Morelos
Dr.Marco Antonio Cruz Chávez
2007-3283

Volumen 6, Número 1 /Febrero del 2014
Artículo de Investigación
14-22
Computación

Febrero del 2014

Cuatrimestral

 

 

 

 

PDF(2256 KB)

Yesenia N. González-Meneses, Blanca Estela Pedroza-Méndez, Francisco López-Briones, Carlos Pérez-Corona, J. Federico Ramírez-Cruz

Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México.

Recibido:20 de septiembre de 2011 Aceptado:20 de Febrero de 2012 Publicado en línea:Febrero del 2014

Resumen.En este artículo se analiza uno de los problemas más representativos en el tratamiento del lenguaje español, que es el de la ambigüedad en la acentuación gráfica de las palabras. En la escritura del español se utiliza el acento gráfico o tilde, el cual determina la pronunciación o interpretación correcta de las palabras. Algunos vocablos de construcción similar pueden llevar tilde o no, o la llevan en diferente sílaba, lo cual permite que tomen diferentes sentidos en relación con su contexto, para lo cual se utiliza la llamada tilde diacrítica. La asignación correcta de la tilde diacrítica en este proyecto es abordada como un problema de clasificación, donde con base en el contexto se determina si las palabras ambiguas llevan esta marca o no. Para ello se entrenó un modelo con el clasificador naive Bayes.

Palabras clave:Ambigüedad en la acentuación, clasificador naive Bayes, etiquetado de texto.

 
Abstract.This paper analyzes one of the most representative problems in the treatment of Spanish language, which is the ambiguity that exists in the graphic accentuation of words. In written Spanish the diacritic mark representing acute accent is widely used, and helps determine the right pronunciation or interpretation of words. Similarly constructed words can be distinguished by the presence or not of the accent mark, or by its placement in a different syllable, which allows them to take different meanings depending on the context. In this project the correct allocation of the diacritical accent is treated as a classification problem, where the context determines whether ambiguous words should be graphically accented or not. To this end, we trained and tested a model with the naive Bayes classifier.

Keywords: ambiguity in accentuation, naive Bayes classifier, text labeling.

Yesenia-N González-Meneses(Autor de correspondencia)
Email:yeseniaglez@hotmail.com
 
Blanca-Estela Pedroza-Méndez
Email:thelismedina@hotmail.com
 
Francisco López-Briones
Email:franlopbri@hotmail.com
 
Carlos Pérez-Corona
Email:cperez_corona@hotmail.com
 
J-Federico Ramírez-Cruz
Email:jframirezc@hotmail.com