Introduciendo la minería de textos

Concepto, procesos involucrados y técnicas usadas

Imagen relacionada con minería de textos

Minería de textos: concepto

La minería de textos es un proceso de derivación de información de alta calidad a partir de un texto. La información de calidad alta es derivada por medio de patrones de diversificación y tendencias a partir de medias por medio de un patrón de aprendizaje estadístico.

El proceso de minería de textos se compone de varias etapas. La primera, es determinar los objetivos de la investigación. Seguida de la preselección de los textos. Continuado por el establecimiento del modelo y, al final, el análisis de resultados.

El concepto de “calidad alta” en minería de textos está referido a la combinación de relevancia, el grado de interés y la novedad.

Las tareas más asociadas a la minería de textos son categorización de textos, extracción de concepto-entidad, producción de taxonomías granulares, análisis de opiniones, resumen de documentos, modelar las relaciones entre entidades y la agrupación de textos.

El proceso de la minería de textos

Como en toda tarea científica o del ámbito de las ciencias, se han de definir los objetivos que se quieren cumplir con la minería de textos. Se ha de acotar bien el ámbito y la profundidad a la que se quiere llegar.

La segunda fase del proceso es la selección de los textos o similares sobre los que se va a efectuar la investigación y esta es la fuente de información.

La penúltima fase es la creación del modelo. Dependiendo de los objetivos propuestos y la tarea a realizar, se pueden emplear diferentes técnicas en la creación y determinación del modelo.

La última parte de un proceso de minería de textos es analizar los datos obtenidos y sacar las conclusiones correspondientes del estudio.

Técnicas relacionadas con la minería de textos

La recuperación de información es un paso preparatorio. Se ha de coleccionar o identificar una cantidad de material en forma de texto, mantenidos en un sistema de almacenamiento, para su análisis.

La aplicación del procesamiento de lenguaje natural como parte del etiquetado del discurso, el análisis sintáctico y otros tipos de análisis lingüístico.

El reconocimiento de las entidades de estudio también influye en el proceso de la minería de textos. A su vez, también es importante el reconocimiento de patrones en las entidades que son objeto del estudio.

La identificación de correferencia para identificar partes del texto que se refieren a la misma entidad.

Identificar las asociaciones existentes entre las entidades.

El análisis de sentimientos también resulta importante en la minería de textos para conocer la opinión subjetiva sobre la entidad.

El análisis de los patrones de estilo en que está escrito el texto objeto de análisis.

Free Web Hosting