Minería Web o Web mining
Concepto y tipos

Minería web: concepto
La minería web es la aplicación de la minería de datos para descubrir patrones provenientes de la World Wide Web. Se divide en tres tipos: minería del uso web, minería web de contenido y minería web de estructura.
La minería web es componente importante como fuente de información para portales web. Es utilizada en confirmación, validación de datos así como en integridad de datos y en la construcción de taxonomías y en el manejo de contenido, generación de contenido y la minería de opiniones.
Minería web de uso
Es la aplicación de minería de datos para descubrir patrones interesantes de uso de datos de la web, para comprender y atender mejor las necesidades de las aplicaciones web. Los datos de uso tienen la identidad o el origen de los usuarios web, así como de su comportamiento de búsqueda en una página web.
Este tipo de minería puede ser clasificada según los diferentes tipos de datos de uso. Entre los cuales destacan los datos de servidor web, los datos de aplicación del servidor y los datos a nivel de aplicación.
Los datos del servidor son los logs que tiene el servidor web. Datos típicos: direcciones IPs, tiempo de acceso, página de referencia…
Los datos de aplicación del servidor son utilizados en servidores con función e-commerce. Una clave para este tipo es la habilidad de seguimiento de varios eventos de negocio y registrarlos en los logs del servidor.
Los datos a nivel de aplicación se refieren a que nuevos eventos pueden ser definidos en una aplicación y estos quedan registrados en logs.
Minería web de estructura
La minería de estructura es usada en teoría de grafos para analizar los nodos y la estructura de conexión de un sitio web. Puede dividirse en dos tipos. La extracción de patrones desde hiperlinks de la web. Un hiperlink es un componente estructural que conecta la página a alguna otra localización.
La minería de la estructura del documento está enfocada en el análisis del uso de etiquetas HTML o XML de la web.
Minería web de contenido
Es la recolección, extracción e integración de datos útiles, información y conocimiento del contenido de la web. La heterogoneidad y la falta de estructura permite la expansión sin fin de fuentes de información en la web hace automático el descubrimiento y la organización, y las herramientas de búsqueda y de indexación proveen de comodidad al usuario, pero estas no proporcionan categorización, filtros o interpretan documentos.
Esto hizo que investigadores creasen herramientas más inteligentes para la recuperación de información como agentes web. Así como extender técnicas de minería de datos para ofrecer una mayor organización para datos semiestructurados disponibles en la web. El enfoque agente web para minería web incluye un desarrollo de sistemas de inteligencia artificial sofisticados que pueden actuar autónomamente o semiautónomamente en favor de un determinado usuario para descubrir y organizar información basada en la web.