Módulo para Clasificación Automática y Temática de Páginas Web.

 

Authors
García Muñoz, María del Cisne
Format
BachelorThesis
Status
publishedVersion
Description

The web has become one of the most commonly used media today, most designers, programmers and users, work with the information found on the web. It is therefore vital to use the available resources in the best way that we can. This can only be achieved by having algorithms that solve the needs in the shortest time possible. This is where classification algorithms play an important role, because not only they can improve the quality of searches performed, but also to optimize the resources, that now are concentrated in the appropriate topic. This is the reason why, this project proposes to build a Simple and efficient prototype of automatic classification, using TFIDF coefficients and bagging techniques for integration with Psearch system. The objective is to find a balance between accuracy and response time to allow the system to deliver better results to the Psearch users. The module uses simple pre-processing techniques to extract vital information from each of the HTML document and then classify them with accuracy above 90%.
La web se ha transformado en uno de los medios de comunicación más utilizados en la actualidad, la mayoría de diseñadores, programadores y usuarios, trabajan con la información que se encuentra en la web. Por ello es de vital importancia la mejor utilización de los recursos disponibles que solamente se logra al contar con algoritmos que resuelvan las necesidades en el menor tiempo posible. Es aquí donde los algoritmos de clasificación juegan un papel muy importante, ya que no solo pueden mejorar la calidad de las búsquedas que se realizan, sino que también permiten optimizar los recursos que ahora se concentran en el tema adecuado. Por ello, el presente proyecto propone, mediante la utilización de coeficientes TFIDF y la técnica de embolsamiento, construir un prototipo de módulo de clasificación automática, temática, simple y eficiente de páginas web, para la integración con el sistema de búsquedas PSearch. Se busca un balance entre exactitud y tiempo de respuesta, para permitir que el sistema PSearch entregue mejores resultados a sus usuarios. Mediante la selección de técnicas de pre-procesamiento simples se quiere extraer información crítica de cada uno de los doc

Publication Year
2012
Language
esp
Topic
Sitios Web
Clasificación automática
Algoritmos
Repository
Repositorio Universidad San Francisco de Quito
Get full text
http://repositorio.usfq.edu.ec/handle/23000/1345
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/3.0/ec/