Title:
|
CATEGORIZAÇÃO DE PÁGINAS WEB USANDO ELEMENTOS DO HTML |
Author(s):
|
Oeslei Taborda Ribas, Celso Antônio Alves Kaestner |
ISBN:
|
978-972-8939-95-3 |
Editors:
|
Cristiano Costa, Luis Bengochea Martínez, Flavia Maria Santoro e Pedro Isaías |
Year:
|
2013 |
Edition:
|
Single |
Keywords:
|
Categorização de Texto, Classificação na web, Aprendizagem de Máquina. |
Type:
|
Full Paper |
First Page:
|
29 |
Last Page:
|
36 |
Cover:
|
|
Full Contents:
|
click to dowload
|
Paper Abstract:
|
Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web tem adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo, no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações envolvendo o uso de diferentes marcadores HTML (HyperText Markup Language). Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto âncora - presente nos hyperlinks da página - nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%. |
|
|
|
|