Digital Library

cab1

 
Title:      PRÉ-ETAPA PARA IDENTIFICAÇÃO DE TUPLAS DUPLICADAS COM FOCO EM IDIOMAS
Author(s):      Juliano Augusto Carreira, Camila Alves de Medeiros, Carlos Roberto Valêncio
ISBN:      978-989-8533-03-6
Editors:      Flavia Maria Santoro, Vânia Ribas Ulbricht, José María Gutiérrez e Pedro Isaías
Year:      2011
Edition:      Single
Keywords:      Banco de Dados, Limpeza de Dados, Tuplas Duplicadas, Recuperação de Informações.
Type:      Poster/Demonstration
First Page:      406
Last Page:      408
Cover:      cover          
Full Contents:      click to dowload Download
Paper Abstract:      Um dos problemas significativos e inerente às grandes bases de dados atuais é a incidência de tuplas duplicadas. Esse problema refere-se à repetição de registros que, na grande maioria das vezes, são representados de forma diferente nas bases de dados e fazem referência a uma mesma entidade do mundo real. Levando em consideração que cada idioma possui suas peculiaridades, acredita-se que com a utilização de técnicas da área de recuperação de informações pode-se enriquecer o conteúdo dos registros em relação a um idioma específico e, consequentemente, maximizar a quantidade de tuplas duplicadas identificadas e/ou melhorar o nível de confiança da classificação das mesmas em relação às ferramentas atuais. Sendo assim, a contribuição original deste trabalho é oferecer uma pré-etapa – em forma de ambiente – para o processo de identificação de tuplas duplicadas de forma que seja possível a realização de um aproximamento ortográfico dos registros e, consequentemente, uma maximazação dos resultados apresentados pelas técnicas de identificação de tuplas duplicadas existentes. Além disso, o ambiente trabalha com bases de dados definidas em qualquer idioma.
   

Social Media Links

Search

Login