Title:
|
PRÉ-ETAPA PARA IDENTIFICAÇÃO DE TUPLAS DUPLICADAS COM FOCO EM IDIOMAS |
Author(s):
|
Juliano Augusto Carreira, Camila Alves de Medeiros, Carlos Roberto Valêncio |
ISBN:
|
978-989-8533-03-6 |
Editors:
|
Flavia Maria Santoro, Vânia Ribas Ulbricht, José María Gutiérrez e Pedro Isaías |
Year:
|
2011 |
Edition:
|
Single |
Keywords:
|
Banco de Dados, Limpeza de Dados, Tuplas Duplicadas, Recuperação de Informações. |
Type:
|
Poster/Demonstration |
First Page:
|
406 |
Last Page:
|
408 |
Cover:
|
|
Full Contents:
|
click to dowload
|
Paper Abstract:
|
Um dos problemas significativos e inerente às grandes bases de dados atuais é a incidência de tuplas duplicadas. Esse problema refere-se à repetição de registros que, na grande maioria das vezes, são representados de forma diferente nas bases de dados e fazem referência a uma mesma entidade do mundo real. Levando em consideração que cada idioma possui suas peculiaridades, acredita-se que com a utilização de técnicas da área de recuperação de informações pode-se enriquecer o conteúdo dos registros em relação a um idioma específico e, consequentemente, maximizar a quantidade de tuplas duplicadas identificadas e/ou melhorar o nível de confiança da classificação das mesmas em relação às ferramentas atuais. Sendo assim, a contribuição original deste trabalho é oferecer uma pré-etapa em forma de ambiente para o processo de identificação de tuplas duplicadas de forma que seja possível a realização de um aproximamento ortográfico dos registros e, consequentemente, uma maximazação dos resultados apresentados pelas técnicas de identificação de tuplas duplicadas existentes. Além disso, o ambiente trabalha com bases de dados definidas em qualquer idioma. |
|
|
|
|