Mineração de Texto

Mineração de Texto

A mineração de textos, também conhecida como mineração de informação documental, mineração de dados textuais, ou descoberta de bancos de dados textuais é uma tecnologia emergente para análise de grandes coleções de documentos não estruturados para os propósitos de extração de padrões ou conhecimentos interessantes e não triviais.

Alguns problemas típicos envolvendo a busca por conhecimento em arquivos com conteúdo puramente lingüísticos têm sido resolvidos com a mineração de textos:

  • Identificação de idiomas: A identificação de idiomas é indicada para descobrir a língua em que o texto foi escrito, ou percentual de participação, no caso do emprego de mais de uma língua.
  • Extração e seleção de características: Indicado para reconhecer itens significativos do vocabulário empregado no texto. Entre exemplos de características reconhecidas, podem ser citados nomes de pessoas, organizações ou lugares, abreviações, datas, valores em moeda corrente e outros tipos de itens qualificados.
  • Aglomeração: É uma técnica que divide uma coleção de documentos em grupos. Os documentos de cada grupo são homogêneos entre si. A aglomeração divide uma população com base na auto-similaridade entre os dados.
  • Sumarização: Consiste em identificar segmentos relevantes de um texto e compô-los a fim de produzir os sumários correspondentes.
  • Visualização: Consiste em descrever conjuntos complexos de dados em cenas visuais de fácil interpretação. As propriedades ou características de grandes itens textuais podem ser visualizadas através de gráficos de várias dimensões.
  • Categorização de textos: Consiste em examinar os atributos de um determinado documento e, baseado nos valores destes atributos, associar seu conteúdo a uma determinada categoria.

O Processo de Categorização de Textos

A atividade de classificação de textos consiste no agrupamento de documentos elaborados em linguagem natural em diversas categorias ou classes. Até o final da década de 1980, o processo de automação desta atividade consistia em manualmente definir um conjunto de regras, que representava o conhecimento de especialistas, para classificar documentos em uma categoria específica.

Resultado de imagem para mineração de textosEsta abordagem mudou a partir da década de 1990, com a introdução de algoritmos de aprendizado de máquina para classificação de textos. O objetivo destas técnicas é ensinar classificadores, a partir de exemplos que assimilem automaticamente características intrínsecas de cada categoria.

Matematicamente, a categorização de textos pode ser vista como a busca pela função  f: DxC={0,1} que seja próxima à função ótima de classificação g:DxC={0,1}, onde D = {d1, d2, d3,..., dj} é um conjunto de documentos e C = {c1, c2, c3,..., ci} é um conjunto de classes pré-definidas.

A Figura 1 ilustra o processo de classificação de um texto. Inicialmente existe um processo de conversão do documento para uma visão lógica que possa ser compreensível para o algoritmo classificador. Em seguida, a partir do conhecimento da classe, obtido via aprendizado de máquina, a categorização do documento submetido é realizada.

Classificação do Documento

Um documento, em seu formato original, não pode ser diretamente interpretado por um algoritmo classificador. Devido a este fato, um procedimento de indexação, usado mapear um documento para uma representação compacta de seu conteúdo, é necessária para permitir a uniformização do processo de classificação de documentos.

A idéia neste caso é coletar um conjunto de termos oriundos do documento, já formatados a uma forma padrão através de processos de análise léxica, conversão de caracteres, remoção de stopwords, normalizações morfológicas, reduções de dimensionalidade e outros métodos aplicáveis.

Os algoritmos classificadores de documentos utilizam processos indutivos. Nesta linha, um classificador para uma categoria ci é construído observando as características de um conjunto de documentos, previamente rotulados sob ci por um especialista no domínio. Esta é uma abordagem de aprendizado supervisionado, onde um novo documento é classificado de acordo com as características aprendidas por um classificador construído e treinado a partir de dados rotulados.

Estas técnicas estão implementadas em softwares como o Weka e R, discutidos, respectivamente, nos cursos da Aprenda Virtual na área de Mineração de Dados e Linguagem R.

Clique para conhecer o curso de Mineração de Dados na Aprenda Virtual
Clique para conhecer o curso da Linguagem R na Aprenda Virtual

Nenhum Comentário

Escrever um Comentário