Matemática
e redes neurais auxiliam no estudo da linguagem
Pesquisadores
do Laboratório de Fonética e Psicolingüística
(Lafape) do Instituto de Estudos da Linguagem da Unicamp estão
utilizando ferramentas da matemática e da computação
para descrever e modelar dados lingüísticos. Com isso,
acabam de desenvolver o embrião de um Banco de Dados Lexicais
do Português Brasileiro, ainda em fase de testes, mas que,
posteriormente, será aberto à comunidade científica.
O banco de dados pode ser utilizado para a busca de palavras com
um determinado som, recurso muito importante no trabalho de fonoaudiólogos
com crianças que apresentam distúrbios fonológicos.
E pesquisadores das artes, por exemplo, também podem utilizar
a ferramenta para fazer uma análise do canto.
Essa
ferramenta é um servidor de aplicações web
para busca de dados fônicos (sons de fala) e lexicais para
a utilização via internet. É baseado no programa
Listas – desenvolvido no Lafape em 1993, que contém
o Mini-Dicionário Aurélio – e no Projeto CELEX
da Comunidade Européia, desenvolvido por pesquisadores
do Max Planck Institute e da Universidade de Nijmegen, ambos da
Holanda. No projeto do banco de dados, utilizou-se o software
livre PostGreSQL. Os primeiros dados inseridos no banco vieram
da Linguateca, um centro de recursos sobre a língua portuguesa
sediado em Portugal. Depois, os dados passaram por um convertor
ortográfico-fônico, o Ortofon, também desenvolvido
no Lafape em 1996.
Eleonora
Albano, uma das coordenadoras do estudo iniciado em 2002, explica
que a matemática, por meio da teoria dos sistemas dinâmicos,
é utilizada para formalizar o movimento que a boca faz
para produzir os sons. Um sistema dinâmico é algo
que pode ser modelado matematicamente e que apresenta um caráter
dinâmico, ou seja, varia com o tempo podendo ser possível
prever seu comportamento futuro.
A
fala é entendida como um movimento audível, segundo
o conceito de fonologia articulatória. “A fala é
tratada como uma orquestração, ou seja, vários
pulsos funcionando simultaneamente.”, afirma Albano. Os
pesquisadores do Lafape fizeram uma análise de linguagem
experimental, utilizando gravações e simulações
no computador. Além dos sistemas dinâmicos, os cientistas
utilizaram as redes conexionistas (redes neurais ou sistemas que
aprendem). “O programa científico que uniria o dinamicismo
[teoria dos sistemas dinâmicos], o conexionismo [redes neurais]
com a fonologia articulatória tinha tudo para tratar de
linguagem. As redes conexionistas podem ir além do léxico,
podem tratar de gramática.”, esclarece a pesquisadora.
O
projeto do Lafape mostrou ainda que um sistema pode ser capaz
de aprender duas línguas diferentes, reconhecendo suas
diferenças lexicais e estruturais. Albano pretende dar
continuidade neste projeto com o banco de dados Emília,
que terá textos do Linguateca e do jornal Folha de
S. Paulo, que foram tratados por especialistas e passaram
por analisadores sintáticos, que esclarecem, por exemplo,
o que é o verbo, o substantivo e o adjetivo de uma frase.
“Eu estou dando o tratamento fônico [nesses dados],
colocando a letra que mais se adequa a determinado som”,
diz Albano.
Maiores
informações:
http://www.lafape.iel.unicamp.br/pessoal.htm