Qual
o sentido da Web?
Imagine
que você esteja buscando informações sobre metrópoles
norte-americanas na Internet. Entre com a palavra "metropolis"
(em inglês) num programa de busca e virão respostas
tão variadas quanto a revista Metropolis,
a gravadora de discos Metropolis,
o fórum Metropolis
sobre pesquisa e políticas de migração e cidades,
a página de um fã do Metropolis,
de Fritz Lang e outras. Isto porque os programas não
distinguem o filme da revista ou do centro de pesquisas. É
claro que você pode (aliás, deve) combinar "metropolis"
com outras palavras-chave, acrescentando ou excluindo termos que
permitam refinar a busca, preferencialmente indicando também
outros parâmetros, como data, língua ou domínio,
que muitos programas aceitam na função de "busca
avançada". Ainda assim, o resultado é muitas
vezes desolador. São dezenas (às vezes centenas) de
páginas que não interessam, tornando difícil
separar o joio do trigo.
Com
o crescimento exponencial da Web tornou-se difícil indexar
as informações. A linguagem HTML, que popularizou
a Web e é utilizada pela maioria dos sites, não possui
recursos que permitam atribuir significado à informação.
"As tags HTML são muito limitadas nesse sentido. Elas
apenas descrevem como a página deve ser exibida e não
oferecem nenhuma descrição dos dados", explica
Rubens Queiroz, do Centro de Computação da Unicamp.
Para
melhorar a indexação, são necessárias
categorias mais apuradas que permitam triar com eficiência,
no oceano de dados disponíveis, aquilo que interessa ao usuário
num contexto preciso. Na verdade, categorias já existem.
Para o usuário que visita as páginas da revista Metropolis,
da ONG Metropolis e a do fã do filme Metropolis a diferença
é evidente. O problema é que ela só é
entendida por nós, humanos, mas não fazem sentido
para os programas de computador, que ainda estão muito distantes
de imitar o funcionamento da mente humana. Os programas de computador
(ainda) não conseguem resolver as ambigüidades e outros
problemas complexos que o ser humano consegue, embora esta seja
a aspiração da Inteligência Artificial: fazer
com que a máquina reproduza os mecanismos da inteligência
humana. Mas disto ainda estamos longe...
A Web
Semântica é uma tentativa inversa de solução.
Ao invés de pensar na informação para os humanos,
a idéia é pensar na máquina. "Machine-understandable
Information", esta é a definição da Web
Semântica, segundo o "pai da Web", Tim Berners-Lee,
um dos comandantes desse projeto. É curioso, claro, pois
o objetivo final é atender às pessoas e não
aos computadores, mas para isso é preciso construir categorias
e uma linguagem que façam sentido para a máquina.
O projeto
da Web
Semântica, embora pareça uma novidade, não
nasceu há tão pouco tempo. Capitaneado pelo consórcio
W3C, ele é
um sucessor do projeto Metadados,
cujos princípios são os mesmos (incluir "informação
sobre a informação" na Web), mas que trabalhava
com linguagem (HTML), que não permite criar categorias semânticas.
Um
componente central da Web Semântica é a linguagem XML,
que permite descrever semanticamente os dados e, a partir de categorias
que o próprio usuário pode definir. "Um elemento
XML pode ter dados declarados como sendo preço de venda,
título de livro, quantidade de chuva ou qualquer outro. Uma
vez que o dado é encontrado, ele pode ser distribuído
pela rede e apresentado em um browser, de várias formas possíveis,
ou então pode ser transferido para outras aplicações
para processamento futuro e visualização", explica
Miguel Furtado Júnior, estudante do Centro de Tecnologia
em Engenharia Eletrônica da UFRJ, autor de um tutorial
simples e bem estruturado sobre XML.
"O
interesse do XML é que ele é extremamente flexível,
embora a criação de muitas categorias diferentes também
não seja interessante, pois se as empresas querem trocar
dados é preciso que partilhem um código comum",
ressalta Queiroz, que é mediador da lista de discussão
Dicas-L,
sobre esse e outros assuntos relacionados a softwares e Internet.
Ele cita o exemplo da Unicamp e CNPq, que estabeleceram um protocolo
comum (criado por uma equipe da Universidade Federal de Santa Catarina)
para poder trocar dados relativos aos currículos de seus
pesquisadores. Em breve, um pesquisador que atualize seus dados
na plataforma Sipex da
Unicamp terá automaticamente os dados convertidos para a
plataforma Lattes do CNPq.
Para
criar aplicações XML são necessários
quatro passos:
-
Selecionar ou escrever um DTD (Document Type Definition),
que é um conjunto de tags + a gramática da
linguagem de marcação.
-
Criar documentos XML:é importante não sobrepor
tags, e não omitir tags de finalização.
-
Interpretar documentos XML: através de dois padrões
DOM (Document Object Model) e SAX (Simple API for XML).
-
Exibir documentos XML: nem todos os navegadores entendem
o formato; nesse caso é preciso transformar o arquivo
com folhas de estilo (CSS).
Esse
processo ainda é relativamente complexo e se torna
mais difícil quando um projeto envolve muitos participantes,
que têm de se colocar de acordo sobre que categorias
utilizar, como os dados devem ser relacionados, como os usuários
irão interagir com eles. Todos precisam estar de acordo,
caso contrário não há como montar o "banco
de dados". Este é, aliás, um dos maiores
desafios do futuro da Web. Para o comércio eletrônico,
o mais provável é que as empresas cheguem a
um acordo, pois têm muito interesse nessa tecnologia,
que potencialmente pode incrementar muito seus negócios.
Nos demais casos, é difícil imaginar qual será
a saída.
|
Evolução
das linguagens
|
SGML
(Standard Generalized Markup Language)
-
Definida em 1986
-
Possibilidade de criação
de qualquer conjunto de tags
-
Padrão comum: DTD (Document Type
Definition)
-
Difícil adoção na
Web
-
Complexidade
-
Inexistência de estilos amplamente
difundidos
|
HTML
(Hypertext Markup Language)
-
Derivada do SGML
-
Própria para Web
-
Extremamente simples
-
Fácil criação de
links hypertexto
-
Conjunto limitado de tags
-
Difícil reutilização
da informação
-
Busca por documentos gera muitos resultados
irrelevantes
|
XML
(Extensible Markup Language)
-
SGML para Web
-
Especificação mais simples
-
Formato texto
-
Descrição de dados estruturados
-
Número ilimitado de tags
-
Otimiza entrega de informações
-
Dados são independentes dos aplicativos
ou fornecedores de software
|
Fonte:
XML, Rubens Queiroz, Unicamp
|
|
|
|
Outros
componentes da Web Semântica são:
- URI:
Universal Resource Identifier. Como a URL (que é um tipo
de URI), especifica uma identidade, não necessariamente
por sua localização na Web.
- RDF:
Resource Description Framework. Uma linguagem e uma gramática
para definir informação na Web.
- Ontologias:
Conjuntos de asserções que definem as relações
entre conceitos e estabelecem regras lógicas de raciocínio
sobre eles. Para interpretar o significado das informações,
os computadores usarão ontologias.
- Agentes:
Softwares que funcionam sem necessidade de controle direto ou
supervisão permanente para cumprir demandas estabelecidas
por um usuário.
Aplicações
As
metas do projeto da Web Semântica são mais ambiciosas
do que simplesmente permitir indexar melhor a informação
da Web. Interessam as aplicações que se tornam possíveis
com a utilização de categorias semânticas para
descrever os dados. Quem leu o texto
de Berners-Lee, James Hendler e Ora Lassila, na revista Scientific
American de maio/2001, se lembrará que o início descreve
o caso de Pete, um filho que busca na Internet, através de
seu agente (um software robô), alternativas para a fisioterapia
de sua mãe. Dispondo previamente de uma série de dados
de Pete (seu endereço, seus horários, o seguro-saúde
de sua mãe, etc), o agente busca na Web as informações
relevantes (lista de médicos credenciados, suas agendas,
etc) e em alguns minutos oferece uma lista de opções
para que ele escolha a que mais lhe convém. Não satisfeito
com a primeira lista, Pete pede que o agente refaça a busca
de acordo com as restrições por ele estabelecidas.
Desta vez, a solução oferecida é satisfatória
e com algumas ações simples. Pete muda parte de seus
compromissos, obtém a aceitação do agente de
Lucy (sua irmã, com quem irá dividir as idas à
fisioterapia da mãe) e acerta a agenda.
Todo
esse cenário, é claro, ainda está relativamente
distante. Além disso, as aplicações mais prováveis
das ferramentas acima descritas serão o comércio eletrônico
e grandes bancos de dados, como os próprios autores ressaltam.
Mas, pondera Rubens Queiroz, isto não faz da Web Semântica
uma má idéia. "Hoje o interesse maior é
de empresas, por exemplo uma grande editora, para permitir a troca
de dados. Mas sites não comerciais também se beneficiarão
da utilização do XML e do desenvolvimento da Web Semântica,
pois seus conteúdos serão indexados mais eficientemente
pelos programas de busca e poderão ser mais facilmente convertidos
em novos formatos ou ganharem novo visual", conclui.
Para
quem quiser ver exemplos de sites que desenvolvem os conceitos da
Web Semântica, com utilização de XML, RDF e
outros, são interessantes o Projeto
Dublin Core Metadata Initiative, o IMS
Global Learning Consortium, que estabelece vocabulários
para facilitar o aprendizado distribuído on line e, em português
o Projeto
RSSficado.
(MM)
Para
saber mais: |
Semantic
Web Road Map
Texto de Tim Berners-Lee que, como diz o título,
é um mapa da Web Semântica, aspectos gerais
de sua arquitetura e objetivos. Interessante para quem
busca um texto de introdução ao projeto.
Claro e consistente. Nível intermediário.
The
Semantic Web
Artigo de Tim Berners-Lee, James Hendler e Ora Lassila
na revista Scientific American de maio de 2001. Nível
intermediário.
Tutorial
XML
Em português, elaborado por Miguel Furtado Júnior,
estudante da UFRJ.
Metadata
Based Annotation Infrastructure offers Flexibility and
Extensibility for Collaborative Applications and Beyond
Paper científico sobre ABSTRACT, apresentado
por dois pesquisadores do W3C (Marja-Riitta Koivunen
and Ralph R. Swick) no KCAP workshop on Knowledge markup
and semantic annotation. Atual e interessante. Nível
avançado.
RDF
Model Theory
Última versão da teoria semântica
da linguagem RDF (Resource Description Framework). Atualizado
em fevereiro de 2002. Nível avançado.
Exige conhecimentos de lógica, semântica
e informática.
MIT
Artificial Intelligence Laboratory
Importante laboratório de pesquisa sobre Inteligência
Artificial. Site traz resumos das pesquisas e outros
materiais interessantes.
|
|
|