Editorial:

A parábola do cão digital
Carlos Vogt

Reportagens:
Governo se compromete com o SocInfo
Escolas públicas sem computadores
Realidade digital nas relações de trabalho
Internet de alta velocidade
Novas tecnologias de hardware
Certificação digital, segurança possível
Web semântica
Direitos autorais e copyleft
Hackers e crackers
Arquivos abertos e modelos de publicação
Telemedicina, aplicações para o Brasil
Artigos:
Computação ubíqua e cooperativa
Ricardo Anido

A Internet é autosustentável?
Peter Schultz

A maturidade da informação
Karma Rubio
Castells e a "era da informação"
Osvaldo Lopes
Controle social e gestão da Internet
Carlos Afonso
Jovens e computadores
Tom Dwyer
Nova Internet
Nelson Simões
Poema:
Media Watching
Carlos Vogt
 
Bibliografia
Créditos

 

 

Qual o sentido da Web?

Imagine que você esteja buscando informações sobre metrópoles norte-americanas na Internet. Entre com a palavra "metropolis" (em inglês) num programa de busca e virão respostas tão variadas quanto a revista Metropolis, a gravadora de discos Metropolis, o fórum Metropolis sobre pesquisa e políticas de migração e cidades, a página de um fã do Metropolis, de Fritz Lang e outras. Isto porque os programas não distinguem o filme da revista ou do centro de pesquisas. É claro que você pode (aliás, deve) combinar "metropolis" com outras palavras-chave, acrescentando ou excluindo termos que permitam refinar a busca, preferencialmente indicando também outros parâmetros, como data, língua ou domínio, que muitos programas aceitam na função de "busca avançada". Ainda assim, o resultado é muitas vezes desolador. São dezenas (às vezes centenas) de páginas que não interessam, tornando difícil separar o joio do trigo.

Com o crescimento exponencial da Web tornou-se difícil indexar as informações. A linguagem HTML, que popularizou a Web e é utilizada pela maioria dos sites, não possui recursos que permitam atribuir significado à informação. "As tags HTML são muito limitadas nesse sentido. Elas apenas descrevem como a página deve ser exibida e não oferecem nenhuma descrição dos dados", explica Rubens Queiroz, do Centro de Computação da Unicamp.

Para melhorar a indexação, são necessárias categorias mais apuradas que permitam triar com eficiência, no oceano de dados disponíveis, aquilo que interessa ao usuário num contexto preciso. Na verdade, categorias já existem. Para o usuário que visita as páginas da revista Metropolis, da ONG Metropolis e a do fã do filme Metropolis a diferença é evidente. O problema é que ela só é entendida por nós, humanos, mas não fazem sentido para os programas de computador, que ainda estão muito distantes de imitar o funcionamento da mente humana. Os programas de computador (ainda) não conseguem resolver as ambigüidades e outros problemas complexos que o ser humano consegue, embora esta seja a aspiração da Inteligência Artificial: fazer com que a máquina reproduza os mecanismos da inteligência humana. Mas disto ainda estamos longe...

A Web Semântica é uma tentativa inversa de solução. Ao invés de pensar na informação para os humanos, a idéia é pensar na máquina. "Machine-understandable Information", esta é a definição da Web Semântica, segundo o "pai da Web", Tim Berners-Lee, um dos comandantes desse projeto. É curioso, claro, pois o objetivo final é atender às pessoas e não aos computadores, mas para isso é preciso construir categorias e uma linguagem que façam sentido para a máquina.

O projeto da Web Semântica, embora pareça uma novidade, não nasceu há tão pouco tempo. Capitaneado pelo consórcio W3C, ele é um sucessor do projeto Metadados, cujos princípios são os mesmos (incluir "informação sobre a informação" na Web), mas que trabalhava com linguagem (HTML), que não permite criar categorias semânticas.

Um componente central da Web Semântica é a linguagem XML, que permite descrever semanticamente os dados e, a partir de categorias que o próprio usuário pode definir. "Um elemento XML pode ter dados declarados como sendo preço de venda, título de livro, quantidade de chuva ou qualquer outro. Uma vez que o dado é encontrado, ele pode ser distribuído pela rede e apresentado em um browser, de várias formas possíveis, ou então pode ser transferido para outras aplicações para processamento futuro e visualização", explica Miguel Furtado Júnior, estudante do Centro de Tecnologia em Engenharia Eletrônica da UFRJ, autor de um tutorial simples e bem estruturado sobre XML.

"O interesse do XML é que ele é extremamente flexível, embora a criação de muitas categorias diferentes também não seja interessante, pois se as empresas querem trocar dados é preciso que partilhem um código comum", ressalta Queiroz, que é mediador da lista de discussão Dicas-L, sobre esse e outros assuntos relacionados a softwares e Internet. Ele cita o exemplo da Unicamp e CNPq, que estabeleceram um protocolo comum (criado por uma equipe da Universidade Federal de Santa Catarina) para poder trocar dados relativos aos currículos de seus pesquisadores. Em breve, um pesquisador que atualize seus dados na plataforma Sipex da Unicamp terá automaticamente os dados convertidos para a plataforma Lattes do CNPq.

Para criar aplicações XML são necessários quatro passos:

  • Selecionar ou escrever um DTD (Document Type Definition), que é um conjunto de tags + a gramática da linguagem de marcação.
  • Criar documentos XML:é importante não sobrepor tags, e não omitir tags de finalização.
  • Interpretar documentos XML: através de dois padrões DOM (Document Object Model) e SAX (Simple API for XML).
  • Exibir documentos XML: nem todos os navegadores entendem o formato; nesse caso é preciso transformar o arquivo com folhas de estilo (CSS).

Esse processo ainda é relativamente complexo e se torna mais difícil quando um projeto envolve muitos participantes, que têm de se colocar de acordo sobre que categorias utilizar, como os dados devem ser relacionados, como os usuários irão interagir com eles. Todos precisam estar de acordo, caso contrário não há como montar o "banco de dados". Este é, aliás, um dos maiores desafios do futuro da Web. Para o comércio eletrônico, o mais provável é que as empresas cheguem a um acordo, pois têm muito interesse nessa tecnologia, que potencialmente pode incrementar muito seus negócios. Nos demais casos, é difícil imaginar qual será a saída.

Evolução das linguagens

SGML
(Standard Generalized Markup Language)

  • Definida em 1986
  • Possibilidade de criação de qualquer conjunto de tags
  • Padrão comum: DTD (Document Type Definition)
  • Difícil adoção na Web
  • Complexidade
  • Inexistência de estilos amplamente difundidos

HTML
(Hypertext Markup Language)

  • Derivada do SGML
  • Própria para Web
  • Extremamente simples
  • Fácil criação de links hypertexto
  • Conjunto limitado de tags
  • Difícil reutilização da informação
  • Busca por documentos gera muitos resultados irrelevantes

XML
(Extensible Markup Language)

  • SGML para Web
  • Especificação mais simples
  • Formato texto
  • Descrição de dados estruturados
  • Número ilimitado de tags
  • Otimiza entrega de informações
  • Dados são independentes dos aplicativos ou fornecedores de software
Fonte: XML, Rubens Queiroz, Unicamp

Outros componentes da Web Semântica são:

  • URI: Universal Resource Identifier. Como a URL (que é um tipo de URI), especifica uma identidade, não necessariamente por sua localização na Web.
  • RDF: Resource Description Framework. Uma linguagem e uma gramática para definir informação na Web.
  • Ontologias: Conjuntos de asserções que definem as relações entre conceitos e estabelecem regras lógicas de raciocínio sobre eles. Para interpretar o significado das informações, os computadores usarão ontologias.
  • Agentes: Softwares que funcionam sem necessidade de controle direto ou supervisão permanente para cumprir demandas estabelecidas por um usuário.

Aplicações

As metas do projeto da Web Semântica são mais ambiciosas do que simplesmente permitir indexar melhor a informação da Web. Interessam as aplicações que se tornam possíveis com a utilização de categorias semânticas para descrever os dados. Quem leu o texto de Berners-Lee, James Hendler e Ora Lassila, na revista Scientific American de maio/2001, se lembrará que o início descreve o caso de Pete, um filho que busca na Internet, através de seu agente (um software robô), alternativas para a fisioterapia de sua mãe. Dispondo previamente de uma série de dados de Pete (seu endereço, seus horários, o seguro-saúde de sua mãe, etc), o agente busca na Web as informações relevantes (lista de médicos credenciados, suas agendas, etc) e em alguns minutos oferece uma lista de opções para que ele escolha a que mais lhe convém. Não satisfeito com a primeira lista, Pete pede que o agente refaça a busca de acordo com as restrições por ele estabelecidas. Desta vez, a solução oferecida é satisfatória e com algumas ações simples. Pete muda parte de seus compromissos, obtém a aceitação do agente de Lucy (sua irmã, com quem irá dividir as idas à fisioterapia da mãe) e acerta a agenda.

Todo esse cenário, é claro, ainda está relativamente distante. Além disso, as aplicações mais prováveis das ferramentas acima descritas serão o comércio eletrônico e grandes bancos de dados, como os próprios autores ressaltam. Mas, pondera Rubens Queiroz, isto não faz da Web Semântica uma má idéia. "Hoje o interesse maior é de empresas, por exemplo uma grande editora, para permitir a troca de dados. Mas sites não comerciais também se beneficiarão da utilização do XML e do desenvolvimento da Web Semântica, pois seus conteúdos serão indexados mais eficientemente pelos programas de busca e poderão ser mais facilmente convertidos em novos formatos ou ganharem novo visual", conclui.

Para quem quiser ver exemplos de sites que desenvolvem os conceitos da Web Semântica, com utilização de XML, RDF e outros, são interessantes o Projeto Dublin Core Metadata Initiative, o IMS Global Learning Consortium, que estabelece vocabulários para facilitar o aprendizado distribuído on line e, em português o Projeto RSSficado.

(MM)


Para saber mais:

Semantic Web Road Map
Texto de Tim Berners-Lee que, como diz o título, é um mapa da Web Semântica, aspectos gerais de sua arquitetura e objetivos. Interessante para quem busca um texto de introdução ao projeto. Claro e consistente. Nível intermediário.

The Semantic Web
Artigo de Tim Berners-Lee, James Hendler e Ora Lassila na revista Scientific American de maio de 2001. Nível intermediário.

Tutorial XML
Em português, elaborado por Miguel Furtado Júnior, estudante da UFRJ.

Metadata Based Annotation Infrastructure offers Flexibility and Extensibility for Collaborative Applications and Beyond
Paper científico sobre ABSTRACT, apresentado por dois pesquisadores do W3C (Marja-Riitta Koivunen and Ralph R. Swick) no KCAP workshop on Knowledge markup and semantic annotation. Atual e interessante. Nível avançado.

RDF Model Theory
Última versão da teoria semântica da linguagem RDF (Resource Description Framework). Atualizado em fevereiro de 2002. Nível avançado. Exige conhecimentos de lógica, semântica e informática.

MIT Artificial Intelligence Laboratory
Importante laboratório de pesquisa sobre Inteligência Artificial. Site traz resumos das pesquisas e outros materiais interessantes.

 

Atualizado em 10/04/2002

http://www.comciencia.br
contato@comciencia.br

© 2002
SBPC/Labjor
Brasil

Contador de acessos: