Datasets do LOD (Linked Open Data) na área da Ciência da Vida

Author Photo
9:51 am - 14 de agosto de 2013

Dando continuidade ao post anterior, vimos que em 2007, Tim-Berners Lee, juntamente com outros colaboradores, propõem os dados abertos vinculados (LOD ? Linked Open Data).

Cada Dataset do LOD agrega e interliga um conjunto na casa de bilhões de triplas RDFs (Resource Description Framework) para todos os domínios e áreas do conhecimento.

Como vimos também, esta nuvem de dados (LOD), na época de sua criação, contava com 12 datasets. A última atualização, em 2011, eram 295. O crescimento está sendo exponencial.

Alguns exemplos de datasets: Conhecimentos gerais (DBPedia – o dataset do Wikipedia); Entretenimento (BBC Music, etc.); Doenças (Diseasome, etc.); Bulas de Drogas (DailyMed); Censo EUA (US Census); Dados Governamentais (data.gov.uk, etc.), dentre outros datasets.

O número de datasets da ?Life Science?, segundo Bizer, Jentzsch e Cyganiak (2012) é de 41 (do total de 295), com mais de três bilhões de triplas. Acima deste número, encontram-se apenas 87 datasets de publicações e 49 datasets de dados governamentais. Abaixo está descrito alguns dos principais datasets da ?Ciência da Vida?:

  • DailyMed: publicado pela Biblioteca Nacional de Medicina, fornece informações de qualidade sobre drogas comercializadas;
  • Diseasome: rede pública de mais de 4.300 doenças e Genes ligados a distúrbios;
  • DrugBank: repositório de quase 5.000 moléculas e informações detalhadas sobre drogas;
  • Gene Ontology: ou GO, é uma iniciativa importante de bioinformática para unificar a representação dos atributos dos Genes e dos atributos do produto dos Genes de todas as espécies;
  • InterPro: Banco de dados de famílias de proteínas, com a iniciativa de possuir as mais novas proteínas;
  • SIDER: contém informações sobre drogas comercializadas e seus efeitos colaterais. As informações são extraídas de documentos públicos e de bulas.
  • STITCH: contém informações sobre produtos químicos e proteínas, bem como suas interações e links;
  • TaxonConcept: as espécies são conhecidas por muitos nomes diferentes. Esta base de conhecimento tem URIs para conceitos das espécies.
  • Dentre outras.

Referência

BIZER, C.; JENTZSCH, A.; CYGANIAK, R. State of the LOD Cloud. 2011. Disponível em <http://www4.wiwiss.fu-berlin.de/lodcloud/state/>.  Acesso em: 04 jul. 2012.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.