Datasets do LOD (Linked Open Data) na área da Ciência da Vida
Dando continuidade ao post anterior, vimos que em 2007, Tim-Berners Lee, juntamente com outros colaboradores, propõem os dados abertos vinculados (LOD ? Linked Open Data).
Cada Dataset do LOD agrega e interliga um conjunto na casa de bilhões de triplas RDFs (Resource Description Framework) para todos os domínios e áreas do conhecimento.
Como vimos também, esta nuvem de dados (LOD), na época de sua criação, contava com 12 datasets. A última atualização, em 2011, eram 295. O crescimento está sendo exponencial.
Alguns exemplos de datasets: Conhecimentos gerais (DBPedia – o dataset do Wikipedia); Entretenimento (BBC Music, etc.); Doenças (Diseasome, etc.); Bulas de Drogas (DailyMed); Censo EUA (US Census); Dados Governamentais (data.gov.uk, etc.), dentre outros datasets.
O número de datasets da ?Life Science?, segundo Bizer, Jentzsch e Cyganiak (2012) é de 41 (do total de 295), com mais de três bilhões de triplas. Acima deste número, encontram-se apenas 87 datasets de publicações e 49 datasets de dados governamentais. Abaixo está descrito alguns dos principais datasets da ?Ciência da Vida?:
- DailyMed: publicado pela Biblioteca Nacional de Medicina, fornece informações de qualidade sobre drogas comercializadas;
- Diseasome: rede pública de mais de 4.300 doenças e Genes ligados a distúrbios;
- DrugBank: repositório de quase 5.000 moléculas e informações detalhadas sobre drogas;
- Gene Ontology: ou GO, é uma iniciativa importante de bioinformática para unificar a representação dos atributos dos Genes e dos atributos do produto dos Genes de todas as espécies;
- InterPro: Banco de dados de famílias de proteínas, com a iniciativa de possuir as mais novas proteínas;
- SIDER: contém informações sobre drogas comercializadas e seus efeitos colaterais. As informações são extraídas de documentos públicos e de bulas.
- STITCH: contém informações sobre produtos químicos e proteínas, bem como suas interações e links;
- TaxonConcept: as espécies são conhecidas por muitos nomes diferentes. Esta base de conhecimento tem URIs para conceitos das espécies.
- Dentre outras.
Referência
BIZER, C.; JENTZSCH, A.; CYGANIAK, R. State of the LOD Cloud. 2011. Disponível em <http://www4.wiwiss.fu-berlin.de/lodcloud/state/>. Acesso em: 04 jul. 2012.