Última alteração: 2019-10-15
Resumo
A Ciência da Informação deve instrumentalizar os processos de gerenciamento de dados na eScience, viabilizando a maior integração e reuso de dados científicos. Este é um problema não resolvido, presente nos ciclos de gestão de dados científicos. A dificuldade de reuso leva à redundância de esforços custosos para os laboratórios e agências de fomento. É possível aumentar as taxas de reuso de dados entre pesquisas com a sua integração através de ontologias. Este artigo apresenta um método "ágil" de integração semântica de dados, que realiza a ingestão de conjuntos de dados (datasets), produzidos por diferentes estudos, na forma de grafos de conhecimento. O método utiliza uma ontologia de fundação estruturada como um "Dicionário Semântico de Dados", que, integrada a outras ontologias de domínio, gera um grafo de conhecimento. Este grafo facilita o reuso dos dados já que pode integrar conceitualmente dados oriundos de várias fontes em um único repositório. O grafo permite ao usuário navegar por facetas e escolher as dimensões de seu interesse. A organização facetada dos dados permite a seleção flexível e granular dos mesmos nos datasets integrados, fomentado o reuso e facilitando a tarefa de preparação de dados. O método apoia-se em uma adaptação da design science, com elementos do desenvolvimento ágil de sistemas, que permitem obter e avaliar resultados mais rapidamente (do que os métodos clássicos) e corrigir problemas precocemente. A hipótese de que a integração semântica é facilitada com o uso do método tem sido confirmada pelos resultados de sua aplicação em um projeto de integração de dados em epidemiologia.