MODELAGEM DE TÓPICOS: MAPEAMENTO CIENTÍFICO DO GT-8 DO ENANCIB

Marcos de Souza; Antonio Izo Júnior; Renato Rocha Souza

Portal de Conferências da UFSC, ENANCIB 2019

Marcos de Souza, Antonio Izo Júnior, Renato Rocha Souza

Última alteração: 2019-10-08

Resumo

Com crescente volume de informações tem sido cada vez mais necessário o uso de ferramentas computacionais para organizar, recuperar e compreender tal quantitativo de informações A modelagem de tópicos tem possibilitado realizar por meio de algoritmos de Machine Learning que utilizam métodos estatísticos essa atividade por meio de uma estrutura não supervisionada em documentos eletrônicos que constituem corpora de dados, buscando assim analisar e descobrir temas e suas respectivas relações. A pesquisa possui como objetivo geral identificar os tópicos de maior relevância do corpus de dados constituído por artigos completos e resumos expandidos do grupo de trabalho número oito do Encontro Nacional de Pesquisa em Ciência da Informação, denominado Informação e Tecnologia. Além disso, buscou-se discutir sobre o comportamento dos termos mais frequentes encontrado no corpus de dados entre o período analisado de 2012 a 2018. A modelagem de tópicos foi realizada por meio de algoritmo de Machine Learning que utilizou o método probabilístico Latent Dirichlet Allocation. Como resultado, foi possível identificar 10 tópicos constituído por um conjunto de palavras e pesos que melhor representam o corpus de dados, tais como suas respectivas relações. O tópico 1 foi destacado como o de maior relevância de todo o corpus, apresentando assim 40,5% dos tokens. O termo informação apresentou maior frequência no corpus com 1327, 1630, 5052, 1606, 2254, 1962 e 2300 repetições entre os anos de 2012 a 2018. Tal mapeamento cientifico do comportamento dos termos encontrados no corpus possibilita criar ações para futuras contribuições práticas, metodológicas e científicas da pesquisa.

Texto completo: PDF