Última alteração: 2019-10-15
Resumo
Na internet existem informações imensuráveis e muitas possibilidades ainda não exploradas, como por exemplo, os artigos de notícias publicados no idioma português. Assim, buscar novos recursos, que sejam capazes de recuperar manchetes, de vários portais, e disponibilizá-las em classes, seria uma possibilidade muito eficiente e sofisticada para explorar informações. Deste modo, esta pesquisa tem como objetivo comparar os resultados obtidos pelos algoritmos Máquina de Vetor de Suporte, Árvore de Decisão, Regressão Logística, Floresta Aleatória, Naive Bayese AdaBoost na classificação de notícias, coletadas dos principais jornais on-line. Diferentes métodos são empregados para a classificação de textos, porém, podem apresentar desempenhos diferentes, sendo importante testá-los para verificar suas eficácias e assim, escolher o classificador que apresentar os melhores resultados. Utilizou-se para treino uma amostra de 50 notícias relacionadas a quatro assuntos diferentes (biologia, economia, eletricidade e futebol) e para o teste um corpus contendo 10 notícias. Os corpora foram coletados no dia 17 de julho de 2019. As métricas utilizadas para avaliar os algoritmos foram a Acurácia, Precisão, Revocação, F1-score e a Área sob a Curva de Característica de Operação do Receptor. Com base nos resultados das avaliações, conclui-se que os classificadores apresentaram excelentes resultados na predição desse tipo específico de base textual, com exceção do algoritmo Naive Bayes que não conseguiu alocar nenhuma notícia na classe correta.