Comparação entre a utilização de diferentes conjuntos de dados para a modelagem e identificação de acadêmicos em risco
Author:
Barrozo, Caio Blumer
Abstract:
Com a grande quantidade de dados que são gerados nos ambientes virtuais de aprendizagemcomo o moodle, existe a oportunidade de aplicar técnicas de ciência de dados e aprendizadode máquina para identificação de estudantes em risco de reprovação ou evasão. Visandoesta ocasião, o módulo de predição para a extensão moodle analytics dashboard (MAD)foi desenvolvido, fornecendo predições sobre a situação atual dos alunos ao longo de todaa disciplina. Desenvolvido especificamente para a plataforma moodle, o módulo consistede uma parte feita na linguagem php, que é responsável pela extração de dados sobrea frequência de acesso dos alunos na plataforma e a integração com o moodle. A outraparte lida com o tratamento de dados, criação de variáveis derivadas e geração do modelopreditivo, para este fim a linguagem python por possuir bibliotecas como pandas e scikit-learn provou-se mais adequada. O modelo preditivo foi criado com base em pesquisaspublicadas que apontam a possibilidade de criar modelos tendo como base apenas asinterações semanais dos alunos, alcançando uma curva característica de operação doreceptor (ROC) com valores entre 70% e 90% na primeira semana. A extensão se provoubenéfica, uma vez que a informação sobre quais alunos estão em risco permite que algumaação seja tomada para ajudar na normalização dos estudantes, além disso o moodlesendo um ambiente virtual extremamente popular torna o módulo acessível para diversasinstituições.