Using machine learning techniques to predict academic performance in mathematics
DOI:
https://doi.org/10.46502/issn.1856-7576/2025.19.02.1Keywords:
artificial intelligence, assessment, large-scale, machine learning, random forestAbstract
The purpose of this study was to investigate the predictive power of the SAEF exams in estimating the schools' performance in Mathematics on the SPAECE exam. To achieve this, we developed a predictive machine learning model. The model was trained using data from 133 schools that participated in the exams in 2022, and subsequently tested with data from 140 schools that took part in the exams in 2023. The results showed that the random forest (RF) model demonstrated moderate predictive power (R² = 0.397), which was superior to the linear model (R² = 0.384). This means that approximately 39.7% of the variance in schools' Mathematics performance on the SPAECE can be explained by the results of the SAEF exams. The first SAEF exam, administered at the beginning of the academic year, demonstrated the highest predictive power among the three, indicating that students' initial performance in Mathematics is a strong indicator of their future performance. These findings underscore the importance of early identification of learning difficulties to enable strategic pedagogical interventions throughout the year. Although this study was conducted within the Brazilian educational context, other countries can also utilize machine learning techniques to monitor students' academic trajectories and predict their outcomes in standardized assessments.
References
Afonso, A. J. (2009). Nem tudo o que conta em educação é mensurável ou comparável. Crítica à accountability baseada em testes estandartizados e rankings escolares. Revista Lusófona de Educação, 13(13), 13-29. https://revistas.ulusofona.pt/index.php/rleducacao/article/view/545
Ausubel, D. P., Novak, J. D., & Hanesian, H. (1968). Educational psychology: A cognitive view. Nova Iorque: Holt, Rinehart & Winston.
Ball, S. J. (1998). Cidadania global, consumo e política educacional. In L. H. Silva (Org.), A escola cidadã no contexto da globalização (pp. 121–137). Petrópolis, RJ: Vozes.
Barroso, J. (Org.) (2003). A escola pública: regulação, desregulação e privatização. Porto: Asa.
Breiman, L. (2001). Random forests. Berkeley: University of California. https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf
Camarão, V. C., Ramos, J. F. P., & Albuquerque, F. C. A. (2015). Política da gestão por resultados na educação cearense (1995-2014). Revista Praia Vermelha, 25(2), 369–391. https://revistas.ufrj.br/index.php/praiavermelha/article/view/10160
Costa, A. G., Vidal, E. M., & Vieira, S. L. (2019). Avaliação em larga escala no Brasil. Revista Educação Em Questão, 57(51). https://doi.org/10.21680/1981-1802.2019v57n51ID15806
Costa, A. G., & Vidal, E. M. (2020). Accountability e regulação da educação básica municipal no estado do Ceará–Brasil. Revista Iberoamericana de Educación, 83(1), 121-141. https://doi.org/10.35362/rie8313852
Dewi, C., & Chen, R. C. (2019). Random Forest and Support Vector Machine on features selection for regression analysis. International Journal of Innovative Computing, 15(6). https://doi.org/10.24507/ijicic.15.06.2027
Edwards, A. S., Kaplan, B., & Jie, T. (2021). A primer on machine learning. Transplantation, 105(4), 699-703. https://doi.org/10.1097/tp.0000000000003316
Fortaleza. (2019). Decreto nº 14.405, de 22 de abril de 2019. Aprova o regulamento da Secretaria Municipal da Educação (SME). Diário Oficial do Município, LXIV(16.492), 1–17. https://acervo.fortaleza.ce.gov.br/download-file/documentById?id=21a8fc0b-bee3-4df2-a194-10716b6a0c0c
Gentili, P., & Silva, T. T. da. (orgs.) (2015). Neoliberalismo, qualidade total e educação: visões críticas (15ª ed). Petrópolis, RJ: Vozes.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise multivariada de dados (6ª ed.). Porto Alegre: Bookman.
Holanda, R. H. R. (2024). O sistema de avaliação do ensino fundamental/SAEF e sua contribuição na gestão escolar pública municipal de Fortaleza (Dissertação de mestrado). Universidade Federal do Ceará, Centro de Ciências Agrárias, Mestrado Profissional em Avaliação de Políticas Públicas, Fortaleza. https://repositorio.ufc.br/handle/riufc/77264
Kumar, A. (2022). Hold-out Method for Training Machine Learning Models. Vital Flux. https://vitalflux.com/hold-out-method-for-training-machine-learning-model/
Lessard, C., & Carpentier, A. (2016). Políticas Educativas a aplicação na prática. Petrópolis: Vozes.
Liaw, A., & Wiener, M. (2002). Classification and regression by random forest. R News, 2(3), 18–22. https://journal.r-project.org/articles/RN-2002-022/RN-2002-022.pdf
Lima, M. A. M., Vasconcelos, S. O. S., Oliveira, S. de A. G., & Costa, F. C. C. da. (2021). Aspecto formativo dos dados das avaliações diagnósticas para os trabalhadores da gestão escolar nas escolas públicas de ensino médio do estado do Ceará. Devir Educação, 5(2), 224–248. https://doi.org/10.30905/rde.v5i2.490
Lopes, A. F. N., Vieira, L. M. N., & Ramos, J. F. P. (2017). O SAEF como instrumento de avaliação educacional. Revista Brasileira de Educação Básica, 1, 1–15. https://acortar.link/GdxuWm
Mendes, D. D. B., Maciel, A. de O., Araújo, A. A. C. de, & Amâncio, G. da S. P. (2023). Saef: avaliação e monitoramento da aprendizagem nas escolas municipais de Fortaleza, conhecer para intervir. Revista De Instrumentos, Modelos E Políticas Em Avaliação Educacional, 4, e023008. https://doi.org/10.51281/impa.e023008
Oliveira, A., Costa, A., & Vidal, E. (2021). Avaliações municipais no Ceará: características e usos dos resultados. Revista Meta: Avaliação, 13(39), 274-299. http://dx.doi.org/10.22347/2175-2753v13i39.3333
Probst, P., Wright, M. N., & Boulesteix, A. (2019). Hyperparameters and tuning strategies for random forest. WIRES Data Mining and Knowledge Discovery, 9(3). https://doi.org/10.1002/widm.1301
Queiroga, E. M., Batista Machado, M. F., Paragarino, V. R., Primo, T. T., & Cechinel, C. (2022). Early Prediction of At-Risk Students in Secondary Education: A Countrywide K-12 Learning Analytics Initiative in Uruguay. Information, 13(9), 401. https://doi.org/10.3390/info13090401
SEDUC. (n.d.). Sistema Permanente de Avaliação da Educação Básica do Ceará – SPAECE. https://www.seduc.ce.gov.br/spaece/
Silva, J. B. (2020). David Ausubel’s Theory of Meaningful Learning: an analysis of the necessary conditions. Research, Society and Development, 9(4), e09932803. https://doi.org/10.33448/rsd-v9i4.2803
SME. (n.d.). Sistema de Avaliação do Ensino Fundamental. SAEF. https://saef.sme.fortaleza.ce.gov.br/saef/pagina/alterar-unidade-trabalho.jsf
Vidal, E. M., & Costa, A. G. (Org.) (2021). Responsabilização educacional no Ceará: trajetórias e evidências Organizadores. 1ª Edição, Brasília, DF: ANPAE.
Vidal, E. M., Silva, J. B., Marinho, I. C., & Nogueira, J. F. F. (2024). Municipal assessments and the relationship with Ideb, according to Saeb contextual questionnaire 2019. Práxis Educacional, 20(51). https://doi.org/10.22481/praxisedu.v20i51.13559
Yang, S. J. H., Lu, O. H. T., Huang, A. Y. Q., Huang, J. C. H., Ogata, H., & Lin, A. J. Q. (2018). Predicting students' academic performance using multiple linear regression and principal component analysis. Journal of Information Processing, 26. https://doi.org/10.2197/ipsjjip.26.170
Yang, Z., Wu, Y., Zhou, Y., Tang, H., & Fu, S. (2022). Assessment of Machine Learning Models for the Prediction of Rate-Dependent Compressive Strength of Rocks. Minerals, 12(6), 731. https://doi.org/10.3390/min12060731
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 João Batista da Silva, Luis Carlos Assis da Costa, José Nilson dos Santos, Raquel Oliveira da Silva Batista

This work is licensed under a Creative Commons Attribution 4.0 International License.