Title: | BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification |
Author: | Delponte, Luma Rios |
Abstract: |
A seleção de atributos é essencial para aprimorar modelos de classificação aplicados a bases de dados biológicas, especialmente aquelas com alta dimensionalidade e inconsistências nos dados, como registros de incidência de espécies de plantas, algas e fungos. Esses conjuntos de dados frequentemente apresentam variáveis redundantes, desequilíbrio entre classes e inconsistências taxonômicas, fatores que podem comprometer o desempenho e a interpretabilidade dos modelos. Apesar de seu reconhecido potencial, a seleção de atributos ainda é pouco explorada em contextos ecológicos e botânicos, especialmente em regiões de alta biodiversidade, como a Mata Atlântica brasileira. Este estudo apresenta o BioF4C-Frame (Framework de Seleção de Atributos e Classificação Biológica), um framework modular projetado para enfrentar esses desafios ao integrar técnicas de pré-processamento, funções de similaridade, estratégias de seleção de atributos e modelos de classificação. Por meio de uma análise empírica, o framework avalia como diferentes métodos de seleção de atributos, como o LASSO, interagem com classificadores como Random Forest, Árvores de Decisão, Naïve Bayes, Redes Neurais Artificiais e Regressão Logística. Os resultados indicam que o Random Forest apresentou o melhor desempenho geral, demonstrando robustez ao lidar com dados ecológicos complexos e desbalanceados. Por sua vez, o LASSO e as Redes Neurais apresentaram melhorias modestas, porém significativas, no reconhecimento de padrões, especialmente após a aplicação de pré-processamento de deduplicação em campos de autoria taxonômica utilizando funções de similaridade. Esta pesquisa propõe práticas para aplicação da seleção de atributos em conjuntos de dados de biodiversidade, oferece recomendações para aprimorar a confiabilidade da classificação e identifica lacunas para investigações futuras. Abstract: Feature selection is essential for improving classification models applied to biological databases, particularly those with high dimensionality and data inconsistencies, such as species incidence data for plants, algae, and fungi. These datasets often suffer from redundant variables, class imbalances, and taxonomic inconsistencies, all of which can hinder model performance and interpretability. Despite its recognized potential, feature selection remains underexplored in ecological and botanical con- texts?especially in biodiversity hotspot regions like the Brazilian Atlantic Forest. This study presents BioF4C-Frame (Biological Feature Selection and Classification Framework), a modular framework designed to address these challenges by integrat- ing preprocessing techniques, similarity functions, feature selection strategies, and classification models. Through empirical analysis, the framework evaluates how different FS methods, such as LASSO, interact with classifiers including Random Forest, Decision Trees, Naïve Bayes, Artificial Neural Networks, and Logistic Re- gression. Results show that Random Forest achieved the best overall performance, demonstrating robustness in handling imbalanced and complex ecological data. Meanwhile, LASSO and ANN exhibited small yet meaningful improvements in pattern recognition, especially after applying deduplication preprocessing to taxo- nomic authorship fields using similarity functions. This research proposes practices for applying FS in biodiversity datasets, offers recommendations for improving classification reliability, and identifies gaps for future investigation. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025. |
URI: | https://repositorio.ufsc.br/handle/123456789/265521 |
Date: | 2025 |
Files | Size | Format | View |
---|---|---|---|
PGCC1302-D.pdf | 7.362Mb |
View/ |