Automação de pesquisas em bases bibliográficas e do conteúdo dos registros
Author:
ferreira, caua
Abstract:
A Plataforma Ecossistemas da Cidade busca integrar o conhecimento sobre os ecossistemas urbanos em um repositório unificado. Textos acadêmicos frequentemente mencionam locais, pessoas, eventos. A extração dessas informações permite resultados de busca mais precisos e associações entre trabalhos e lugares de interesse. Nesse sentido, esta pesquisa busca contribuir no desenvolvimento desta plataforma, focando na investigação e desenvolvimento dos processos automatizados de identificação e extração de informações espaciais de arquivos de texto digital, como livros e artigos. A abordagem explora Grandes Modelos de Linguagem (LLM)
METODOLOGIA: Seleção dos arquivos de teste: Para esta pesquisa, selecionamos X artigos relativos ao tema X da cidade de Florianópolis.
Extração de informações espaço-temporais
Named-entity recognition (NER); Relationship extraction (RE)
Sujeito > Verbo > Sujeito
Escolha do modelo e Prompt Engineering
Seleção de trabalhos relevantes para testar a extração de dados
Desenvolvimento de algoritmos para estruturação dos dados para criação de mapas e análise de dados
Mapeamento dos dados extraídos: Os dados foram extraídos de forma a alimentar o mapa digital interativo desenvolvido por pesquisador do laboratório, que também está alinhado com o desenvolvimento da plataforma.
A aplicação de técnicas de extração usando grandes modelos de linguagem é eficaz, já que esses modelos identificam uma variedade maior de classes de entidades e tipos de relações. Para esta pesquisa, utilizamos a API do modelo Gemini 1.5 Pro ,ideal para análise de textos extensos, como livros. Que segundo Testes com o F1-score indicaram uma precisão de 78%, com potencial de melhoria por meio de refinamentos no prompt e ajustes no modelo. Os prompts de extração foram criados para gerar respostas estruturadas em formato JSON, o que facilita o uso organizado das informações em diferentes sistemas. Esse formato permite a fácil manipulação e integração dos dados com outras ferramentas e linguagens de programação, tornando o processo mais eficiente e escalável. Códigos de programação complementares foram desenvolvidos em Python para organização e correção de eventuais erros no output. Além disso, desenvolvemos algoritmos para automatização da conversão de entidades identificadas com nomes de lugares para coordenadas geográficas através de um processo denominado geocoding. A conversão dessas entidades para coordenadas geográficas via geocoding resultou em mapas interativos detalhados, visualizando as conexões espaciais entre as entidades, e o processo automatizado de geocodificação otimizou a criação de visualizações geoespaciais, melhorando a precisão das buscas e a associação entre conteúdo e locais específicos. A plataforma se mostrou uma ferramenta poderosa para pesquisadores e planejadores urbanos
Description:
Iniciação Científica- Universidade Federal de Santa Catarina- CTC. Arquitetura e Urbanismo