Explorando o Potencial do Processamento de Linguagem Natural e Visualização de Dados em Transcrições de Áudio

DSpace Repository

A- A A+

Explorando o Potencial do Processamento de Linguagem Natural e Visualização de Dados em Transcrições de Áudio

Show full item record

Title: Explorando o Potencial do Processamento de Linguagem Natural e Visualização de Dados em Transcrições de Áudio
Author: Silva, Gabriel Miranda Cruz da
Abstract: Nos últimos anos, o advento do big data e a ampla difusão de aplicações que utilizam dados de fala criaram desafios e oportunidades na análise de dados. Nesse contexto, os avanços no processamento de linguagem natural (NLP) e a utilização de técnicas de visualização de dados abriram novas possibilidades de extrair conhecimentos, levando à melhor compreensão de conteúdos falados e a obtenção de insights. Sendo assim, este estudo propõe um método para análise de transcrições de áudio, utilizando essas tecnologias para identificar as temáticas presentes e obter respostas para perguntas específicas. Para isso, foram empregados diferentes modelos de linguagem de grande escala (LLMs) em três módulos distintos: (1) transcrição de áudio, (2) análise de perguntas e respostas (Q&A) e (3) modelagem e visualização de tópicos. O primeiro módulo utiliza um modelo para a geração de transcrições de áudio, armazenando-as em um arquivo. O segundo módulo emprega a técnica de geração aumentada por recuperação (RAG) para obter respostas contextualizadas de um LLM, baseadas no conteúdo das transcrições. Por fim, o terceiro módulo emprega um framework adaptável, que emprega modelos baseados na arquitetura transformer, algoritmos de agrupamento, técnicas de modelagem estatística, e visualização de dados para a obtenção e exploração de prováveis tópicos no conteúdo analisado. Para demonstração e avaliação, o método proposto foi aplicado em um conjunto de 12 horas de áudio de um curso on-line. Os resultados apontam que a abordagem se mostrou eficaz ao utilizar técnicas NLP e visualização de dados para a condução das análises, possibilitando a exploração dos dados tanto em uma perspectiva específica quanto abrangente. Além disso, este estudo forneceu perspectivas em relação à aplicação dessas tecnologias em dados de áudio, destacando algumas de suas vantagens, desvantagens e possibilidades.In recent years, the advent of big data and the widespread adoption of applications that utilize speech data have created challenges and opportunities in data analysis. In this context, advances in natural language processing (NLP) and the use of data visualization techniques have opened new possibilities for knowledge extraction, leading to a better understanding of spoken content and the generation of insights. Therefore, this study proposes a method for analyzing audio transcriptions, using these technologies to identify present themes and obtain answers to specific questions. To achieve this, different large language models (LLMs) were employed in three distinct modules: (1) audio transcription, (2) question-and-answer analysis (Q&A), and (3) topic modeling and visualization. The first module utilizes a model for generating audio transcriptions, storing them in a file. The second module applies the retrieval-augmented generation (RAG) technique to obtain contextualized answers from an LLM based on the transcription content. Finally, the third module employs an adaptable framework that uses transformer-based models, clustering algorithms, statistical modeling techniques, and data visualization to extract and explore probable topics within the analyzed content. For demonstration and evaluation, the proposed method was applied to a dataset of 12 hours of audio from an online course. The results indicate that the approach effectively utilized NLP techniques and data visualization for conducting the analyses, enabling the exploration of data from both specific and broader perspectives. Furthermore, this study provided insights into the application of these technologies to audio data, highlighting some of their advantages, disadvantages, and possibilities.
Description: TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá, Centro de Ciências, Tecnologias e Saúde. Tecnologias da Informação e Comunicação.
URI: https://repositorio.ufsc.br/handle/123456789/262672
Date: 2024-12-17


Files in this item

Files Size Format View Description
PITIC_II_-_Gabriel_Miranda_Final.pdf 3.111Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar