| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Gonçalves Silva, Alexandre |
|
| dc.contributor.author |
Oliveira, João Victor Nery Buchmeier de |
|
| dc.date.accessioned |
2025-12-11T03:27:52Z |
|
| dc.date.available |
2025-12-11T03:27:52Z |
|
| dc.date.issued |
2025-11-28 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/270868 |
|
| dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. |
pt_BR |
| dc.description.abstract |
A área de Processamento de Imagem (PDI), Optical Character Recognition (OCR) e Machine Learning (ML) têm revolucionado a maneira como se lida com informações visuais, transformando imagens em dados legíveis e processáveis. Essas tecnologias desempenham um papel fundamental em diversos setores, desde a automação de processos industriais até o aumento da acessibilidade digital. Nesse sentido, este projeto de TCC propôs o desenvolvimento de um software para extração automática de legendas embutidas em vídeos, comumente denominadas burned-in subtitles, que são textos permanentemente inseridos nas imagens, fazendo parte integrante do conteúdo visual. Diferente de legendas convencionais, que podem ser ativadas ou desativadas pelo usuário e armazenadas separadamente como metadados, as burned-in subtitles não podem ser removidas ou modificadas. Isso cria desafios significativos, especialmente no contexto de acessibilidade, tradução e organização de conteúdo audiovisual. Dessa forma, utilizando-se das tecnologias citadas, o software se torna capaz de identificar e capturar as legendas diretamente das imagens de vídeo, convertendo-as em texto legível. O resultado é então salvo em arquivos no formato .srt, amplamente utilizado para sincronização de legendas em mídias audiovisuais. Nesse sentido, a extração de legendas possibilita outras aplicações, como a tradução das próprias legendas e a sumarização de filmes, facilitando o acesso a conteúdos em diferentes idiomas e permitindo a análise e síntese do conteúdo textual extraído, respectivamente. O trabalho envolveu a pesquisa e a aplicação de técnicas avançadas de PDI, ML e OCR, combinando métodos de segmentação, detecção de texto e reconhecimento óptico de caracteres para garantir uma extração precisa das legendas embutidas. Além disso, foi realizada uma análise crítica das ferramentas e algoritmos existentes, explorando abordagens baseadas em Deep Learning e Processamento de Imagem tradicional, para otimizar o desempenho da solução. Por fim, a avaliação da solução proposta foi feita em cima de 20 vídeos em inglês, utilizando das métricas Character Error Rate (CER) e Word Error Rate (WER), a fim de medir erros a nível de caracteres e palavras das legendas extraídas, respectivamente. Com isso, obteve-se 2,1% de erro para CER e 6,7% para WER no modo relaxed de avaliação, enquanto o modo strict obteve 2,7% e 9,8%, mostrando a eficácia da solução desenvolvida. |
pt_BR |
| dc.description.abstract |
The field of study of Image Processing, Optical Character Recognition (OCR) and Machine
Learning (ML) has revolutionized the way visual information is processed, turning images into
readable and processable data. These technologies play a fundamental role in various sectors,
from industrial automation to improving digital accessibility. In this context, this undergraduate
research project proposed the development of a software for automatic extraction of burned-in
subtitles from videos. Burned-in subtitles are permanently embedded texts in images, forming
an integral part of the visual content. Unlike conventional subtitles, which can be activated
or deactivated by the user and stored separately as metadata, burned-in subtitles cannot be re
moved or modified. This poses significant challenges, especially in the context of accessibility,
translation and audiovisual content organization. By combining the mentioned technologies,
the software is capable of identifying and extracting subtitles directly from video frames, con
verting them into readable text. The extracted text is then saved in the .srt format, widely used
for subtitle synchronization in audiovisual media. This process enables additional applications,
such as subtitle translation and film summarization, facilitating access to content in different
languages and allowing textual analysis and synthesis. The research focused on the study and
application of advanced Image Processing, ML, and OCR techniques, combining segmenta
tion, text detection, and optical character recognition methods to ensure accurate extraction of
the subtitles. Additionally, a critical analysis of existing tools and algorithms was conducted,
exploring deep learning-based approaches alongside traditional image processing techniques to
optimize performance. Ultimately, the proposed solution was evaluated on 20 English videos
using the Character Error Rate (CER) and Word Error Rate (WER) metrics, which measure
errors at the character and word levels of the extracted subtitles, respectively. As a result, er
ror rates of 2,1% for CER and 6,7% for WER were obtained in the relaxed evaluation mode,
while the strict mode achieved 2,7% and 9,8%, demonstrating the effectiveness of the developed
solution. |
pt_BR |
| dc.format.extent |
113 f. |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Florianópolis, SC. |
pt_BR |
| dc.rights |
Open Access. |
en |
| dc.subject |
OCR |
pt_BR |
| dc.subject |
Machine Learning |
pt_BR |
| dc.subject |
Visão Computacional |
pt_BR |
| dc.subject |
Processamento de Imagem |
pt_BR |
| dc.subject |
Optical Character Recognition |
pt_BR |
| dc.title |
Método para extração automática de legendas embutidas em vídeos |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |