Detecting and retrieving actions in still images

Barbosa, Flávio Gabriel Oliveira

Detecting and retrieving actions in still images

DSpace Repository

A- A A+

Detecting and retrieving actions in still images

Show full item record

Title:	Detecting and retrieving actions in still images
Author:	Barbosa, Flávio Gabriel Oliveira
Abstract:	O rápido crescimento do mercado de dispositivos móveis aliado ao crescente uso de redes sociais resultou em um aumento significativo no volume de imagens geradas e consumidas. Consequentemente, a busca por imagens em um grande banco de dados torna-se uma necessidade cada vez maior. Apesar de todos os avanços dos últimos anos, quando deseja-se buscar por imagens utilizando conceitos semânticos (recuperação semântica) ainda é um desafio na visão computacional. Os humanos são capazes de observar semelhanças abstratas e complexas em imagens. Na recuperação semântica, o objetivo da pesquisa raramente pode ser determinado com base unicamente na própria imagem da consulta, e traduzir esse conhecimento em processamento digital não é uma tarefa trivial. Esta tese propõe dois frameworks de recuperação de imagens baseados em ações para imagens estáticas. O primeiro, Act-CBIR, é um framework de duas fases composto por uma fase de Criação de Dicionário e outra fase de Recuperação de Imagem. Essas etapas são compostas por um módulo de Detecção de ações para detectar regiões de interesse (ROIs) e extrair características de cada respectiva ROI; um módulo de codificação e indexação de ações para representar cada ROI de maneira concisa; um banco de dados de índice para armazenar todas as ROIs em uma forma indexada; e um modelo de similaridade para recuperar imagens dadas uma imagem de consulta. Dado o aumento exponencial na quantidade de imagens sendo gerados o que traduz-se em bancos de dados cada vez maiores, propomos uma alternativa de codificação capaz de binarizar os códigos para usar a eficiente distância de hamming. Essa abordagem é comparada com dois outros pipelines de indexação de codificação: utilizar os códigos diretamente da camada totalmente conectada introduzida para esse fim e utilizar distância euclidiana, e também Local Sensitive Hashing (LSH) para recuperar imagens. Finalmente, o modelo de similaridade busca imagens por meio de uma classificação indireta usando o algoritmo Quicksort. Apesar de suas vantagens, esse primeiro framework não considera nenhuma informação adicional além da região de interesse de ação, tornando difícil até mesmo para nós, humanos, descrever algumas ações. A segunda abordagem, Act-Retrieval, é baseada em múltiplas entradas, detecção de ação, aprendizado por dicas e um módulo de atenção para superar esse problema. Para validar experimentalmente os dois conceitos, uma análise quantitativa é realizada utilizando as métricas de mean Average Precision (mAP) e AP@10, que leva em consideração somente as dez primeiras imagens retornadas, uma vez que muitas vezes estamos interessados apenas nos primeiros resultados de nossa consulta. Uma análise qualitativa também foi realizada, observando os mapas de características gerados e o resultado correspondente de cada estratégia para melhor ilustrar as diferentes informações absorvidas pelo segundo framework. Comparamos nossos resultados com trabalhos de referência e no estado-da-arte na área de recuperação de imagens, superando-os por larga margem. Portanto, esta tese contribui para reduzir a lacuna semântica considerando imagens estáticas e ações de recuperação de imagens. Abstract: The rapid growth of the mobile device market combined with social media resulted in a significant increase in the volume of images being generated and consumed. Consequently, searching for still images in a large database that matches a query becomes an increasing necessity. Despite all the advances in the last years, semantic image retrieval is still a challenge in computer vision. Humans are capable of observing complex abstract similarities given single or multiple images. In semantic retrieval, the search objective can rarely be determined based on the query image by itself, and translating this knowledge into digital processing is not a trivial task. This thesis proposes two action-based CBIR frameworks that only consider still images. The first framework, Act-CBIR, is a two-staged framework composed of a Dictionary Creation stage and another stage of Image Retrieval. These stages are composed of an Action Detection module to detect regions of interest (ROIs) and extract features from each respective ROI; an Action Encoding and Indexing module to represent each ROI concisely; an Index database to store all ROIs in an indexed form, and a Similarity Model to retrieve images given a query image. Given the exponential increase in the size of the databases, this thesis proposes an encoding alternative able to binarize the codes to use the efficient hamming distance and compare with two other encoding indexing pipelines: computing codes directly from our introduced fully-connected feature layer and using cosine distance, and Locality Sensitive Hashing (LSH) to retrieve images. Finally, the similarity model retrieves results using an indirect sort using the Quicksort algorithm. Despite its advantages, the framework does not consider any additional information beyond the region of interest of action, making it difficult even for us humans to describe some actions. The second framework, Act-Retrieval, is based on multiple inputs, action detection, hint-learning, and an attention module to overcome this issue. To experimentally validate both concepts, a quantitative analysis is performed using the standard mean Average Precision (mAP), and the AP@10, since we are often interested only in the first results of our query. A qualitative analysis was also performed, observing the feature maps generated and the corresponding result of each strategy to better illustrate the different information absorbed by the second framework. The results are compared with reference and state-of-the-art works in the image retrieval field, surpassing them by a large margin. Therefore, this thesis contributes to reduce the semantic gap considering static images and actions for image retrieval.
Description:	Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023.
URI:	https://repositorio.ufsc.br/handle/123456789/251228
Date:	2023

Files in this item

Files	Size	Format	View
PEAS0431-T.pdf	2.979Mb	PDF	View/Open

Detecting and retrieving actions in still images

DSpace Repository

Detecting and retrieving actions in still images

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar