Title: | Utilização de redes convolucionais profundas para estimativa de ângulos de pose de fácies obtidas através do kinect® |
Author: | Cuttle, Juan Alejandro Terenzi |
Abstract: |
A capacidade de reconhecer padrões e construir modelos analíticos a partir de dados, é uma das principais características das técnicas de aprendizado de máquina. O reconhecimento da posição da cabeça a partir de imagens obtidas de câmeras dotadas de sensores de profundidade permite uma série de interações entre seres humanos e computadores em uma variedade de aplicações que vão de jogos até o controle de cadeiras de rodas por cadeirantes. O uso deste tipo de equipamento permite que se obtenha dados de profundidade, tornando possível obter o ângulo de inclinação da cabeça nos três eixos, o que seria muito difícil apenas a partir de imagens convencionais. Uma câmera relativamente barata, e capaz de capturar estas imagens de profundidade é o sensor Kinect®, desenvolvido pela empresa Microsoft. Este captura imagens de 640x480 pixels, uma resolução boa para distinguir a posição da cabeça numa imagem de profundidade. As redes neurais convolucionais são uma arquitetura de redes neurais profundas (deep learning) que têm sido utilizadas com sucesso em uma série de problemas de visão computacional relacionados com a identificação e reconhecimento de objetos em imagens. Este trabalho procurou então utilizar imagens capturadas por um sensor Kinect®, para treinar uma Rede Neural Convolucional de Camada Profunda e reconhecer nas imagens os ângulos de pose de cabeça de seres humanos. A Rede treinada foi então utilizada numa implementação simples onde o reconhecimento correto de imagens de profundidade demonstra aplicações práticas desta interface humano-computador, assim como seu potencial. The capacity to recognise patterns and create analytical models from data, is one of the main characteristics of Machine Learning techniques. The recognition of head positions from 3D (depth) images allows for a multitude of interactions between human beings and computers, in a variety of applications ranging from games to wheelchair control. The usage of devices containing depth sensors allows for the capturing of depth data, making the obtainment of head inclination angles on the three axes possible, which would be very difficult only through conventional images. A relatively cheap camera, which can capture these 3D images is the Kinect® sensor, developed by Microsoft. This device captures images of 640x480 pixels, a good enough resolution to distinguish the head’s position in a depth image. Convolutional Neural Networks are an architecture of Deep Neural Networks (Deep Learning) which have been used with success in a plethora of computer vision problems, related to the identification and recognition of objects in images. This work sought to utilize images captured by a Kinect®, to train a Deep Convolutional Neural Network and to recognise in images the angles in which human heads are posing. The trained Network was then used in a simple example software where the correct recognition of depth images demonstrates practical applications of this human-machine interface, as well as its potential. |
Description: | TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação. |
URI: | https://repositorio.ufsc.br/handle/123456789/192158 |
Date: | 2018-11-22 |
Files | Size | Format | View | Description |
---|---|---|---|---|
Monografia_Final.pdf | 1.957Mb |
View/ |
TCC |