A performance increment strategy for semantic segmentation of low-resolution images from damaged roads

DSpace Repository

A- A A+

A performance increment strategy for semantic segmentation of low-resolution images from damaged roads

Show full item record

Title: A performance increment strategy for semantic segmentation of low-resolution images from damaged roads
Author: Toledo, Rafael de Souza
Abstract: Segmentação semântica é essencial para o entendimento de cenário de estradas e, consequentemente, para a realização de navegação autônoma. Entretanto, novos desafios surgem quando essas tarefas são postas em países emergentes dado a falta de uma infra-estrutura de qualidade ou a restrição a recursos computacionais. Recentemente, a Confederação Nacional de Transportes (CNT) reportou que 85% das estradas brasileiras apresentam algum dano como rachaduras, buracos, e remendos; normalmente, esses danos não são levados em conta pelos modelos de aprendizado profundo do estado da arte, os quais são treinados para atender a infra-estrutura de países desenvolvidos em conjunto de dados de alta-resolução como Cityscapes (2048x1024) e CamVid (920x720). Em 2019, o dataset Road Transverse Knowledge (RTK) foi projetado especialmente para atender a realidade de países emergentes; ele consiste de 701 imagens densamente anotadas de baixa-resolução (352x288) e 12 classes com diferentes categorias de estradas e danos como buracos, poças d?águas, e rachaduras. Baseado no dataset RTK, esse trabalho indica os principais desafios para estradas de países emergentes: 1) detecção de objetos pequenos dado a baixa-resolução da imagem, 2) objetos de múltiplas escalas dado a irregularidade da forma dos objetos, e 3) classes altamente desbalanceadas dado que as classes de danos são de tamanho pequeno. Em seguida, esse trabalho propõe a estratégia de incremento de performance para melhorar os resultados em conjuntos de dados de países emergentes; a estratégia consiste em uma série de 15 experimentos a fim de escolher a melhor opção para cada configuração de treinamento, como ampliação de dados, função perda e otimizador. Além desses, a estratégia sugere modificações na arquitetura como a remoção da camada max-pooling da ResNet e taxas de dilatação híbrida e digressiva. Ao final do trabalho, a estratégia alavancou o benchmark do RTK de 0.547 para 0.798 mIoU no conjunto de validação, e atingiu 0.688 mIoU no conjunto de teste do TAS500; os melhores resultados publicados até o momento.Abstract: Semantic segmentation is vital for understanding a road scene and, consequently, achieving autonomous driving. However, new challenges arise when attempting these tasks in emerging countries, given the lack of high-quality infrastructure or limited com- putational resources. Recently, the Brazilian National Transport Confederation (CNT) reported that 85% of the Brazilian roads present some damage like cracks, holes, and patches; these damages are usually not regarded by the state-of-the-art deep learn- ing models of road semantic segmentation, which are trained to meet the developed countries infra-structure in high-resolution datasets like Cityscapes (2048x1024) and CamVid (920x720). In 2019, the Road Transverse Knowledge (RTK) was specially de- signed to meet the emerging country reality; it consists of 701 fine-annotated images of low-resolution (352x288) and 12 classes with different road surfaces and damages like potholes, water puddles, and cracks. Based on the RTK dataset, this work points out the main challenges for emerging country roads: 1) small objects given low-resolution images, 2) multiscale objects given irregular-shaped objects, and 3) highly imbalanced classes given road-damages small size. Finally, this work proposes the performance increment strategy to enhance results in emerging country datasets; the strategy con- sists of a series of 15 experiments to choose the best option for each training setup like data augmentation, loss function, and optimizer. Furthermore, the strategy suggests architecture modifications such as the max-pooling layer removal from ResNet and hybrid and digressive dilation rates. In the end, the strategy raised the RTK benchmark from 0.547 to 0.798 mIoU on the validation set; and reached 0.688 mIoU in the TAS500 test set, the best results published so far.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2022.
URI: https://repositorio.ufsc.br/handle/123456789/247358
Date: 2022


Files in this item

Files Size Format View
PEAS0422-D.pdf 10.53Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar