Title: | Imitation learning for autonomous driving: disagreement-regularization and behavior cloning with beta distribution |
Author: | Petrazzini, Irving Giovani Bronzatti |
Abstract: |
A condução autônoma de veículos é um problema desafiador, pois seu ambiente possui uma natureza aberta com eventos inesperados e críticos que podem ocorrer. Abordagens de Aprendizado por Imitação (IL) contribuíram para a condução autônoma de ponta a ponta, não apenas na academia, mas também em empresas que fornecem serviços de condução autônoma. Nesta abordagem, um especialista gera trajetórias de pares observação-ação, demonstrando o comportamento desejado a um agente aprendiz. A clonagem comportamental é a forma mais simples de IL, onde uma rede neural é treinada ?offline? e apenas uma vez antes de interagir com o ambiente. Outras abordagens são interativas, proporcionando um aprendizado online por tentativa e erro no ambiente. Neste trabalho, exploramos uma dessas abordagens: o Aprendizado por Imitação com Regularização por Desacordo (DRIL), que utiliza um conjunto de políticas treinadas para sobreajustar o conjunto de especialistas por meio da clonagem comportamental. O desacordo no conjunto, que pode ser calculado pela variação das políticas, indica se um certo estado está distante dos estados consultados pelo especialista. Isso pode ser usado para obter um sinal de recompensa, permitindo uma abordagem de treinamento em ciclo fechado. Este trabalho elabora diferentes maneiras de empregar o DRIL, especialmente no cenário de condução de autonomia, caracterizado por espaços de observação de alta dimensão, como imagens, e espaços contínuos de ação. Ao empregar um método analógico de interrupção precoce (?early-stopping?), o DRIL demonstrou um desempenho superior em comparação com os resultados relatados por outras abordagens de aprendizado por imitação em um simulador de carro autônomo de vista superior. Finalmente, experimentos demonstraram que uma política estocástica treinada naquele ambiente apenas com a clonagem comportamental utilizando uma distribuição Beta, em vez da Gaussiana padrão, apresentada oferece uma alternativa competitiva, além de um processo de treinamento mais rápido. Abstract: Autonomous driving is a challenging problem, since its environment has an open-ended nature with unexpected, critical events that can take place. Imitation Learning (IL) approaches have become dominant for end-to-end autonomous driving not only in academia but also in companies which provide autonomous driving services. In this approach, an expert generates trajectories of observation-action pairs, demonstrating the desired behavior to a computational learning agent. Behavior cloning is the simplest form of IL, where a neural network is trained offline and only once before it is deployed in the environment. Other approaches are interactive, providing an online learning through trial and error in the environment. In this work, we explore one of such approaches: the Disagreement- Regularized Imitation Learning (DRIL), which leverages an ensemble of policies trained to overfit the expert set through behavior cloning. The disagreement in the ensemble, which can be calculated by the variance of policies, indicates if a given state is distant from the states seen by the expert. This can be used to derive a reward signal, facilitating a closed-loop training approach. This work elaborates on different ways of employing DRIL, specially in the autonomous driving scenario, characterized by both high-dimensional observation spaces, such as images, and continuous action spaces. By employing a method analogous to early-stopping, DRIL has demonstrated superior performance compared to results reported by other imitation learning methods in a top-down racing environment. Finally, experiments have shown that a policy trained with behavior cloning alone in that environment and modeling a Beta distribution instead of the standard Gaussian one has shown to offer a competitive alternative in addition to a faster training process. Keywords: Imitation Learning. Autonomous Driving. Disagreement-Regularized Imitation Learning. Reinforcement Learning. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2023. |
URI: | https://repositorio.ufsc.br/handle/123456789/251825 |
Date: | 2023 |
Files | Size | Format | View |
---|---|---|---|
PEAS0434-D.pdf | 12.84Mb |
View/ |