Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

DSpace Repository

A- A A+

Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Braghirolli, Lynceo Falavigna
dc.contributor.author Testoni, Pietro Francisco
dc.date.accessioned 2025-12-18T10:49:08Z
dc.date.available 2025-12-18T10:49:08Z
dc.date.issued 2025-12-10
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/271473
dc.description TCC(graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Produção. pt_BR
dc.description.abstract Esta pesquisa investiga o Problema Dinâmico de Corte de Bobinas em linhas de corte longitudinal sob regime de produção para estoque e compara duas abordagens: um agente de Aprendizado por Reforço (algoritmo de Otimização Proximal de Política) e um modelo de Programação Linear Inteira estática resolvido dia a dia. O sistema é modelado como um Processo de Decisão de Markov em dias discretos: o estado reúne estoques por comprimento, demanda observada e recursos operacionais; a ação escolhe um padrão viável do catálogo e a intensidade de corte; a recompensa corresponde ao negativo do custo diário (retalho, estoque e perda de venda), respeitando a hierarquia operacional. Implementa-se um simulador e utiliza-se um catálogo comum de padrões para as duas abordagens. Os experimentos abrangem instâncias com cinco e vinte itens (SKUs) sob demanda estocástica sintetizada e sementes controladas, com horizonte de trezentos dias e custos por milímetro, assegurando comparabilidade. A análise evidencia efeitos intertemporais que tornam políticas pontuais da Programação Linear Inteira mais sensíveis à variabilidade conforme cresce a combinatoriedade, enquanto o agente de Aprendizado por Reforço, treinado em episódios, aprende estoques de segurança e decisões antecipatórias. No cenário de cinco itens os métodos apresentam resultados semelhantes; no de vinte itens o agente de Aprendizado por Reforço alcança menor custo acumulado e reduz perdas de venda mantendo níveis de estoque ajustados. Conclui-se que políticas aprendidas capturam de forma robusta o compromisso entre retalho e inventário, posicionando o Aprendizado por Reforço como alternativa prática e escalável de apoio ao Planejamento e Controle da Produção em ambientes voláteis. pt_BR
dc.description.abstract This research investigates the Dynamic Cutting Stock Problem in longitudinal cutting lines under a make-to-stock production regime and compares two approaches: a Reinforcement Learning agent (using the Proximal Policy Optimization algorithm) and a static Integer Linear Programming model solved day by day. The system is modeled as a Markov Decision Process in discrete days: the state includes inventory by length, observed demand, and operational resources; the action selects a feasible cutting pattern from the catalog and the cutting intensity; the reward corresponds to the negative of the daily cost (trim loss, inventory, and lost sales), respecting the operational hierarchy. A simulator is implemented and a shared catalog of cutting patterns is used for both approaches. The experiments cover instances with five and twenty items (SKUs) under synthesized stochastic demand and controlled seeds, with a 300-day horizon and calibrated cost parameters per millimeter, ensuring comparability. The analysis reveals intertemporal effects that make the day-to-day policies of Integer Linear Programming more sensitive to variability as combinatorial complexity increases, while the Reinforcement Learning agent, trained in episodes, learns to build safety stocks and make anticipatory decisions. In the five-item scenario, both methods yield similar results; in the twenty-item scenario, the Reinforcement Learning agent achieves lower accumulated cost and reduced lost sales while maintaining adjusted inventory levels. It is concluded that the learned policies robustly capture the trade-off between trim loss and inventory, positioning Reinforcement Learning as a practical and scalable alternative to support Production Planning and Control in volatile environments. pt_BR
dc.format.extent 94f pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access. en
dc.subject Aprendizado por reforço pt_BR
dc.subject Problema de corte de bobinas pt_BR
dc.subject Proximal Policy Optimization pt_BR
dc.subject trim-loss pt_BR
dc.subject Cutting Stock Problem pt_BR
dc.subject corte CTL pt_BR
dc.subject make-to-stock pt_BR
dc.subject Programação Linear Inteira pt_BR
dc.title Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View Description
TCC_Pietro_Fran ... reforco_corte_bobinas_.pdf 3.650Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar