Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

Testoni, Pietro Francisco

Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

DSpace Repository

A- A A+

Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

Show simple item record

dc.contributor	Universidade Federal de Santa Catarina.	pt_BR
dc.contributor.advisor	Braghirolli, Lynceo Falavigna
dc.contributor.author	Testoni, Pietro Francisco
dc.date.accessioned	2025-12-18T10:49:08Z
dc.date.available	2025-12-18T10:49:08Z
dc.date.issued	2025-12-10
dc.identifier.uri	https://repositorio.ufsc.br/handle/123456789/271473
dc.description	TCC(graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Produção.	pt_BR
dc.description.abstract	Esta pesquisa investiga o Problema Dinâmico de Corte de Bobinas em linhas de corte longitudinal sob regime de produção para estoque e compara duas abordagens: um agente de Aprendizado por Reforço (algoritmo de Otimização Proximal de Política) e um modelo de Programação Linear Inteira estática resolvido dia a dia. O sistema é modelado como um Processo de Decisão de Markov em dias discretos: o estado reúne estoques por comprimento, demanda observada e recursos operacionais; a ação escolhe um padrão viável do catálogo e a intensidade de corte; a recompensa corresponde ao negativo do custo diário (retalho, estoque e perda de venda), respeitando a hierarquia operacional. Implementa-se um simulador e utiliza-se um catálogo comum de padrões para as duas abordagens. Os experimentos abrangem instâncias com cinco e vinte itens (SKUs) sob demanda estocástica sintetizada e sementes controladas, com horizonte de trezentos dias e custos por milímetro, assegurando comparabilidade. A análise evidencia efeitos intertemporais que tornam políticas pontuais da Programação Linear Inteira mais sensíveis à variabilidade conforme cresce a combinatoriedade, enquanto o agente de Aprendizado por Reforço, treinado em episódios, aprende estoques de segurança e decisões antecipatórias. No cenário de cinco itens os métodos apresentam resultados semelhantes; no de vinte itens o agente de Aprendizado por Reforço alcança menor custo acumulado e reduz perdas de venda mantendo níveis de estoque ajustados. Conclui-se que políticas aprendidas capturam de forma robusta o compromisso entre retalho e inventário, posicionando o Aprendizado por Reforço como alternativa prática e escalável de apoio ao Planejamento e Controle da Produção em ambientes voláteis.	pt_BR
dc.description.abstract	This research investigates the Dynamic Cutting Stock Problem in longitudinal cutting lines under a make-to-stock production regime and compares two approaches: a Reinforcement Learning agent (using the Proximal Policy Optimization algorithm) and a static Integer Linear Programming model solved day by day. The system is modeled as a Markov Decision Process in discrete days: the state includes inventory by length, observed demand, and operational resources; the action selects a feasible cutting pattern from the catalog and the cutting intensity; the reward corresponds to the negative of the daily cost (trim loss, inventory, and lost sales), respecting the operational hierarchy. A simulator is implemented and a shared catalog of cutting patterns is used for both approaches. The experiments cover instances with five and twenty items (SKUs) under synthesized stochastic demand and controlled seeds, with a 300-day horizon and calibrated cost parameters per millimeter, ensuring comparability. The analysis reveals intertemporal effects that make the day-to-day policies of Integer Linear Programming more sensitive to variability as combinatorial complexity increases, while the Reinforcement Learning agent, trained in episodes, learns to build safety stocks and make anticipatory decisions. In the five-item scenario, both methods yield similar results; in the twenty-item scenario, the Reinforcement Learning agent achieves lower accumulated cost and reduced lost sales while maintaining adjusted inventory levels. It is concluded that the learned policies robustly capture the trade-off between trim loss and inventory, positioning Reinforcement Learning as a practical and scalable alternative to support Production Planning and Control in volatile environments.	pt_BR
dc.format.extent	94f	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Florianópolis, SC.	pt_BR
dc.rights	Open Access.	en
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Problema de corte de bobinas	pt_BR
dc.subject	Proximal Policy Optimization	pt_BR
dc.subject	trim-loss	pt_BR
dc.subject	Cutting Stock Problem	pt_BR
dc.subject	corte CTL	pt_BR
dc.subject	make-to-stock	pt_BR
dc.subject	Programação Linear Inteira	pt_BR
dc.title	Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas	pt_BR
dc.type	TCCgrad	pt_BR

Files in this item

Files	Size	Format	View	Description
TCC_Pietro_Fran ... reforco_corte_bobinas_.pdf	3.650Mb	PDF	View/Open	TCC

Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

DSpace Repository

Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar