Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas
Show simple item record
| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Braghirolli, Lynceo Falavigna |
|
| dc.contributor.author |
Testoni, Pietro Francisco |
|
| dc.date.accessioned |
2025-12-18T10:49:08Z |
|
| dc.date.available |
2025-12-18T10:49:08Z |
|
| dc.date.issued |
2025-12-10 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/271473 |
|
| dc.description |
TCC(graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Produção. |
pt_BR |
| dc.description.abstract |
Esta pesquisa investiga o Problema Dinâmico de Corte de Bobinas em linhas de corte longitudinal sob regime de produção para estoque e compara duas abordagens: um agente de Aprendizado por Reforço (algoritmo de Otimização Proximal de Política) e um modelo de Programação Linear Inteira estática resolvido dia a dia. O sistema é modelado como um Processo de Decisão de Markov em dias discretos: o estado reúne estoques por comprimento, demanda observada e recursos operacionais; a ação escolhe um padrão viável do catálogo e a intensidade de corte; a recompensa corresponde ao negativo do custo diário (retalho, estoque e perda de venda), respeitando a hierarquia operacional. Implementa-se um simulador e utiliza-se um catálogo comum de padrões para as duas abordagens. Os experimentos abrangem instâncias com cinco e vinte itens (SKUs) sob demanda estocástica sintetizada e sementes controladas, com horizonte de trezentos dias e custos por milímetro, assegurando comparabilidade. A análise evidencia efeitos intertemporais que tornam políticas pontuais da Programação Linear Inteira mais sensíveis à variabilidade conforme cresce a combinatoriedade, enquanto o agente de Aprendizado por Reforço, treinado em episódios, aprende estoques de segurança e decisões antecipatórias. No cenário de cinco itens os métodos apresentam resultados semelhantes; no de vinte itens o agente de Aprendizado por Reforço alcança menor custo acumulado e reduz perdas de venda mantendo níveis de estoque ajustados. Conclui-se que políticas aprendidas capturam de forma robusta o compromisso entre retalho e inventário, posicionando o Aprendizado por Reforço como alternativa prática e escalável de apoio ao Planejamento e Controle da Produção em ambientes voláteis. |
pt_BR |
| dc.description.abstract |
This research investigates the Dynamic Cutting Stock Problem in longitudinal cutting lines under a make-to-stock production regime and compares two approaches: a Reinforcement Learning agent (using the Proximal Policy Optimization algorithm) and a static Integer Linear Programming model solved day by day. The system is modeled as a Markov Decision Process in discrete days: the state includes inventory by length, observed demand, and operational resources; the action selects a feasible cutting pattern from the catalog and the cutting intensity; the reward corresponds to the negative of the daily cost (trim loss, inventory, and lost sales), respecting the operational hierarchy. A simulator is implemented and a shared catalog of cutting patterns is used for both approaches. The experiments cover instances with five and twenty items (SKUs) under synthesized stochastic demand and controlled seeds, with a 300-day horizon and calibrated cost parameters per millimeter, ensuring comparability. The analysis reveals intertemporal effects that make the day-to-day policies of Integer Linear Programming more sensitive to variability as combinatorial complexity increases, while the Reinforcement Learning agent, trained in episodes, learns to build safety stocks and make anticipatory decisions. In the five-item scenario, both methods yield similar results; in the twenty-item scenario, the Reinforcement Learning agent achieves lower accumulated cost and reduced lost sales while maintaining adjusted inventory levels. It is concluded that the learned policies robustly capture the trade-off between trim loss and inventory, positioning Reinforcement Learning as a practical and scalable alternative to support Production Planning and Control in volatile environments. |
pt_BR |
| dc.format.extent |
94f |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Florianópolis, SC. |
pt_BR |
| dc.rights |
Open Access. |
en |
| dc.subject |
Aprendizado por reforço |
pt_BR |
| dc.subject |
Problema de corte de bobinas |
pt_BR |
| dc.subject |
Proximal Policy Optimization |
pt_BR |
| dc.subject |
trim-loss |
pt_BR |
| dc.subject |
Cutting Stock Problem |
pt_BR |
| dc.subject |
corte CTL |
pt_BR |
| dc.subject |
make-to-stock |
pt_BR |
| dc.subject |
Programação Linear Inteira |
pt_BR |
| dc.title |
Aprendizado por reforço aplicado ao problema dinâmico de corte de bobinas |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar