The AGV Battery Swapping Policy Based on Reinforcement Learning
페이지 정보

조회 69회 작성일 24-12-23 10:17
본문
The AGV Battery Swapping Policy Based on Reinforcement Learning
무인 물류 로봇(AGV, Automated Guided Vehicle)은 자동화 물류 처리 시스템의 전형적인 형태로, 내부에 탑재된 배터리팩에서 전력을 공급받는다. AGV는 배터리의 충전 상태를 관리하기 위해 주기적으로 배터리 교환 스테이션을 방문하여 사용 중인 배터리를 완충 배터리로 교체해야 한다. 따라서 AGV 시스템에는 어느 시점에 배터리 교체를 위해 교환 스테이션으로 이동해야 하는지를 결정하는 배터리 스와핑 (Battery Swapping) 방침이 필요하다.
실제 산업 현장에서 AGV의 배터리 스와핑 타이밍은 설계자의 경험에 의존한 직관적인 방식으로 설정되며, 이는 AGV 운영에 비효율성을 발생시키는 경우가 많다.
본 연구의 목적은 AGV의 효율성을 향상시키기 위한 배터리 스와핑 방침 개발하는 것이다. 본 연구에서 제안하는 스와핑 방침은 현재와 미래의 상황을 고려한 순차적인 결정을 바탕으로 하며, 마르코프 결정 과정 (MDP, Markov Decision Process) 프레임워크와 심층 강화 학습을 활용한다. 제안된 방침은 수치 실험을 통하여 기존의 휴리스틱 기반 스와핑 방침들에 비해 우수한 결과를 보여주었다. 또한, 방침의 특성 분석 결과, 해당 방침이 실제 AGV 운영에 적용될 수 있는 잠재성을 확인하였다.
The automated guided vehicle (AGV), a typical form of automated material handling system, generally utilizes electric power from an internally mounted battery pack. AGVs need to occasionally visit a battery station and swap the battery to manage their state of charge. An AGV system therefore needs a swapping policy, which determines when a vehicle should proceed to a battery station for battery replacement. In real industrial practice, most swapping policies are conservative and are based heuristically on the experiences of decision makers, which results in production inefficiency. The objective of this research is to develop a swapping strategy to improve the AGV system production efficiency. The proposed swapping policy is based on sequential decisions that consider current and future situations, and utilizes a Markov decision process framework and deep reinforcement learning. We present the results of numerical experiments to demonstrate the superior performance of the proposed swapping policy compared with heuristic policies. We also analyze the properties of the proposed swapping policy, and the results demonstrate its application potential for AGV systems.
2022