- 물리세계에서 인간처럼 물체와 상호작용할 수 있는 에이전트를 만드는 하나의 접근 방법으로 강화학습이 있음
- 하지만, reward function을 명세하거나 trajectories를 모으는 비용이 비쌈
- 이를 해결하기 위해 비지도적인 exploration을 종용하는 intrinsic motivation 방법이 있음
- 하지만 이는 인간의 진화과정과 다름
- 본 논문에서는 hide-and-seek 게임을 하는 경쟁, 적대적 환경 소개
- 에이전트는 오직 visibility-based reward function만 가지고 경쟁하며 에이전트의 의도에 따라 적합한 tool 사용 방법을 학습함
- 예를들어 hider는 seeker를 피해 여러개의 forts를 활용하여 바리케이트를 구성하고 seeker는 이에 따라 비탈길을 이용해 바리케이트 안으로 점프함
- 이는 intrinsic motivation 방법보다 더 인간적으로 해석할 수 있는 행위 도출
- 본 논문의 메인 contribution은 다음과 같음
- 다양한 에이전트 전략 상황에서 multi-agent self-play가 autocurricula 창발
- 물리 기반 환경에서 multi-agent autocurricula는 tool 활용과 같은 인간적인 전략 유도
- 개방형 환경 뿐만 아니라 도메인에 적합한 타겟 지능 테스트를 위한 transfer 제안
- multi-agent autocurricula 학습을 위한 오픈 소스 기반 환경 배포
- multi-agent self-play에 대한 설명
- intrinsic motivation 방법에 대한 설명
- count-based exploration : visit count를 세 안가본 곳으로 exploration
- transition-based method : transition에 대한 예측 error를 통해 exploration
- RL을 활용한 tool use 연구 설명
- two team physics 기반 hide-and-seek 환경에서 학습 수행
- hider는 seeker의 시야를 피하는 것이 목적이고 seeker는 반대로 hider를 주시하는 것이 목적
- agent는 모든 hider가 시야에 없으면 +1, 어떤 hider든 seeker에게 걸리면 -1로 팀 단위 reward를 받고(seeker의 경우 반대 케이스로 reward) map에서 너무 멀어질 경우 -10
- episode는 240 timestep이고 처음 40% 시간 동안은 0 reward
- 시뮬레이션은 MUJOCO 물리 엔진 기반이며 1 to 3 hider, 1 to 3 seeker, 3 to 9 randomly objects로 구성
- action은 xyz move와 grab, lock으로 구성
- 적당한 수준의 opponents와 self-play를 통한 학습 수행
- PPO(Proximal Policy Optimization) + GAE(Generalized Advantage Estimation) + rapid(large-scale distributed RL framework) 활용
- CTDE(centralized training decentralized execution)으로 학습하고 실행 단계에서 각각의 agent는 본인의 observation만 활용
- 자신의 상태를 ego-centric 하게 embedding하고 나머지 agents를 embedding
- residual self-attention 구조 활용
- 학습 초기에, hider와 seeker는 단순하게 도망가고 추격하는 것을 학습
- 25백만 에피소드 이후, hider는 box와 같은 tool을 활용하여 쉘터를 만들어 숨는 방법 학습
- 75백만 에피소드 이후, seeker는 비탈길을 이용하여 장애물을 뛰어 넘어 hider의 쉘터에 침입하는 것을 학습
- 이후 10백만 에피소드 이후, hider는 다시 비탈길을 막기 위해 map 가장자리에 비탈길을 옮겨놓고 lock을 검
- 380백만 에피소드 이후, seeker는 lock 걸린 비탈길에 박스를 가져가 그 박스에 올라타 쉘터를 침입하는 행위 발현
- 결국 hider는 쉘터를 만들기 전 모든 box와 비탈길을 lock 하는 것을 학습
- defualt model의 batch size는 64,000 1.6백만 parameters, 132.3백만 에피소드, 비탈길 방어까지 34시간 이상 학습 소요
- optimization 단계에서는 32,000 배치 사이즈 활용하고 16,000, 8,000 배치사이즈에서는 수렴하지 않음
- 많은 unsupervised rl 방법과 같이, 최적화의 목표가 학습된 행동에 직접적인 이점이 아니기 때문에 이러한 행동을 평가하는 것은 무의미
- 또한 multi-agent 환경에서 reward를 tracking 하는 것은 모호하여 ELO 혹은 Trueskill 방식으로 성능지표를 세우는 것이 조금 더 적절하지만 이것 또한 학습 성능 향상이나 개선에 대한 지표로는 보기 어려움
- intrinsic motivation은 sparely reward setting에서 unsupervised exploration과 skill discovery를 위한 좋은 방법
- hide-and-seek에서 첫 번째로 count-based intrinsic motivation을 통해 exploration을 종용 : state에 대해 visit count가 낮은 곳에 대한 exploration 종용
- 하지만 state-representation 시 2-D Box location 정보만 반영하는 것을 보고 RND(random network distillation)을 추가 반영 : 새로운 state에 대한 prediction error 가 높으니 그것을 보고 exploration을 종용하는 방식
- domain-specific에 적합한 agent capabilities transfer를 제안하기 위해 5가지 벤치마킹 지능(Object Counting, Lock and Return, Sequential Lock, Blueprint Construction, Shelter Construction)을 테스트
- Pretrained in hide-and-seek, Trained from scratch, Pretrained with count-based intrinsic motivation 등으로 사전 학습 된 결과에 대해 벤치마킹 지능으로 fine tuning
- 위 5가지 벤치마킹 지능을 Cognition and memory와 Manipulation task로 유형을 나눔
- 본 논문에서는 reward function이 행위와 직접적인 연관이 없는 환경에서도 6가지의 행위가 창발되는 것을 확인
- 하지만 아직까지도 일반적인 rl algorithm의 복잡성은 해결해야 할 문제