👨🏽‍💻 Title & Authors (Affiliation)

✍🏼 한 줄 요약

Reinforced Self-Training(ReST) 방식 제안
- Grow : 현재 Policy로 한 샘플 당 여러 개의 Prediction을 생성
- Improve : Score Function(Metrix X 사용)을 통해 생성된 데이터를 filtering and ranking하고, policy를 supervised learning 함
Policy를 학습할 때는 평범한 Negative Likelihood Loss or V-MPO or offline actor-critic을 사용함
New Policy를 학습할 때는 더 작은 LR로 낮추면서 학습해서 overfitting을 줄이도록 함.
Model은 standard Transformer 사용(Task 자체가 워낙 간단해서..)

Translation Dataset에만 테스트
- Grow를 1번하고, Improve만 여러번 할 수도 있음(G=0, I=0은 SFT)
- Grow도 여러번하면 성능이 확 좋아짐.(G=0, I=0은 SFT)
- 그러나 Reward Model의 점수와 사람이 매긴 점수간의 차이가 크게 존재한다.
- 이것은 G, I Step이 증가 할 수록 심해짐
- 그래서 매 스텝마다 human annotation 데이터를 섞어 주는 게 좋을 것 같음.

1번의 Grow, Iteration Step을 밟는 연구는 꽤 비슷한게 많이 있음
번역 Task 자체가 너무 쉬움(추후에 나오는 ReST 2에서는 수학과 코딩에 적용)
Reward Model을 사용하지 않고 BLEU 같이 번역에서 많이 쓰이는 Scoring Function을 사용했네? 너무 날로 먹은거 아님?(Appendix에 이에 대한 내용이 있긴 있음)