$Hits$

👨🏽‍💻 Title & Authors (Affiliation)

✍🏼 한 줄 요약

수학 문제로 RL을 할 때, 최종 정답과 풀이 과정 2가지 Supervision을 가지고 학습 할 때 각각 어떤 결과가 나오는지에 관한 experimental한 페이퍼

GSM8K(수학문제)를 활용하여 2가지 approach를 테스트
GSM8K 데이터 예시
- 모든 답변은 integer, exact string match로 평가 가능
Supervised Finetuning : Process를 입력받고 최종 output을 출력하도록 LM 학습
RL : Outcom이 맞았는지 판단하는 Reward Model과 Process가 맞았는지 판단하는(human annotator 필요) Reward Model을 학습시킴
process-approach를 위한 step labeling은 humman annotator를 통해 9,856 binary label

Outcome-based and process-based approaches lead to similar final-answer error rates.
Both process- and outcome-supervised reward models learn to emulate process-based feed back
- 신기하게, outcom-based label로 가르쳐도, 나중에는 process-based reward model과 prediction 하는 경향이 유사해짐
- RL을 하든, Reranking(sample 중 가장 확률이 높은 답변 선택)을 하든 Reward 모델이 필수
다른 수학 데이터셋(pre-algebra MATH)에도 zero-shot transfer test 진행
- 60~70% 에러율, GPT-3는 90%에러율, 해당 데이터셋을 타겟으로 해서 학습하면 에러율이 20%대로 떨어지기 때문에 좋은 점수는 아니나, Transfer learning 효과는 있는 것 같음.
수학 외에 아예 타 도메인에 대해서는 Generalization이 어떨까?
- 저자 의견으로는, 수학 외에 다른 도메인의 경우, 모델의 process를 명확히 측정하기 어려울 수 있으므로, outcom-based approach(final-answer correctness)가 나을 것으로 예상함
- 근데 실제로 해봐야 알 것 같은데..?