[Paper Review] Solving math word problems with process and outcome-based feedback
Guan Wang, 칭화대
👨🏽💻 Title & Authors (Affiliation)
- Solving math word problems with process and outcome-based feedback
- Jonathan Uesato, DeepMind
- 22.11
- ICLR Rejected
✍🏼 한 줄 요약
- 수학 문제로 RL을 할 때, 최종 정답과 풀이 과정 2가지 Supervision을 가지고 학습 할 때 각각 어떤 결과가 나오는지에 관한 experimental한 페이퍼
🔒 Problem
- LLM에게 Reasoning Steps를 생성하게 하면, 자연스럽게 여러 Task에서 Reasoning 능력이 향상되어 왔음.
- 문제는 최종 아웃풋(정답) 위주로 가르칠지 아니면 Process 위주로 가르칠지 선택의 기로에 놓이게 됨.
- Process 위주로 하게 되면 채점에서 cost가 커짐
- 본 연구에서는 outcom-based vs process-based reasoning step에 대한 효과에 대해서 연구
🔑 Main Ideas
- GSM8K(수학문제)를 활용하여 2가지 approach를 테스트
- GSM8K 데이터 예시
![image](https://github.com/oglee815/oglee815_old.github.io/assets/18374514/2a0f8444-caa9-4f61-a0d9-5711f398f3c3)
- 모든 답변은 integer, exact string match로 평가 가능
- Supervised Finetuning : Process를 입력받고 최종 output을 출력하도록 LM 학습
- RL : Outcom이 맞았는지 판단하는 Reward Model과 Process가 맞았는지 판단하는(human annotator 필요) Reward Model을 학습시킴
![image](https://github.com/oglee815/oglee815_old.github.io/assets/18374514/0889734a-f1a3-47cd-88d0-d72e5cbc362c)
- process-approach를 위한 step labeling은 humman annotator를 통해 9,856 binary label
📈 Results
- Outcome-based and process-based approaches lead to similar final-answer error rates.
- Both process- and outcome-supervised reward models learn to emulate process-based feed back
- 신기하게, outcom-based label로 가르쳐도, 나중에는 process-based reward model과 prediction 하는 경향이 유사해짐
- RL을 하든, Reranking(sample 중 가장 확률이 높은 답변 선택)을 하든 Reward 모델이 필수
- 다른 수학 데이터셋(pre-algebra MATH)에도 zero-shot transfer test 진행
- 60~70% 에러율, GPT-3는 90%에러율, 해당 데이터셋을 타겟으로 해서 학습하면 에러율이 20%대로 떨어지기 때문에 좋은 점수는 아니나, Transfer learning 효과는 있는 것 같음.
- 수학 외에 아예 타 도메인에 대해서는 Generalization이 어떨까?
- 저자 의견으로는, 수학 외에 다른 도메인의 경우, 모델의 process를 명확히 측정하기 어려울 수 있으므로, outcom-based approach(final-answer correctness)가 나을 것으로 예상함
- 근데 실제로 해봐야 알 것 같은데..?
Limitations
- 사용한 데이터셋이 1가지이고 모델도 1가지.
- 다른 도메인에서의 Transfer test가 없음.
- outcome-based and process-based approaches가 정량적 결과는 비슷하나, 정성적 결과는 어떻게 다른지에 대한 해석이 부족
✏️ Conclusion
- Outcom-based나 Process-based나 최종 정답을 맞출 확률은 비슷했음.
- 그러나 process가 정확한지 맞추려면 무조건 process 관련 supervision으로 학습해야함
❔ Questions
- 타 도메인으로의 Transfer 성능은?
- 왜 두가지 approach를 동시에 할 생각은 못했을까?