[Paper Review] Solving math word problems with process and outcome-based feedback

Guan Wang, 칭화대
[Paper Review] Solving math word problems with process and outcome-based feedback

👨🏽‍💻 Title & Authors (Affiliation)

  • Solving math word problems with process and outcome-based feedback
  • Jonathan Uesato, DeepMind
  • 22.11
  • ICLR Rejected

✍🏼 한 줄 요약

  • 수학 문제로 RL을 할 때, 최종 정답과 풀이 과정 2가지 Supervision을 가지고 학습 할 때 각각 어떤 결과가 나오는지에 관한 experimental한 페이퍼

🔒 Problem

  • LLM에게 Reasoning Steps를 생성하게 하면, 자연스럽게 여러 Task에서 Reasoning 능력이 향상되어 왔음.
  • 문제는 최종 아웃풋(정답) 위주로 가르칠지 아니면 Process 위주로 가르칠지 선택의 기로에 놓이게 됨.
  • Process 위주로 하게 되면 채점에서 cost가 커짐
  • 본 연구에서는 outcom-based vs process-based reasoning step에 대한 효과에 대해서 연구

🔑 Main Ideas

  • GSM8K(수학문제)를 활용하여 2가지 approach를 테스트
  • GSM8K 데이터 예시
    • image
    • 모든 답변은 integer, exact string match로 평가 가능
  • Supervised Finetuning : Process를 입력받고 최종 output을 출력하도록 LM 학습
  • RL : Outcom이 맞았는지 판단하는 Reward Model과 Process가 맞았는지 판단하는(human annotator 필요) Reward Model을 학습시킴
  • image
  • process-approach를 위한 step labeling은 humman annotator를 통해 9,856 binary label

📈 Results

  • Outcome-based and process-based approaches lead to similar final-answer error rates.
  • Both process- and outcome-supervised reward models learn to emulate process-based feed back
    • 신기하게, outcom-based label로 가르쳐도, 나중에는 process-based reward model과 prediction 하는 경향이 유사해짐
  • image
    • RL을 하든, Reranking(sample 중 가장 확률이 높은 답변 선택)을 하든 Reward 모델이 필수
  • 다른 수학 데이터셋(pre-algebra MATH)에도 zero-shot transfer test 진행
    • 60~70% 에러율, GPT-3는 90%에러율, 해당 데이터셋을 타겟으로 해서 학습하면 에러율이 20%대로 떨어지기 때문에 좋은 점수는 아니나, Transfer learning 효과는 있는 것 같음.
  • 수학 외에 아예 타 도메인에 대해서는 Generalization이 어떨까?
    • 저자 의견으로는, 수학 외에 다른 도메인의 경우, 모델의 process를 명확히 측정하기 어려울 수 있으므로, outcom-based approach(final-answer correctness)가 나을 것으로 예상함
    • 근데 실제로 해봐야 알 것 같은데..?

Limitations

  • 사용한 데이터셋이 1가지이고 모델도 1가지.
  • 다른 도메인에서의 Transfer test가 없음.
  • outcome-based and process-based approaches가 정량적 결과는 비슷하나, 정성적 결과는 어떻게 다른지에 대한 해석이 부족

✏️ Conclusion

  • Outcom-based나 Process-based나 최종 정답을 맞출 확률은 비슷했음.
  • 그러나 process가 정확한지 맞추려면 무조건 process 관련 supervision으로 학습해야함

❔ Questions

  • 타 도메인으로의 Transfer 성능은?
  • 왜 두가지 approach를 동시에 할 생각은 못했을까?