[Paper Review] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Avi Singh etc., Deep Mind
[Paper Review] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

👨🏽‍💻 Title & Authors (Affiliation)

  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Avi Singh etc., Deep Mind
  • 23.12

🔒 Problem

  • 일반적으로 LM을 학습 할 때, 양질의 human-generated data가 필요하고, 그 양이나 퀄러티에 따라서 LM의 성능이 크게 차이가 난다.
  • Model Generated Data를 사용해서 인간이 만든 데이터로 학습 할 때보다 더 좋은 성능을 낼 수 없을까?

🔑 Main Ideas

  • 두 가지 Step으로 진행
    • 1) Generate: Model로 하여금 여러 output을 generate 하고 binary reward를 통해서 filtering 함.
    • 2) Improve: Generate Step에서 모은 데이터로 SFT 학습
  • 비슷한 Approach 들이 과거에도 있었으나, 이 논문에서는 scaling에 초점을 맞춰서 연구
  • 또한 비교적 덜 알려진 2가지 도메인에 대해서 평가함 : competition-level MATH problems, code generate(APPS)
  • 추가로 General 한 능력을 평가하기 위해 Big-BenchHard 사용
  • Models : PaLM2 등

📈 Results

  • image
  • 위 그래프를 보면 PaLM 2보다 PaLM2-ReST가 훨씬 점수가 높은 것을 볼 수 있음.

Limitations

  • MATH와 APPS 데이터를 선택한 이유는 둘 다 자동으로 채점이 가능함. 따라서 Binary Reward로 채점이 가능
  • 그렇다면 자동으로 채점이 불가능한 Task에 대해서도 이런 내용을 적용이 가능한지?

✏️ Conclusion

  • 모델이 직접 수학이나 코딩 같은 문제를 풀게 하고, 어쩌다가 정답을 맞추면 거기에 대한 Reward를 받아서 걔로 학습(SFT).
  • Rejection Sampling이랑 유사한데, Binary Reward에서 다른 점이 있음
  • 근데 자동으로 Evaluation 되는 문제이기 때문에, Reward Model이 필요 없음
  • 그리고 나서 이 모델을 general 영역으로 Transfer 하는 것이 가능

❔ Questions

  • Binary는 아니더라도, 요약/번역과 같은 자동 채점 기능이 가능한 Task에 대해서 동일한 방식을 적용해서 Reasoning 능력을 높이고, 그 후에 General Domain으로 Transfer learning 할 수 있을까?