[Paper Review] LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Jun Zhao et. al., Fudan Univ
[Paper Review] LLaMA Beyond English: An Empirical Study on Language Capability Transfer

✍🏼 한 줄 요약

  • 영어 라마를 다른 언어로 transfer 시킬 때, 의외로 vocabulary 확장이 좋은 전략이 아닐 수도 있다.

🔒 Problem

  • LLaMA English를 다른 언어로 Transfer 하는 효과적인 방법 실험

🔑 Main Ideas

  • 크게 3가지 Factor로 연구 진행
    • The impact of vocabulary extension on transfer.
    • Training scales required for effective transfer.
    • Teh effect of Transfer Training on the original English capabilities.
  • Experimental Setup
    • Models
      • LLaMA: English-dominate corpus, 1.4T tokens. 4.5\% multilingual corpus. 7B, 13B를 실험에 사용
      • LLaMA2: 40\% increase in size, doubled context length
      • Chinese LLaMA: 중국어를 위해 SentencePiece 50K vocab tokenizer를 integrate 함. 30B 중국어 token 학습. 7B 모델
      • Chinese LLaMA2: LLaMA2에 동일한 중국어 데이터 학습
      • Open chinese LLaMA: 100B 중국어 토큰(영어와 코드도 일부 포함)을 학습시킨 LLaMA
    • Instruction Dataset:
      • BELLE: 1.5M Chinese instruction dataset, LLM-Eval로 평가
      • Bactrain-X: 52 languages instruction dataset, C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench로 평가
  • Evaluation Protocol
    • LLM-Eval : accuracy, fluency, informativeness, logicality, harmlessness, 0~3점 척도, ChatGPT4로 평가함
    • C-Eval, MMLU, AGI-Eval, GAOKAO-Bench: Accuracy metric으로 평가(harness를 쓴건지 안쓴건지?)

📈 Results

  • The impact of vocabulary extension on transfer
    • 1M 중국어 문장(0.5B tokens)을 original LLaMA에 학습 VS Vocab을 확장한 Chinese LLaMA (30B chinese tokens)
      • 놀랍게도 전자가 결과가 좋았다. 즉, vocab 확장을 하는게 성능 면에서는 좋지 않다. 단, 학습 token이 훨씬 많아지면 결과는 달라질 듯. tens of billions 토큰 이상을 학습해야 효과가 있다는 건데, 그렇게 많은 토큰을 학습하면 아예 처음부터 학습하는 거랑 차이가 없을 수도 있다.
  • Training Scales required for effective transfer
    • image
    • 위 표에서 1k, 5K SFT는 더 많은 중국어 토큰을 학습시킨 모델들이 성능이 좋지만, 950K에서는 큰 차이가 나지 않는다.
    • 즉, tens of bilions 사이즈에서는 챗봇의 답변 품질이 pretraining 에서 배운 knowledg 보다 instruction finetuning에서 배운 generation ability에 더 좌우된다고 볼 수 있다.
    • image
    • 위 표를 보면 모델들간의 성능 차이가 별로 없고, 심지어 영어 라마나 중국어 라마도 큰 차이가 없는 걸로 나옴(그냥 이 벤츠마크가 구린거아냐?)
  • How about the Original English Capabilities
    • image
    • 중국어를 학습시키면 시킬수록 영어의 perplexity는 떨어짐, 그러나 open llama의 경우 영어가 크게 떨어지지 않는다. 즉, 학습할 때 bi-lingual로 학습시키면 둘 다 어느정도 잘할 수 있을듯?
  • 13개의 다른 언어에 대한 zero-shot 평가도 해봤는데, SFT 데이터가 늘어날수록 급격히 성능이 좋아짐.

Limitations

  • 비교적 작은 모델 7B, 13B 정도로 실험함.
  • 새롭게 제안하는 method는 없음

✏️ Conclusion

  • 영어 라마를 다른 언어로 transfer 시킬 때, 의외로 vocabulary 확장이 좋은 전략이 아닐 수도 있다.
  • SFT 데이터가 많아지면 pretraining 데이터의 양이 중요하지 않을 수 있다.
  • 특정 언어로 SFT하면 다른 언어들로 Zero-shot Transfer도 어느정도 가능.
  • pretraining 하게되면 이전에 배운 언어는 급격히 까먹을 수 있음(joint training 해야 함)

❔ Questions