•  Meta AI의 Foundation Model인 LLaMA
  • 2024년 봄, 메타(Meta)에서 차기작 ‘라마 3 (8B, 70B)’를 공개
  • 현재 훈련 중인 400B 이상의 모델도 이어 공개될 것이라 예고됐고, 오픈AI의 차세대 LLM 모델인 GPT-5도 올여름 중 출시될 것이라는 소문이 있음
  • 라마 3는 라마 2보다 성능이 크게 향상된 것은 물론, 구글의 제미나이(Gemini)나 앤트로픽의 클로드(Claude) 등 주요 LLMs(Large Language Model, 대형 언어 모델)와 비교해도 비슷한 크기의 모델 중에서 가장 높은 성능을 보여줌

✔️ Llama 3 주요 특징 (개선 사항)

  라마 3 라마 2
학습 데이터셋 크기 15T (15조 개) 토큰

✅7배 이상 증가, 대규모 사전학습 확장
✅라마 3 pre-training 데이터셋 중 5% 이상을 30개 이상의 고품질 비영어권(non-English) 데이터셋으로 구성함, 단 성능이 영어와 같은 수준은 아님
2T (2조 개) 토큰
컨텍스트 길이 8K (8192)

✅2배 증가, 하지만 GPT-4의 128K에 비하면 상당히 작은 수준
4K (4096)
모델 종류 Llama-3-8B, 70B

✅400B⁺ 출시 예정
✅멀티모달(Multimodal) 데이터를 이해하는 능력 및 다양한 언어를 지원하는 모델도 출시될 예정
Llama-2-7B, 13B, 70B
아키텍처 GQA

✅추론 효율성 개선
• 7B, 13B 버전: MHA(Multi-Head Attention)

• 34B, 70B 버전: GQA(Grouped Query Attention)
토크나이저 128K 토큰을 보유한 새로운 토크나이저

✅언어를 더 효율적으로 인코딩해 성능 향상 (향상된 토큰 효율성)
BPE SentencePiece (32K 토큰 보유)
  • 2023년 7월, 메타에서 오픈 소스 LLM ‘라마 2’를 공개
    • 가장 인기 있는 오픈 소스 LLM
    • 상업적으로도 연구용으로도 무료로 사용
    • 라마2는 기존 버전보다 40% 더 많은 2조 개의 토큰으로 학습됨, 컨텍스트 길이도 두 배 증가한 4096
    • 파라미터 수에 따라 라마-2-7B, 13B, 70B 세가지 모델 제공
  • 라마 3 사용법
    1. 허깅페이스에서 라마3 사용하기
    2. 메타 AI 서비스로 라마3 활용하기
    3. Ollama로 내 PC에서 Llama3 실행하기
    4. 클라우드 환경에서 실행하기

 

참고:

https://modulabs.co.kr/blog/llama-3-intro/

 

 

+ Recent posts