메타, 차세대 LLM '라마3' 공개…"학습 데이터 질과 양 개선"

IT/과학

뉴스1,

2024년 4월 19일, 오전 11:36

(메타 제공)
메타가 다양한 목적으로 사용할 수 있는 대규모 언어모델(LLM) '라마3'(Llama 3)을 오픈소스로 공개했다고 19일 밝혔다.

라마3는 사전훈련과 미세조정을 마친 80억 개(8B)와 700억 개(70B) 매개변수 모델 두 가지로 공개됐다.

이 두 모델은 현재 동급의 오픈소스 모델 중 최고 수준의 성능을 나타냈다. '대규모 다중작업 언어 이해'(MMLU)를 포함한 다양한 업계 표준 벤치마크에서 높은 성적을 받았으며 추론과 코드 생성, 지시 수행에 있어 라마2보다 성능이 개선됐다.

라마3의 성능 향상은 모델의 사전 훈련과 사후 훈련 과정을 고도화함으로써 이루어졌다.

사전 훈련 데이터 세트의 양과 질을 높였다. 라마3은 라마2 대비 7배 이상 많은 데이터를 학습했다. 또 일상적인 질문부터 과학, 기술, 공학, 수학(STEM) 분야, 코딩, 역사 지식에 이르기까지 다양한 분야의 데이터 세트가 사용됐다.

메타는 우선 8B와 70B 매개변수 모델을 선보이며 연구원과 개발자의 피드백을 통해 지속 발전시켜 나갈 방침이다. 더 큰 규모의 모델은 현재 훈련 중으로 추후 오픈소스로 공개된다.

라마3 모델은 홈페이지에서 다운로드가 가능하며 AWS, 데이터브릭스, 구글 클라우드, 허깅페이스, IBM 왓슨x, 마이크로소프트 애저 등 다양한 플랫폼에서도 공개된다. 하드웨어 측면에서는 AMD, AWS, 델, 인텔, 엔비디아와 퀄컴이 파트너로 함께한다.

seungjun241@news1.kr

이시간 주요 뉴스