본문 바로가기
이슈&이벤트

챗GPT, 라마3.1 등의 LLM 관련 개념 정리

by 사라매 2024. 7. 28.
반응형

거대언어모델(LLM)은 대규모의 텍스트 데이터 학습을 통해 문장 생성, 질문 응답, 문서 요약 등 다양한 언어 작업을 수행할 수 있는 인공지능 모델입니다.. 언어 모델에 활용되는 파라미터(매개변수)가 수십억 개 이상에 달하여 붙여진 이름입니다. 

 

 

라마 3.1 405B? 

 

이번에 발표된 메타의 라마 3.1은 405B, 70B, 8B 등의 모델 명을 가지고 있습니다. 

각각 대형, 중형, 소형 모델이라고 하는데, 이때 숫자 뒤에 붙어있는 B가 보일 것입니다. 

 

B는 영어의 Billion으로 십억을 말합니다.  따라서 405B라고 하면 4천50억을 뜻하는 것이죠.

그런데 뭐가 4천50억이라는 걸까?

이 숫자는 해당 거대언어모델을 만들기 위해 활용된 매개변수가 4천50억이라는 얘기입니다. 

 

LLM은 하나의 단어를 입력했을 때, '다음에 이어질 단어'를 산출해 내는 모델이라고 볼 수 있는데,

매개변수란 산출해 낼 단어를 결정할 때 참조가 되는 요소들이라고 볼 수 있습니다. 

그만큼 매개변수가 더 많아지면, 더 정확한 결과를 산출해 낼 수도 있다고 생각할 수 있습니다. 

 

 

반면, 매개변수가 더 적은 모델에 대해 관심을 갖고 연구가 진행되기도 합니다.

이 경우 전반적인 분야에 대한 내용이 아닌  특정 분야에 대한 매개변수의 집합을 학습대상으로 사용함으로써 더욱 정교하고 전문화된 결과를 얻어낼 수 있을 것으로 기대되고 있습니다.

 

 

토큰(Token)

토큰은 텍스트를 구성하는 개별단위를 말합니다. 

 

토큰은 일반적으로 단일 단어로 나타나지만, 항상 그런 것은 아닙니다. 

'I love you'라는 문장이 있다고 생각할 때, 'I', 'love, 'you'등으로 토큰을 구분할 수 있을 것입니다.

그러나, 한국어 같은 경우 형태소 단위로 '노래하다'를 '노래'와 '하다'등으로 토큰을 나눌 수도 있습니다. 

 

토큰은 자연어 처리(NLP)에서 원문 전체를 직접 다루기보다, 각 토큰을 기반으로 처리함으로써 텍스트를 구조화하여 활용하는데 도움을 줄 수 있습니다. 

따라서 토큰화는 정보 검색, 텍스트 분류, 기계 번역 등에서 핵심적인 역할을 담당합니다. 

 

 

임베딩(Embedding)

 

임베딩은 NLP에서 텍스트로 된 데이터를 컴퓨터가 처리할 수 있도록 수치화된 데이터로 변환하는 방법을 말합니다.

임베딩을 통해 비슷한 의미의 단어들이 가까운 공간에 위치하게 됨으로 인해, 모델은 단어 간의 유사성을 학습할 수 있게 됩니다. 

 

LLM의 경우 단어 자체 뿐 아니라 단어의 문맥까지 한 단계 더 진행되어 임베딩됩니다. 이를 통해 전체 문장과 단락, 글 전체의 의미를 분석하고 활용할 수 있게 됩니다. 

 

 

2024.07.24 - [이슈&이벤트] - 페이스북 메타, GPT-4o대항마 라마(Llama)3.1 출시 / 라마3.1 사용법

 

반응형