1. What is Large Language Model(LLM)?
LLM이란 기존 언어모델의 확장판이라고 생각하면 된다. 방대한 파라미터 수(빌리언 단위)를 가진 언어모델을 의미한다. 지금까지 배운 GPT3, T5를 넘어서 그 이후에 ChatGPT, Bard, Ernie, Farm 등등 많은 초거대 언어 모델이 나오고 있다.
Large Language Models 시대 = Foundation Models의 시대
Large Language Models 시대는 이제 Foundation Models의 시대로 볼 수 있다.
머신 러닝 안에 딥러닝이 있고, 그 안에 파운데이션 모델이 있다. Foundation Model 같은 경우 기존에 transformer를 기반으로 어떻게 보면 다 이루어지고 있다고 말할 수 있는데 결국 딥러닝과 한 획을 그을 수 있는 모델이라고 생각한다.
근본 모델(사전 학습 모델)을 하나 큰 거를 잘 구워내서 그 모델이 결국 초거대언어 모델이 될 수 있다고 말할 수 있다.
창발성: 단일 모델로 여러 Task를 처리
LLM 같은 경우 가장 중요한 특성이 창발성이다. 영어로 하면 Emergent Ability라고 할 수 있다. 다른 중요한 특징으로는 멀티 태스크 능력이다. 즉, 단일 모델로 여러 태스크를 처리하는 게 초거대 모델의 가장 큰 특징이다.
전통적인 머신러닝 모델은 각각의 태스크를 처리하기 위해 각각의 ML 모델이 필요했고, 또 그 모델은 labeled data로 미세 조정이 되었었다.
Foundation model 같은 경우 수많은 Unlabeled data로 기초 모델을 만들게 되고, 그 모델 하나로 여러 개의 태스크를 처리할 수 있는 Broad Ranged Tasks로 처리했다.
모델과 태스크의 관계가 1대 1에서 1대 N으로 넘어가는 모먼트였다.
새로운 인공지능 개발 방식 = 육수 하나만 잘 끓이면 되는 시대
그래서 새로운 인공지능 개발 방식이 나왔다. 즉, 육수 하나 잘 끓이면 되는 시대이다.
이렇게 수많은 자연어 처리 태스크들이 하나의 모델로 처리될 수 있다. 기존에는 자연어 처리를 위해 저 각각의 태스크를 위해 각각의 모델이 필요했지만 이제 이러한 수많은 자연어 처리 태스크들이 하나의 모델로 천하통일되는 그런 상황이 초거대 언어 모델의 시대라고 할 수 있다.
Large Language Models 춘추전국시대
지금 LLM은 춘추전국시대를 지나고 있다.
2019년에 T5, 2020년에 GPT-3, 그 이후에 2021에 HyperCLOVA X가 나왔다.
이 이후에 정말 많은 모델이 나오고 있다.
LLM의 핵심 - Human Alignment (Human Feedback)
LLM의 핵심으로 Human Alignment를 들 수 있다. 기존에 사전학습 모델에는 인코더 기반 Bert, 디코더 기반 GPT가 있는데 이 GPT가 이전 문맥을 바탕으로 다음 단어를 생성하는 거다. 이게 정말 인간의 선호도와 관련이 있냐? 하는 물음표가 붙는다. 그렇기 때문에 그 모델을 갖고 인간의 선호도를 바탕으로 튜닝한 human alignment 작업이 반드시 필요하다.
이게 Pretraining 단계에서 보면 굉장히 언어를 학습하게 되고, 두 번째 Fine Tuning의 Instruction Tuning에서 이런 질문이 들어왔을 때 이런 답변을 해줘라는 인간의 선호도를 반영하는 것. 이게 바로 Human Alignment라고 볼 수 있다.
이 alignment를 얼마나 잘 해낼 수 있는지가 초거대언어모델의 핵심 키워드 중 하나라고 말할 수 있다.
LLM은 리셋 모먼트
그래서 LLM은 리셋 모먼트라고 볼 수 있다. 다양한 인간의 work efficiency를 높여주는 tool들이 많이 나오고 있다. 이게 언어에만 머물러있는 게 아니라 동영상, 챗봇, 이미지, 등등에 초거대언어모델의 영향이 미치지 않는 곳이 없다. 그래서 AI Agent라는 개념이 나오고 있고,
Agent를 통해 어떤 LLM이든 code executor 할 수 있고, 유저가 원하는 일들을 다 처리할 수 있는 시대로 넘어오고 있다. 이건 자연어 처리에 있어서 리셋 모먼트의 시대라고 말할 수 있다.
2. LLM의 등장 배경
그럼 이런 LLM이 왜 등장하게 되었느냐. 이때 필요한 개념은 Scaling Law다.
Scaling Law는 무어의 법칙처럼 일종의 법칙이다. Computing resource를 늘리고, Dataset Size를 키우고, Parameters size를 늘리게 되면 모델의 성능이 좋아진다는 게 법칙으로 증명이 됐다.
이렇게 법칙으로 증명되었기 때문에 기업입장에서 초거대언어 모델에 과감하게 투자할 수 있었다고 생각이 된다.
그래서 OpenAI에서 2020년에 발표한 Scaling Laws for Neural Language Models라는 논문이 초거대 언어를 확산시키고 발전시키는데 굉장히 중요한 역할을 했다 생각한다.
In-Context Learning
그다음이 LLM의 중요한 개념 중에 하나인 In-context Learning이라고 생각한다.
모델 태스크마다 성능을 조절하기 위해 모델의 구조를 변경하는 것이 아니라 이미 내재된 in-context 파라미터 정보를 활용해서 프롬프트를 넣었을 때 실제로 모델의 능력이 발출 되는 이런 것이 In-context learning이라고 볼 수 있다.
In-context learning 방법에는 Zero-shot, One-shot 등등이 있는데 Zero-shot은 실제 예시를 주지 않고 그냥 영어에서 프랑스어로 번역해.라는 명령만 넣는 거고, One-shot은 실제 하나의 예시를 주는 것, Few-shot은 여러 개의 예시를 프롬프트에 넣어주는 거라고 생각하면 된다.
이런 거를 통해 모델의 weight 업데이트 없이, 모델이 이미 수많은 데이터로 학습되었기 때문에 별도의 weight 업데이트 없이 모델에 이미 내제화된 정보만을 이용해 모델 태스크의 능력을 발산할 수 있는 게 LLM의 큰 특징 중 하나다.
특정 크기를 기점으로 급격한 상승
그래서 특정 크기를 기점으로 모델 성능이 급격하게 상승했다. 그래서 모델의 크기를 점점 늘리게 되면 없던 능력도 생겨난다. 즉, 이게 Emergent Ability 창발성이다.
즉, 모델의 크기가 작았을 때는 번역만 할 수 있던 게 모델의 크기가 늘어나니 요약 등 다양한 것들을 할 수 있게 되었다.
Instruction Tuning
Instruction Tuning은 언어모델의 성능을 향상한다. 이건 Alignment 과정이라고 생각하면 된다. 사람의 선호도를 반영하는 거다.
이런 질문을 했을 때 이런 답변을 해. 즉, 이전 단어를 기반으로 다음 단어를 예측하는 것만으로는 이게 사람의 선호도라고 볼 수 없으니 실제로 명시적으로 모델한테 이렇게 질문했을 때 이렇게 답변을 해.라고 알려주는 거다. 어떻게 보면 모델한테 가스라이팅 하는 거다.
그리고 실제로 instruction tuning은 언어 모델의 성능을 크게 향상한다.
3. LLM의 제작 프로세스
그럼 LLM은 어떻게 제작할까?
LLM의 재료에는 대표적으로 Infra와 Backbone Model이 있다. 물론 데이터의 품질, 모델링 능력도 중요하지만 초거대 언어 모델에서는 인프라가 없으면 아무것도 할 수 없다.
Infra
- Hyper Scale Cloud, Super Computing, Hyper Scale Data Center
- 운영 환경 (하드웨어)
- AI+클라우드를 중심으로 비즈니스 패러다임이 이동할 것
초거대 언어모델을 하는 기업을 살펴보자. 네이버 같은 경우에는 네이버 클라우드, LG도 LG내에 클라우드 시스템이 있을 거다. KT 믿:음도 KT 클라우드 시스템이 있다. 구글의 구글 클라우드, 아마존도 AWS가 있다. 이렇게 초거대언어모델을 하는 큰 기업들은 클라우드 시스템이 있다. OpenAI는 MS와 손을 잡고 MS Azure 시스템을 활용해서 인프라 문제를 해결했다.
그래서 결국 AI 모델링 역량을 가진 곳과 클라우드를 결합해서 AI+클라우드 중심으로 비즈니스 패러다임이 이동할 것 같다.
Backbone Model
두 번째로 중요한 건 Backbone Model이다.
- ChatGPT도 결국 GPT 3.5 기반으로 학습
- HyperClova X, SearchGPT도 HyperClova기반으로 학습
이만큼 LLM을 만들기 위해서 LLM이 필요한 역설적인 상황이다. 물론 from scratch로 한다면 이런 건 필요 없겠지만 어쨌든 LLM을 위해선 backbone model도 중요하다. 최근 Open LLM 진영에서 LLAMA, Solar 등 다양한 모델이 나오고 있는데 이런 모델을 튜닝을 하는 것도 결국 backbone 모델을 기반으로 further tuning 하는거기 때문에 Backbone model이 굉장히 중요하다.
Tuning & Data
그다음으로 중요한 건 Tuning 기술이다. 결국 LLM도 대용량의 행렬 곱셈의 연산이다. 이걸 어떻게 비용 효율적으로 할 수 있을까, 어떻게 비용 효율적인 백본 튜닝을 할 수 있을까, 어떻게 경량화할 것인가, 이런 것들은 반도체 기술과 연관이 있다. 행렬 연산 최적화 같은 것들을 어떻게 해낼 수 있을 것인지. batch 사이즈에 따라서 반도체 기술을 어떻게 구현할 것인지. 이런 게 굉장히 중요한 역할이다.
마지막으로 백번 말해도 부족한 데이터의 중요성이다. 고품질의 다량의 학습데이터가 필요하고 실제 사전학습을 위해 book data 같은 책 데이터, 기사데이터 같은 대용량의 텍스트 데이터가 필요하고, instruction tuning을 위해서 고품질의 instruction dataset, qna 데이터셋이 필요하다. 거기에 시스템 프롬프트까지 해서 이런 것들이 필요하다.
LLM의 데이터 구성
각각의 모델들을 보면 알겠지만 대부분 webpages, BookKorpus에서 가져왔다.
LLM의 제작 과정 - Data Processing 관점
LLM의 제작 과정을 Data Pre-Processing 관점에서 봐보자.
- 먼저 대용량의 Raw Corpus를 모은다. 보통 이때 최소 1조 개의 단어가 필요하다. 조 단위에 텍스트가 필요하다.
- 이렇게 모든 단어들에 대해서 Quality Filtering을 진행한다. 이 과정에서 질이 낮은 것들을 거른다.
- 이후 중복된 것들을 제거한다.
- 개인정보 문제를 제거하기 위해 PII를 제거한다.
- Tokenization을 진행하고
- pre-train이 진행된다.
LLM의 제작 과정 – Pre-training & Supervised Finetuning
그러고 나서 pre-training과 Supervised Finetuning을 진행한다. 실제 수많은 데이터를 통해 프리트레이닝을 하고 실제로 이런 question이 들어왔을 때 이런 answer가 나와야 한다는 supervised finetuning (instruction tuning)이 진행된다.
이렇게 여전히 LLM도 pre-training과 finetuning을 거치게 된다.
실제로 Base LLM은 위와 같이 문장이 생성된 걸 볼 수 있지만, Instruction tuning을 하면 질문에 대해서 명확하게 더 질문에 답을 할 수 있는 걸 볼 수 있다.
그래서 Base LLM은 계속해서 생성이 된다. 계속 문장이 이전 단어를 바탕으로 다음 단어를 생성해 낸다. 여기서 더 나아가서 질문이 들어왔을 때 답변을 낼 수 있는 further finetuning이 instruction 과정이고, 여기에 실제 인간의 선호도, human feedback까지 반영한 게 RLHF technizue를 더해서 실제로 더 고품질의 데이터를 나타낼 수 있는 초거대언어모델로 변화하게 되는 것이다.
결론
LLM의 시대는 단순히 언어 모델의 확장이 아니라 인공지능의 패러다임 전환을 의미한다. 대규모 데이터와 컴퓨팅 자원을 통해 창발적 능력을 발휘하는 LLM은 다양한 태스크를 단일 모델로 처리하며 인간 선호도를 반영한 튜닝과 고품질 데이터를 통해 더욱 정교해지고 있다.
이러한 초거대 언어 모델은 자연어 처리뿐 아니라 다양한 AI 분야에서 새로운 가능성을 열어가며 기술적·사회적 혁신의 중심에 서 있다. 이제 우리는 LLM이 가져올 새로운 도전과 기회를 함께 맞이할 준비를 해야 할 때라고 생각한다.
'Upstage AI Lab 4기' 카테고리의 다른 글
Upstage AI Lab 4기 AD 경진대회(화학 공정 이상 탐지) 후기 (0) | 2025.01.06 |
---|---|
Upstage AI Lab 4기 IR 경진대회 회고 (1) | 2024.12.23 |
Dialogue Summarization (일상 대화 요약) 경진대회 2주차 + 자체 평가 및 회고 (2) | 2024.12.01 |
Dialogue Summarization (일상 대화 요약) 경진대회 1주차 (1) | 2024.11.28 |
[CV 경진대회] 최종 제출, 자체 평가 및 회고 (1) | 2024.11.08 |