본문 바로가기
  • AI와 함께 세상을 아름답게
생성형 인공지능(Generative AI; GAI)

ChatGPT의 개발 과정과 배경

by neo-Lee 2023. 6. 30.

    거대 언어 모델(LLM, Large Language Model)의 대표적인 모델인 ChatGPT의 개발 과정과 배경을 살펴보고자 합니다. ChatGPT의 배경이 되는 거대 언어 모델의 역사는 그리 오래지 않습니다. 거대 언어 모델(LLM)이 발전되어 현재의 ChatGPT에 이르는 과정을 연도 순으로, 그리고 단계적 발전에 기여한 기술과 모델들 중심으로 기술해 보겠습니다.

1. Word2 Vec (2012~ )

    거대 언어 모델(LLM)의 시작은 2012년 구글의 연구자들이라고 알려져 있습니다. 당시 일론 머스크(Elon Musk)는 한 언론과의 인터뷰에서 전 세계 핵심 AI 연구자들의 70% 이상이 구글에 속해 있다고 말한 바 있습니다. 실제로 구글에서는 대규모 데이터 세트와 분산 처리 기술을 결합하여, LLM의 성능을 크게 향상하는 기술인  'Word2 Vec' 모델을 개발했습니다. Word2 Vec의 핵심 기능은 각 단어를 숫자 형태의 벡터로 변환하고 단어 간의 유사도(수치)를 계산할 수 있게 하는 것입니다. 예를 들어, '냄비'와 '프라이팬'이라는 단어가 유사한 의미를 가지고 있다면 이들의 벡터가 비슷한 곳에 위치하게 됩니다. 이러한 벡터 간의 거리를 계산하면 '냄비'와 '프라이팬'이 어느 정도의 유사한 단어인지를 확인할 수 있습니다. 

2. Transformer (2017~ )

    2017년 구글 브레인(Google Brain) 팀의 연구원들이 발표한 논문 <Attention is All You Need)에  '트랜스포머(Transformer)'라는 인공지능 아키텍처가 소개됩니다. 이 트랜스포머라는 기술은 헌재 GPT, Bard를 포함한 대다수의 거대 언어 모델에 사용되고 있습니다. 특히, 이 기술은 OpenAI의 GPT의 성능 개선에 가장 결정적이고 중요한 역할을 하게 됩니다. (트랜스포머는 다음에 자세히 알아보도록 하겠습니다.)

    트랜스포머는 생성 과정 중의 시퀀스(순서)에서 각 단어나 구절이 나타나는 위치를 추적할 수 있는 신경망의 한 종류입니다. 이 트랜스포머의 동작 원리를 쉽게 표현하면, '단어의 정확한 의미는 그 단어의 앞뒤에 위치한 다른 단어의 뜻에 따라 결정된다'는 것입니다. 트랜스포머는 이러한 문맥 정보를 추적함으로써 텍스트 문자열을 처리하고 단어의 더 정확한 의미를 찾아낼 수 있게 해 줍니다. 

    'hot dog'라는 단어를 예를 들어 설명하자면, 1) 'Hot dogs should be given plenty of water in summer'와 2) 'Hot dogs should be eaten with mustard source'라는 두 개의 문장에서 'hot dogs'라는 단어가 달리 해석되는 경우입니다.

3. GPT (2018~ )

    OpenAI에서 2018년 발표한 GPT-1은 구글의 트랜스포머 아키텍처를 적용해 1억 개 이상의 단어와 11억 개의 파라미터를 사전학습시킨 최초의 거대 언어 모델(LLM)로 개발되었습니다. GPT-1은 기계 번역, 질문-응답 시스템, 자연어 생성 등 다양한 자연어 처리 작업에서 상당한 성능을 보이면서 주목받게 되었고, OpenAI사는 대형화된 인공지능 학습방식이 성능 향상에 중요한 요인이 될 수 있다는 것을 확인하게 되었습니다.  

    2019년, GPT-1의 발표 이후 불과 몇 달 만에 GPT-2가 발표되었습니다. GPT-2는 모델의 크기를 키워 15억 개의 파라미터와 대규모 데이터 세트에서 학습되어 전 세계에서 가장 놀라운 성능을 보인 LLM 중 하나로 평가받았습니다. 

    2020년에 OpenAI는 GPT-3을 발표했습니다. GPT-3는 기존 LLM 모델들보다 훨씬 큰 1,750억 개의 파라미터를 가지고 있으며, 다양한 자연어 처리 작업에서 놀라운 성능을 보였습니다. 이러한 GPT-3을 발표한 이후 OpenAI는 '유해성' 문제와 부정확한 정보를 사실처럼 내놓는 '할루시네이션(Hallucination)' 문제를 수정하는 작업에 본격적으로 돌입하게 됩니다. 

    2022년, OpenAI의 본래 계획은 GPT-3.5를 기반으로 유해성을 개선시키고 추론 능력을 더욱 강화하여 GPT-4를 일반 공개하는 것이었다고 합니다. 하지만 여러 가지 여건상 GPT-3.5의 내부적인 튜닝 작업이 한계에 이르렀다고 판단하고 실제 사용자를 활용한 강화학습(사용자 평가 기능) 효과를 기대하면서 11월 말 ChatGPT-3라는 서비스(GPT-3.5 탑재)를 일반에 공개했습니다. 11월에 출시하자마자 5일 만에 가입자가 100만 명이 되었고 40일 만에 1,000만 명을 돌파하고, 출시 2개월 만인 2023년 2월 초에는 1억 명을 돌파하였습니다.

    (*ChatGPT-3는 어떠한 홍보도 하지 않고 조용히 공개했는데 수일 만에 SNS를 통해 빠르게 전파되는 모습을 보고 OpenAI의 개발자들도 모두 크게 당황했다고 합니다. OpenAI의 개발자들은 2023년 3월에 MIT Technology Review와의 인터뷰에서 ChatGPT-3에 대한 열광적인 반응에 대해 '저희 팀원들이 당혹스러워하는 부분은 ChatGPT에 포함된 대부분의 기술들이 새로운 것이 아니라는 사실입니다'라고 얘기하였습니다. 이렇듯 개발자의 입장에서는 전반적으로 기술적인 측면에서는 성공의 특별한 원인을 찾기 힘들다고 생각했던 것 같습니다.)

 

생성 AI인 DALL-E2가 만든 그림

 

    2023년 3월, ChatGPT-3(GPT-3.5)를 일반에 공개 후 3개월 만에 OpenAI는 GPT-4를 일반 유료 사용자를 대상으로 제한적으로 공개했습니다. GPT-4는 잘못된 정보나 유해 정보 생성 가능성을 크게 줄였고, 추론 및 요약 능력, 그리고 이미지 입력과 해석이 가능한 멀티모달 형태를 갖추게 되었습니다. 뿐만 아니라 API를 통해 앱 개발자들과의 서비스 연계를 도모하고, 앞으로 본격적인 AI플랫폼이 될 수 있는 '플러그인 스토어'를 공개하여 전 세계의 개발자들을 모아 본격적인 생성형 AI 생태계를 만들려는 계획을 보이고 있습니다.

 

다음 편에서는 ChatGPT에 대해 관련 구조와 기술을 중심으로 자세히 알아보도록 하겠습니다. 

 

2023.06.29 - [생성형 AI(Generative AI; GAI)] - 생성형 AI의 주요 기술(2) - VAE(Variational Autoencoder)

728x90

댓글