오늘은 최근에 가장 많은 관심을 받고 있는 생성형 인공지능의 대표 모델인 ChatGPT에 대해 알아보고자 합니다. '대화 목적으로 개발한 언어 기반 생성형 인공지능 모델'인 GPT-3 기반 ChatGPT는 2022년 11월 30일 OpenAI에서 공개한 이후 선풍적인 인기를 끌며 수많은 가입자를 확보하였으나 실제 사용에 있어 많은 유해 정보 및 가짜 정보로 응답하는 경우가 많아 여러 가지 우려를 낳기도 했습니다. GPT-3 이후 OpenAI사는 2021년 9월까지 온라인상에 축적된 방대한 규모의 데이터를 기반으로 사전 학습된 대규모 GPT-4를 2023년 3월 공개하였습니다.
GPT-4는 앞선 GPT-3 또는 GPT-3.5에 비교하여 추론 기능과 요약 성능, 언어 지원 능력이 크게 개선되었고, 유해 정보에 대한 우려가 82% 줄어들었으며 사실 정보를 응답할 가능성이 40% 높아졌다고 합니다. 또한 텍스트가 아닌 이미지를 입력받아 분석하고 이해 및 추론할 수 있는 '멀티모달' 기능을 지원한다고 합니다.
ChatGPT는 기존 AI와는 달리 일반적인 대화뿐만 아니라 논문 작성이나 번역, 보고서나 시장조사서는 물론이고 노래 작사 작곡, 코딩, 심리 상담 등 광범위한 분야의 업무를 수행할 수 있습니다. ChatGPT의 성격과 특징을 알아보고, ChatGPT가 가능하게 된 여러 가지 배경을 알아보도록 하겠습니다.
1. ChatGPT 란? - 명칭 분석
ChatGPT는 Chat-G(Generative)-P(Pre-trained)-T(Transformer)의 줄임말입니다.
1) Chat
Chat은 우리가 아는 바와 같이 대화를 뜻하며 이 모델이 대화형이라는 것을 알려줍니다. '대화형(chat)'이라는 특징이 ChatGPT가 대중에게 큰 호응을 얻은 가장 큰 이유입니다. 기존 검색 엔진의 방식과 전혀 다른 일상의 대화방식으로 인공지능과 대화하며 지식을 얻을 수 있고 일을 시킬 수가 있습니다. 잘 아는 지인에게 찾고자 하는 내용을 구체적으로 설명하는 것처럼 서술하는 채팅 방식으로 대화합니다. 또한 대화 창 안에서 질문과 요청을 통합한 혁신적인 사용자 경험(UX)을 제공하는 점이 ChatGPT의 놀라운 특징 중 하나입니다.
2) Generative
문자 그대로 '생성형'이라는 뜻이겠지요. ChatGPT가 생성형(Generative)이라는 것은 대규모 데이터 세트에서 학습한 내용을 기반으로 통계적 추론을 통해 콘텐츠를 생성한다는 뜻입니다. 특히 ChatGPT는 자연어로 입력받고 자연어로 대답하는 점에서 사용자 친화적인 획기적인 기술이라고 할 수 있습니다.
예를 들어, 특정 작가의 작문 스타일을 모방하는 법을 학습한 인공지능 작가가 있다고 생각할 수 있습니다. 사용자가 어떤 문장이나 단락을 제공하면 인공지능이 작가의 작문 스타일에 대한 지식을 활용하여 그 작가가 쓴 것처럼 보이는 새로운 글을 만들어 낼 수 있게 됩니다. ChatGPT는 이와 같은 방식으로 인터넷에 있는 방대한 양의 문서와 자료를 학습하였으며, 이러한 지식을 사용하여 '특정 작가가 쓴 것처럼 보이는 새로운 글을 생성할 수 있습니다.
물론 ChatGPT가 실제로 의식을 가지고 있거나 사용자가 말하는 내용을 이해하는 것은 아닙니다. 엄밀히 말하면 복잡한 계산 과정과 통계적 도구를 사용하여 학습된 데이터에서 발견한 규칙을 기반으로 통계와 확률에 따라 정답에 가까운 답변을 추론하여 내어 놓는 것에 불과합니다. 그럼에도 불구하고 우리가 ChatGPT가 생성형(Generative)이라는 사실에 주목하는 이유는 ChatGPT가 단순한 챗봇에 그치지 않고 언어 번역 및 문서 요약부터 가상 비서에 이르기까지 다양한 작업을 수행할 수 있기 때문입니다. 더욱이 생성형 AI인 ChatGPT는 새로운 데이터로부터 지속적으로 스스로 학습하고 개선하기 때문에 시간이 지남에 따라 답변이나 지시된 작업을 수행 능력이 더욱 정교하고 정확해지기 때문입니다.
3) Pre-trained
이 모델이 사전학습(Pre-trained)된 언어 모델임을 나타냅니다. 웹사이트, 책, 기사 등을 이용하여 방대한 학습량 데이터를 딥러닝 신경망 기법으로 사전에 학습하였다고 합니다. 이러한 학습의 과정에서 언어의 패턴과 관계를 이해하는 방법을 학습한 ChatGPT는 질문이 주어졌을 때 자연스러운 응답을 생성해 낼 수 있습니다.
GPT-3.5와 GPT-4 모델의 사전학습에 사용된 데이터는 2019년 9월까지의 온라인상에 공개된 문서나 논문, 기사, 위키백과 자료 등 45TB에 달하는 약 5조 개의 문서로, 거의 모든 종류의 데이터에 해당됩니다.
4) Transformer
'트랜스포머(Transformer)'는 인공지능 분야에서 사용되는 딥러닝(deep learning) 모델로 특히 자연어 처리(NLP, Natural Language Processing) 분야에서 혁신적인 성과를 이루어 내었습니다. 자연어처리(NLP)는 인간의 언어를 기계가 이해하고 처리할 수 있는 형태로 바꾸는 기술이며, 이러한 자연어 처리를 위한 인공지능 딥러닝 모델 중 가장 놀라운 진전을 보인 것이 트랜스포머(Transformer) 모델입니다.
트랜스포머(Transformer)는 문장이나 단어들의 구조와 의미를 파악하여 인간과 기계 간의 언어를 이해하고 추론하며 생성하는 가장 핵심적인 역할을 담당하고 있습니다. 앞 편에서 이야기했듯이 트랜스포머 모델은 2017년 구글 브레인(Google Brain) 팀이 공개한 논문 <Attention Is All You Need>에서 제안된 것이며, ChatGPT에 활용되어 자연어 처리 분야의 업그레이드에 중요한 역할을 한 것입니다.
트랜스포머(Transformer)의 자연어 처리 핵심 메커니즘 중 하나는 '셀프 어텐션(Self-Attention)입니다. 셀프 어텐션은 입력된 문장 내 각 단어들 사이의 관련성을 계산하는 기술입니다. 문장 내 각 단어가 다른 단어와 어떻게 연관되는지를 문장 생성 과정에서 파악하고 가중치를 부여하는 것입니다. 이 과정을 통해 하나의 대화 창 안에서 맥락을 이어 가는 매끄러운 답변을 작성할 수 있게 됩니다.
자연어 처리 분야에 사용되는 딥러닝 모델은 다양하며, 대표적인 모델로는 순환 신경망(RNN), 합성곱 신경망(CNN) 그리고 트랜스포머 모델 등이 있습니다. 트랜스포머는 기존 순환 신경망과 달리 입력 시퀀스를 한 번에 처리하기 때문에 병렬 처리가 가능하고, 긴 문장에 대한 처리도 빠르게 할 수 있다는 장점이 있어 최근에 자연어 처리에 가장 널리 사용되고 있습니다.
트랜스포머(Transformer) 모델은 자연어 처리 분야뿐만이 아니라 인공지능의 여러 분야에 활용 가치가 대단히 많은 모델로 인정받고 있습니다. (트랜스포머(Transformer) 모델에 관해서는 다음 편에서 보다 자세하고 구체적으로 공부하려고 합니다)
2. ChatGPT를 가능하게 한 기술들
인공지능 기술은 20세기 중반부터 많은 연구자들에 의해 연구되고 발전되어 온 오래된 주제입니다. OpenAI의 연구가 그간의 연구들과 큰 차이를 보이며 생성 AI 분야에 획기적으로 발전된 모습을 보이게 된 원인은 무엇보다 방대한 규모의 데이터 처리 능력에 있습니다. 오늘날 인공지능 연구는 과거에는 상상조차 할 수 없었던 인터넷 기반의 방대한 데이터(빅데이터)를 기반으로 대규모 데이터를 더 많은 파라미터로 빠르게 처리할 수 있는 컴퓨팅 능력을 가진 하드웨어 장치가 있어야 가능하기 때문입니다. ChatGPT를 가능하게 한 여러 가지 기술적인 요소들을 알아봅니다.
1) GPU의 발전
가장 중요한 요소 중의 하나는 그래픽 처리 장치(GPU, Graphic Processing Unit)의 발전입니다. ChatGPT는 수많은 연산을 수행해야 하기 때문에 빠른 학습 및 처리의 속도가 중요합니다. 이를 가능하게 한 것이 GPU분야의 발전으로, 대규모 데이터 세트의 병렬 처리를 가능하게 하여 딥러닝 모델의 학습 속도를 대폭 향상했습니다.
2) 딥러닝 알고리즘의 발전
딥러닝 알고리즘의 발전입니다. ChatGPT는 앞편에서 설명한 GAN(Generative Adversirial Network), VAE(Variational AutoEncoder) 그리고 트랜스포머(Transformer)와 같은 자연어 처리에 뛰어난 알고리즘을 바탕으로 학습하고 생성합니다. 이러한 답러닝 알고리즘의 발전으로 더욱 복잡하고 규모가 큰 데이터를 처리할 수 있게 되었습니다.
3) 컴퓨팅 파워의 향상
높은 컴퓨팅 파워(컴퓨터의 규모와 성능)가 가능해졌다는 것이 또 다른 중요한 요인입니다. ChatGPT는 매우 복잡한 딥러닝 모델로 수많은 가중치 계산이 필요합니다. 이러한 능력을 가진 컴퓨팅 파워의 인프라는 크라우드 컴퓨팅입니다. 네트워크를 통한 분산된 고성능 시스템은 초대형 연산을 가능하게 하였습니다.
2023.06.30 - [생성형 AI(Generative AI; GAI)] - ChatGPT의 개발 과정과 배경
'생성형 인공지능(Generative AI; GAI)' 카테고리의 다른 글
ChatGPT의 개발 과정과 배경 (0) | 2023.06.30 |
---|---|
인공 창조력의 실현: 생성형 인공지능(AI) 세계 탐구 (0) | 2023.06.23 |
댓글