분류 전체보기49 ChatGPT의 자연어 처리(NLP) - 인코딩 프로세스(Encoding Process)와 토큰화(Tokenization) 과정 ChatGPT에 사용되는 모델은 Word2Vec과 다른 트랜스포머 아키텍처(Transformer Architecture)를 기반으로 합니다. 입력된 문장은 먼저 토큰화 과정을 거칩니다. 토큰화 과정을 거친 입력 문장은 변환기(transformer) 모델, 특히 GPT-3.5 아키텍처를 통해 처리된다고 합니다. 먼저 ChatGPT의 인코딩 프로세스에 대해 알아보고, 토큰화(Tokenization) 과정을 살펴보겠습니다. 1. ChatGPT의 인코딩 프로세스 개요 1) 토큰화(Tokenization) 입력 문장이나 텍스트를 토큰화하여 토큰(Token)이라는 더 작은 단위로 나눕니다. 이러한 토큰은 사용된 특정 토큰화 설계 방식에 따라 단어, 하위 단어 또는 문자를 나타낼 수 있습니다. 2) 위치 인코딩(Po.. 2023. 7. 10. 자연어처리(NLP) 알고리즘 - Word2Vec vs Transformer 모델 Word2Vec은 인공 신경망을 사용하여 단어의 의미를 학습하는 기계학습 알고리즘입니다. Word2Vec은 단어의 빈도를 분석하여 단어의 의미를 학습하는 방법인 통계적 기법과는 달리 단어의 주변 단어를 분석하여 단어의 의미를 학습합니다. 단어의 의미를 파악하는 학습 방식에는 2가지 방법이 있습니다. 첫 번째 방식은 Skip-gram 방식입니다. Skip-gram 방식은 특정 단어(target word)를 기준으로 그 단어 주위에 있는 단어를 예측하는 방식입니다. 예를 들어, "집"이라는 단어를 기준으로 "사람", "마당", "주소"와 같은 단어를 예측합니다. 두 번째 방식은 CBOW(Continuous Bag of Words) 방식입니다. CBOW 방식은 특정 단어 주위에 있는 단어를 기준으로 그 단어(.. 2023. 7. 6. ChatGPT의 핵심 기술 - 트랜스포머(Transformer) 1. 트랜스포머란? 트랜스포머(Transformer)는 셀프 어텐션(self-attention) 기법을 사용하여 학습 속도를 빠르게 하고 메모리 문제를 해결한 인코더-디코더(encoder-decoder) 모델로서 2017년 구글 브레인(Google Brain) 팀의 연구원들이 공개한 논문 에서 제안되었습니다. 트랜스포머(Transformer)는 인공지능 분야에서 사용되는 딥러닝 모델로 자연어 처리(NLP, Natural Language Processing) 분야에서 혁신적인 성과를 이루었습니다. 이 모델은 RNN(순환 신경망)을 사용하지 않고 인코더-디코더 구조를 설계했음에도 성능이 RNN보다 우수하다고 평가됩니다. OpenAI사의 ChatGPT(Generative Pre-trained Transform.. 2023. 7. 5. ChatGPT 자세히 알아보기 오늘은 최근에 가장 많은 관심을 받고 있는 생성형 인공지능의 대표 모델인 ChatGPT에 대해 알아보고자 합니다. '대화 목적으로 개발한 언어 기반 생성형 인공지능 모델'인 GPT-3 기반 ChatGPT는 2022년 11월 30일 OpenAI에서 공개한 이후 선풍적인 인기를 끌며 수많은 가입자를 확보하였으나 실제 사용에 있어 많은 유해 정보 및 가짜 정보로 응답하는 경우가 많아 여러 가지 우려를 낳기도 했습니다. GPT-3 이후 OpenAI사는 2021년 9월까지 온라인상에 축적된 방대한 규모의 데이터를 기반으로 사전 학습된 대규모 GPT-4를 2023년 3월 공개하였습니다. GPT-4는 앞선 GPT-3 또는 GPT-3.5에 비교하여 추론 기능과 요약 성능, 언어 지원 능력이 크게 개선되었고, 유해 정보.. 2023. 7. 3. ChatGPT의 개발 과정과 배경 거대 언어 모델(LLM, Large Language Model)의 대표적인 모델인 ChatGPT의 개발 과정과 배경을 살펴보고자 합니다. ChatGPT의 배경이 되는 거대 언어 모델의 역사는 그리 오래지 않습니다. 거대 언어 모델(LLM)이 발전되어 현재의 ChatGPT에 이르는 과정을 연도 순으로, 그리고 단계적 발전에 기여한 기술과 모델들 중심으로 기술해 보겠습니다. 1. Word2 Vec (2012~ ) 거대 언어 모델(LLM)의 시작은 2012년 구글의 연구자들이라고 알려져 있습니다. 당시 일론 머스크(Elon Musk)는 한 언론과의 인터뷰에서 전 세계 핵심 AI 연구자들의 70% 이상이 구글에 속해 있다고 말한 바 있습니다. 실제로 구글에서는 대규모 데이터 세트와 분산 처리 기술을 결합하여, .. 2023. 6. 30. 생성형 AI의 주요 기술(2) - VAE(Variational Autoencoder) GAN과 함께 대표적인 Generative AI 모델인 VAE(Variational Autoencoder)에 대해 알아보겠습니다. 먼저 유사한 이름의 Autoencoder(자기부호화기)의 특징을 간략하게(자세한 사항은 이전 포스팅 2023.5.24일 자 참조) 알아보고, VAE와 GAN을 비교하여 각각의 장단점을 비교해 보도록 하겠습니다. 1. Autoencoder(자기부호화기) Autoencoder는 데이터를 압축하고 압축 해제하는 방법을 배우는 신경망 아키텍처 유형입니다. Autoencoder는 원래 비지도학습으로 차원 축소(dimensionality reduction)가 목적인 계승형 신경망입니다. Autoendocer는 인코더와 디코더로 구성됩니다. 인코더는 이미지와 같은 입력을 받아 잠재 공간이.. 2023. 6. 29. 생성형 AI의 주요 기술 (1) - GAN(Generative Adversarial Network, 생성적 대립 신경망) Generative AI의 한글 표현(용어)은 다양합니다. 저는 앞으로 '생성형 AI' 또는 '생성형 인공지능'으로 통일해서 쓰도록 하겠습니다. 또한 Generative Adversarial Network의 한글 이름도 '생성적 대립 신경망(GAN)'으로 부르겠습니다. 생성형 AI에 대해서 보다 구체적으로 알아보려 합니다. 우선적으로 최근에 괄목할만한 발전을 보이는 생성형 AI를 가능하게 하는 여러 가지 모델과 핵심적 technique(기술)들에 대해 공부합니다. 그 첫 번째로 이번 편에서는 생성적 대립 신경망(GAN, Generative Adversarial Network)의 원리와 관련된 윤리적 문제에 대해 자세히 알아보도록 하겠습니다. 1. 생성적 대립 신경망이란? 이안 굿펠로우(Ian Goodfe.. 2023. 6. 26. 인공 창조력의 실현: 생성형 인공지능(AI) 세계 탐구 생성형 인공지능(Generative AI) 분야는 놀라운 속도로 발전되고 확장되고 있으며, 우리가 기술을 인식하고 상호 작용하는 방식을 혁신하고 있습니다. 새롭고 독창적인 콘텐츠를 생성하는 능력을 갖춘 생성형 인공지능(GAI)은 기계 창의성을 여는 열쇠를 가지고 있는 듯합니다. 놀라울 정도로 사실적인 이미지부터 매혹적인 음악에 이르기까지 이 혁신적인 분야는 AI세계에 새로운 물결을 일으키고 있습니다. 생성형 인공지능은 인간의 창의성을 모방하는 알고리즘 및 모델의 개발에 중점을 둡니다. 기존의 데이터에만 의존하는 기존의 접근 방식과 달리 방대한 데이터세트에 내재된 패턴과 구조를 해석하여 새로운 콘텐츠를 생성합니다. 이렇게 혁신적인 분야에는 다양한 기술(techiniques)이 사용되고 있는데, 그중에서도 .. 2023. 6. 23. 인공지능의 미래와 관련되는 몇 가지 개념들 (2) - 심벌 그라운딩 & 싱귤래리티 3. 심벌 그라운딩 문제(the symbol grounding problem) 심벌 그라운딩 문제(the symbol grounding problem)는 기호로 나타낸 개념과 현실 세계를 어떻게 대응시킬지에 관한 문제입니다. 초기에 설명한 것처럼 기호처리를 기초로 한 인공지능 기술에서는 개념의 레이블(label)인 기호의 의미가 다른 기호와의 관련에 따라 기술됩니다. 기호 간의 관계를 기술하는 방법으로 의미 네트워크나 프레임 또는 프로덕션 룰이나 술어 등이 있습니다. 이렇게 인공지능의 모든 방법에서 기호의 의미는 다른 기호와의 관계에 의해 기술됩니다. 이에 비해 기호로 나타낸 개념을 인간이 어떻게 이해하는지를 생각해 보면 다른 기호와의 관계만이 아닌 현실 세계의 경험이나 오감에 근거한 감각과 같이 기호로.. 2023. 6. 16. 인공지능(AI)의 미래와 관련되는 몇 가지 개념들 (1) - 중국어 방, 프레임 문제 1. 강한 AI와 약한 AI - 중국어 방 인공지능 연구에서는 AI를 어떻게 보는지에 따라 '약한(weak AI)'와 '강한 AI'라는 두 가지 입장이 있습니다. 우리가 앞서 공부한 모든 인공지능의 알고리즘은 인간과 같은 생물의 지적 활동에서 힌트를 얻은 소프트웨어 기술이라는 전제를 하였습니다. 이것이 '약한 AI'의 관점입니다. 현재까지 인간이 만들어낸 인공지능이라고 불리는 것들은 모두 약한 인공지능이라고 볼 수 있습니다. 반대로 '강한 AI' 관점에서 보는 인공지능의 목표는 생물의 지성을 인공적으로 구현하는 것입니다. 두 가지 관점의 차이를 살펴보기 위한 사고실험으로 중국어 방(Chinese room argument)이 있습니다. *** 중국어 방(Chinese room) 중국어 방(Chinese r.. 2023. 6. 15. 이전 1 2 3 4 5 다음 728x90