본문 바로가기
  • AI와 함께 세상을 아름답게

NLP2

ChatGPT의 자연어 처리(NLP) - 인코딩 프로세스(Encoding Process)와 토큰화(Tokenization) 과정 ChatGPT에 사용되는 모델은 Word2Vec과 다른 트랜스포머 아키텍처(Transformer Architecture)를 기반으로 합니다. 입력된 문장은 먼저 토큰화 과정을 거칩니다. 토큰화 과정을 거친 입력 문장은 변환기(transformer) 모델, 특히 GPT-3.5 아키텍처를 통해 처리된다고 합니다. 먼저 ChatGPT의 인코딩 프로세스에 대해 알아보고, 토큰화(Tokenization) 과정을 살펴보겠습니다. 1. ChatGPT의 인코딩 프로세스 개요 1) 토큰화(Tokenization) 입력 문장이나 텍스트를 토큰화하여 토큰(Token)이라는 더 작은 단위로 나눕니다. 이러한 토큰은 사용된 특정 토큰화 설계 방식에 따라 단어, 하위 단어 또는 문자를 나타낼 수 있습니다. 2) 위치 인코딩(Po.. 2023. 7. 10.
자연어처리(NLP; Natural Language Processing) - 종래형 자연어 처리 (1) 자연어 처리(NLP; Natural Language Processing)는 인공지능 연구의 주요 분야 중 하나로, 1950년대부터 기계번역과 같은 자연어 처리 기술이 연구되기 시작했습니다. 1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류가 되었으며, 최근에는 심층 기계 학습(딥러닝; deep learning) 기술이 기계 번역 및 자연어 생성 등에 적용되고 있습니다. 우선 용어를 정리하겠습니다. 한국어, 영어, 프랑스어 등과 같이 인간사회의 형성과 함께 자연발생적으로 생겨나고 세월의 흐름과 함께 진화하고 일상의 생활 속에서 서로 의사소통을 행하기 위한 수단으로써 사용되고 있는 언어 (language)를 자연어라고 합니다. 반면에 컴퓨터.. 2023. 5. 31.
728x90