본문 바로가기
  • AI와 함께 세상을 아름답게

자연어처리7

ChatGPT의 자연어 처리(NLP) - 인코딩 프로세스(Encoding Process)와 토큰화(Tokenization) 과정 ChatGPT에 사용되는 모델은 Word2Vec과 다른 트랜스포머 아키텍처(Transformer Architecture)를 기반으로 합니다. 입력된 문장은 먼저 토큰화 과정을 거칩니다. 토큰화 과정을 거친 입력 문장은 변환기(transformer) 모델, 특히 GPT-3.5 아키텍처를 통해 처리된다고 합니다. 먼저 ChatGPT의 인코딩 프로세스에 대해 알아보고, 토큰화(Tokenization) 과정을 살펴보겠습니다. 1. ChatGPT의 인코딩 프로세스 개요 1) 토큰화(Tokenization) 입력 문장이나 텍스트를 토큰화하여 토큰(Token)이라는 더 작은 단위로 나눕니다. 이러한 토큰은 사용된 특정 토큰화 설계 방식에 따라 단어, 하위 단어 또는 문자를 나타낼 수 있습니다. 2) 위치 인코딩(Po.. 2023. 7. 10.
자연어처리(NLP; Natural Language Processing) - 음성인식 (5) 3. 음성인식 음성인식(voice recognition, speech recognition)은 자연어처리 시스템에 문자 대신 음성으로 입력이 가능한 인식기술입니다. 즉, 음성인식(speech recognition)은 마이크 등의 입력장치를 통해 얻어진 음성 신호를 컴퓨터가 텍스트 등의 언어 데이터로 전환하는 기술입니다. 음성인식은 기본적으로는 음성을 사용한 문자 입력 방식을 개발하는 데서 출발하였습니다. 1952년 벨 연구소에서 단일 화자에 의한 숫자 인식기가 개발된 이후, 특정 화자의 음성 신호를 데이터로 전환하는 기술이 지속적으로 개발되어 왔습니다. 3.1 음성의 인식 아래 (그림 6)은 일반적인 음성인식 시스템의 구성 및 처리 절차를 나타낸 것입니다. 음성인식 시스템에 음성이 주어지면 음성에 포함된.. 2023. 6. 5.
자연어처리(NLP; Natural Language Processing) - 통계적 처리 및 기계번역 (3) 1.4 의미 분석(semantic analysis) 의미 분석(semantic analysis)은 형태소 분석이나 구문 분석의 결과를 이용해서 자연어의 독립된 의미표현을 작성하는 과정입니다. 의미표현 방법으로는 필모어(Charles J. Fillmore)가 제창한 격문법(case grammar)이 유명합니다. 격문법에서는 주격이나 목적격 등 언어로 표현된 표층격(surface case)에서 언어에 의존하지 않는 심층격(deep case)을 추출해서 의미를 표현합니다. 아래 (표 1)은 표층격의 예입니다. (표 1) 격문법의 심층격 예 격의 명칭 설 명 행위주격(A) 행위의 주체 경험 주격(B) 행위의 영향을 받거나 경험하는 실체 도구격(I) 사건의 원인이나 자극을 주는 대상 대상격(O) 이동이나 변화의 .. 2023. 6. 2.
자연어처리(NLP; Natural Language Processing) - 종래형 자연어 처리 (1) 자연어 처리(NLP; Natural Language Processing)는 인공지능 연구의 주요 분야 중 하나로, 1950년대부터 기계번역과 같은 자연어 처리 기술이 연구되기 시작했습니다. 1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류가 되었으며, 최근에는 심층 기계 학습(딥러닝; deep learning) 기술이 기계 번역 및 자연어 생성 등에 적용되고 있습니다. 우선 용어를 정리하겠습니다. 한국어, 영어, 프랑스어 등과 같이 인간사회의 형성과 함께 자연발생적으로 생겨나고 세월의 흐름과 함께 진화하고 일상의 생활 속에서 서로 의사소통을 행하기 위한 수단으로써 사용되고 있는 언어 (language)를 자연어라고 합니다. 반면에 컴퓨터.. 2023. 5. 31.
인공지능(AI)과 인공 신경망(Artificial Neural Network) (3) 2023.05.21 - [인공지능(AI; Artificial Intelligence)] - 인공지능(AI)과 인공 신경망(Artificial Neural Network) (2) 5. 순환 신경망(Recurrent Neural Network; RNN) 앞에서 보았듯이 계층형 신경망은 입력에서 출력으로 한 방향으로만 계산하는 신경망입니다. 이에 반해 순환 신경망(recurrent neural network)은 출력으로 향하는 신호가 입력 쪽에 피드백되는 구조를 가진 신경망입니다. (아래 그림은 순환 신경망 구조의 예입니다) 지금까지 공부해 온 단순한 계층형의 신경망과는 달리 데이터의 전달 경로가 출력에서 입력 방향으로 향하는 구조의 신경망을 일반적으로 순환 신경망(Recurrent Neural NetworK.. 2023. 5. 22.
인공지능(AI) 연구의 분야 별 발전 과정 (3) 2023.05.08 - [분류 전체 보기] - 인공지능(AI) 연구의 분야 별 발전 과정 (2) 7. [2010년~] 딥러닝의 발견, 빅데이터 시대의 도래 1) 딥러닝이 이미지 인식분야에 혁신 이미지 인식, 즉 영상에 무엇이 찍혀 있는지를 판단하는 기술은 이미지 처리에 중요한 과제로 오래전부터 연구되어 왔습니다. 20세기에는 다양한 방법이 제안되어 표준 벤치마크 문제에 대한 인식의 정확도도 점점 향상되고 있었습니다. 세계적으로 이미지 인식 기술의 중요한 축을 형성하는 이미지 넷 대용량 영상 인식 대회(ILSVRC; Large Scale Visual Recognition Challenge)라는 세계 대회가 있습니다. ILSVRC에서 특정 이미지 데이터세트에 포함된 이미지가 무엇인지를 분류하는 과제에서 우승.. 2023. 5. 9.
우리 생활 및 산업에 인공지능(AI) 기술 활용 사례 오늘은 우리 주변에서 흔히 접할 수 있는 인공지능(AI) 기술을 활용한 사례들과 기반이 되는 기술들을 간략하게 정리해 보겠습니다. 1. 생활 속 인공지능 기술 응용 사례 1) 스마트폰 음성응답 시트템 전형적인 사례가 애플의 시리(Siri)와 같은 스마트폰 음성응답 시스템입니다. 스마트폰 음성응답 시스템은 자연어로 음성을 입력하면 키워드에 따라 정보를 검색하거나 스마트폰을 조작합니다. 또한 검색 결과나 조작의 결과를 문자나 음성의 형태로 사용자에게 응답합니다. 이러한 처리를 구현하려면 한국어나 영어와 같은 자연어로 입력된 음성을 단어로 인식하는 음성인식(Speech Recognition) 기술과 주어진 지시의 의미를 해석하는 자연어처리 기술이 사용됩니다. 또한 음성으로 응답할 때는 음성합성(Speech S.. 2023. 5. 6.
728x90