본문 바로가기
  • AI와 함께 세상을 아름답게
생성형 인공지능(Generative AI; GAI)/생성형 AI의 주요 기술 및 알고리즘

자연어처리(NLP) 알고리즘 - Word2Vec vs Transformer 모델

by neo-Lee 2023. 7. 6.

    Word2Vec은 인공 신경망을 사용하여 단어의 의미를 학습하는 기계학습 알고리즘입니다. Word2Vec은 단어의 빈도를 분석하여 단어의 의미를 학습하는 방법인 통계적 기법과는 달리 단어의 주변 단어를 분석하여 단어의 의미를 학습합니다. 

    단어의 의미를 파악하는 학습 방식에는 2가지 방법이 있습니다. 첫 번째 방식은 Skip-gram 방식입니다. Skip-gram 방식은 특정 단어(target word)를 기준으로 그 단어 주위에 있는 단어를 예측하는 방식입니다. 예를 들어, "집"이라는 단어를 기준으로 "사람", "마당", "주소"와 같은 단어를 예측합니다. 두 번째 방식은 CBOW(Continuous Bag of Words) 방식입니다. CBOW 방식은 특정 단어 주위에 있는 단어를 기준으로 그 단어(target word)를 예측하는 방식입니다. 예를 들어, "사람", "마당", "주소"와 같은 단어를 기준으로 "집"이라는 단어를 예측합니다. 

    Word2Vac은 단어의 의미를 학습하여 다양한 자연어 처리 작업에 사용할 수 있습니다. 예를 들어, 단어의 유사도를 측정하거나, 단어의 의미를 분류하거나, 단어의 의미를 생성하는 작업에 사용할 수 있습니다.

Word2Vec의 두가지 학습방식 (출처 : http://solarisailab.com)

1. Word2Vec 처리 과정

1) 토큰화(Tokenization)

    이것은 입력 문장(text)을 단어 또는 토큰(token)으로 분리하여 문장을 토큰화하는 과정입니다. 

    "나는 고양이를 좋아한다"라는 문장을 예를 들어 설명하겠습니다. 이 문장을  "나는", "고양이", "를", "좋아한다"라는 단어로 분리합니다. 한국어에는 명시적인 단어 경계가 없기 때문에 토큰화가 더 어려울 수도 있습니다. KoNLPy와 같은 라이브러리나 MeCab이라는 한국어 형태소 분석기를 사용하여 토큰화를 처리할 수도 있습니다.

2) 전처리(Preprocessing)

    토큰화 후에 불용어(stop word) ("and", "the" 등과 같은 의미와 상관없는 단어 또는 토큰) 및 구두점 제거, 단어를 소문자로 변환, 한국어의 경우 특정 요구 사항 처리와 같은 전처리(preprocessing)를 수행하는 것이 일반적입니다.

3) 교육 데이터 준비(Training Data Preparation)

    다음 단계는 Word2Vec용 교육 데이터를 준비하는 것입니다. 여기에는 신경망에 대한 입력으로 사용될 단어 쌍 또는 콘텍스트를 만드는 작업이 포함됩니다. 예를 들면, 앞서 설명한 바와 같이 CBOW에서 알고리즘은 주변 문맥 단어를 기반으로 타깃 단어를 예측하는 반면, Skip-gram에서는 알고리즘이 타깃 단어가 주어진 콘텍스트 단어를 예측합니다.

4) Word2Vec 모델 학습(training)

    교육 데이터가 준비되면 CBOW 또는 Skip-gram 알고리즘을 사용하여 Word2Vec 모델을 훈련할 수 있습니다. 이 모델은 신경망을 최적화하여 콘텍스트 단어 또는 대상 단어를 정확하게 예측하며 학습합니다. 예를 들어, "고양이"라는 단어의 주변 단어가 "사람", "집", "먹이"라면, "고양이"라는 단어는 "사람", "집" 그리고 "먹이"와 관련이 있는 단어라고 학습합니다.

5) 단어 임배딩(embedding) 얻기

    학습 후에 단어의 벡터 표현인 단어 임베딩을 얻을 수 있습니다. 이러한 임베딩은 유사성 및 유추와 같은 단어 간의 의미론적 관계를 파악합니다. 

6) 단어 임배딩(embedding)  활용

    마지막으로 앞에서 예를 든 "고양이"라는 단의의 임베딩을 사용하여 단어 유사성 계산, 문서 분류, 감정 분석 등과 같은 다양한 NLP 작업에 사용할 수 있습니다. 단어 임베딩은 이러한 작업을 효과적으로 수행하기 위해 다운스트림 모델 또는 알로리즘에 입력될 수 있습니다. 

2. Word2Vec과 Transformer 모델

    구글 Bard의 주요 모델인 Word2Vec 과 GPT3.5의 기반이 되는 트랜스포머 모델에 대해 간략하게 비교해서 살펴보겠습니 다. 기본적으로 Word2Vec과 Transformer는 목적과 기능이 다른 자연어처리(NLP)에 사용되는 두 가지 모델입니다. 특정 방식으로 함께 작동하도록 직접 관련되거나 설계되지는 않았습니다. 그러나 다양한 NLP작업에 함께 사용할 수는 있습니다.

[두 모델의 특징]

1) Word2Vec

     Word2Vec은 단어 임베딩을 학습하는데 널리 사용되는 알고리즘으로, 대규모 텍스트 코퍼스에서 동시 발생 패턴을 기반으로 의미 체계 및 문맥 관계를 캡처하는 단어의 벡터 표현입니다. Word2Vec은 의미론적 의미를 캡처하는 단어의 벡터 표현인 단어 임베딩을 생성하는 데 사용되는 알고리즘으로 대규모 텍스트 데이터 모음에서 신경망을 훈련하여 이러한 표현을 학습합니다. Word2Vec을 사용하여 단어를 숫자 벡터로 변환하여 단어와 단어의 의미 관계를 포함하는 계산을 수행할 수 있습니다.

2) 트랜스포머(Transformer) 모델

    Transformer 모델은 NLP 작업에 혁명을 일으킨 신경망 아키텍처입니다. 콘텍스트 정보를 효과적으로 캡처하기 위해 셀프 어텐션(self attention) 메커니즘에 의존합니다. 트랜스포머는 기계 번역, 언어 모델링, 질문 답변 등과 같은 작업에 자주 사용됩니다. 트랜스포머는 멀리 떨어진 단어(벡터)들 사이의 의존성을 포착하거나, 시퀀스에서 서로 다른 단어나 토큰 간의 관계를 포착하는데 탁월합니다. 

 

    정리하자면, Word2Vec 모델단어 수준 표현에 중점을 두는 반면에, 트랜스포머 모델문장 또는 문서 수준에서 작동합니다. 트랜스포머 모델의 변환기(transformers)는 전체 단어를 한꺼번에 처리하며, 주변 단어를 기반으로 각 단어의 콘텍스트 정보를 인코딩합니다. 변환기(transformers)의 어텐션(attention) 메커니즘은 입력 시퀀스 간의 연관성을 파악하고, 단어 간의 관계를 효과적으로 캡처할 수 있습니다. 

[두 모델을 함께 사용하는 방식]

1) Word2Vec을 사용한 사전 교육: Word2Vec은 트랜스포머 모델의 사전 교육 단계로 사용할 수 있습니다. Word2Vec을 사용하면 미리 훈련된 임베딩으로 Transformer의 단어 임베딩을 초기화할 수 있습니다. 이 초기화는 트랜스포머 모델에 좋은 시작점을 제공하고 특히 교육 데이터가 제한적인 경우 잠재적으로 성능을 향상할 수 있습니다.

2) 다운스트림 작업 중 통합: 트랜스포머 모델을 교육한 후 Word2Vec 임베딩을 활용하여 Transformer의 특정 구성 요소를 향상할 수 있습니다. 예를 들어 감정 분석 또는 명명된 엔티티 인식과 같은 작업을 위해 Transformer의 단어 임베딩과 함께 Word2Vec의 임베딩을 입력 기능으로 사용할 수 있습니다. 이 조합은 Transformer의 콘텍스트 정보와 Word2Vec의 의미(semantic) 정보를 모두 통합하여 모델의 성능을 향상할 수 있습니다.

 

    요약하면 Word2Vec와 Transformer는 별도의 모델이지만 특정 콘텍스트(contexts)에 함께 사용될 수도 있습니다. Word2Vec은 주로 단어 임베딩을 생성하는 데 사용되는 반면 Transformers는 문맥 정보를 캡처하고 일련의 단어에서 관계를 이해하는데 탁월합니다. 이들의 강점을 결합하여 특정 작업에 대한 자연어 처리 능력을 향상할 수 있을 것입니다.

 

2023.07.05 - [생성형 AI(Generative AI; GAI)] - ChatGPT의 핵심 기술 - 트랜스포머(Transformer)

728x90

댓글