본문 바로가기
  • AI와 함께 세상을 아름답게
인공지능(AI)이란? - 기초 개념 및 이론

자연어처리(NLP; Natural Language Processing) - 음성인식 (5)

by neo-Lee 2023. 6. 5.

3. 음성인식

    음성인식(voice recognition, speech recognition)은 자연어처리 시스템에 문자 대신 음성으로 입력이 가능한 인식기술입니다. 즉, 음성인식(speech recognition)은 마이크 등의 입력장치를 통해 얻어진 음성 신호를 컴퓨터가 텍스트 등의 언어 데이터로 전환하는 기술입니다. 음성인식은 기본적으로는 음성을 사용한 문자 입력 방식을 개발하는 데서 출발하였습니다. 1952년 벨 연구소에서 단일 화자에 의한 숫자 인식기가 개발된 이후, 특정 화자의 음성 신호를 데이터로 전환하는 기술이 지속적으로 개발되어 왔습니다.

3.1 음성의 인식 

    아래 (그림 6)은 일반적인 음성인식 시스템의 구성 및 처리 절차를 나타낸 것입니다. 음성인식 시스템에 음성이 주어지면 음성에 포함된 음향신호의 특징을 추출합니다. 그리고 음향신호의 특징을 사전에 구축한 데이터베이스와 대조하고, 그 결과로 음성에 대응하는 단어나 문장을 출력합니다.

 

(그림 6) 음성인식 시스템의 구성 (*출처. 훤히*보이는 음성언어기술)

    음향신호의 특징을 파악하려면 시간축 또는 주파수축에서 분석을 해야 합니다. 그리고 추출한 음향신호의 특징량을 데이터베이스의 음향 모델(acoustic model)과 비교해 언어를 표현하는 음소를 결정합니다. 또한 음소의 배열로 단어열을 형성하기 위해 데이터베이스의 언어 모델(language mode)고 비교해 가장 확률이 높은 단어열을 생성하고 출력하는 것입니다.

 

    최근에는 이러한 처리를 하는데 딥러닝(deep learning) 기술이 적극적으로 이용되고 있습니다. 예를 들면 종래에는 단어를 구성하는 음소 배열 방법의 모델에 언어 모델인 n-gram이 이용되었지만, 최근에는 n-gram대신 순환신경망(RNN;Recurrent Neural Network), 특히 LSTM(Long Short Term Memory)을 적용해서 더욱 정밀한 인식 시스템을 구성하고 있습니다.

3.2. 음성응답 시스템

    음성응답 시스템음성으로 입력해서 조작이나 검색의 결과를 음성으로 출력하는 시스템입니다. 음성 인식과 반대로 텍스트 데이터를 음성 신호로 전환하는 기술을 음성합성이라 칭합니다.  음성응답 시스템음성인식 시스템음성 합성 시스템으로 구성됩니다.

    음성합성(speech synthesis)은 음성 인식과 반대로 텍스트 데이터를 음성 신호로 전환하는 기술입니다. 음성 합성 시스템의  예를 들면 음소를 조합한 음성을 합성하는 코퍼스방식 음성합성(corpus-based speech synthesis)이나 통계적으로 작성한 생성 모델을 이용한 통계 기반 파라미터 합성(statistical parametric speech synthesis) 등이 있습니다. 특히 통계 기반 파라미터 합성 방식은 음성인식의 경우와 마찬가지로 딥러닝(deep learning)을 적용하면서 최근에 합성 품질이 상당히 향상되었습니다.

 

3.2. 음성인식 서비스의 종류

    음성인식이 가장 적극적으로 활용되고 있는 분야는 음성인식 개인비서 서비스입니다. 음성인식 서비스 중 대표적인 것이 2011년에 출시된 애플의 음성 기반 개인비서 서비스인 ‘시리(Siri)’입니다. 시리 아이폰 사용자의 음성명령을 바탕으로 모바일 검색은 물론, 일정관리, 전화 걸기, 메모, 음악 재생 등 다양한 생활편의 서비스를 제공하는 개인비서 서비스입니다.

    애플의 시리 출시 이후, 구글은 ‘구글 나우(Google Now)’, 마이크로소프트는 ‘코타나(Cortana)’와 같은 음성인식 기반의 개인비서 서비스를 출시했으며, 일본의 NTT도코모는 ‘샤베테콘쉐루'라는 외국어 통역 서비스를 출시하기도 했습니다.

    국내에서도 네이버의 'CLOVA'를 비롯해 삼성전자나 LG전자 같은 스마트폰 제조사들도 ‘S보이스’나 ‘Q보이스’ 같은 서비스를 출시했습니다.

    

    최근에는 아마존이 ‘대시(Dash)’나 ‘에코(Echo)’와 같은 음성인식 기반의 서비스 장치(ServiceDevice)를 출시하고 있으며, 구글의 ‘온허브(OnHub)’처럼 음성인식 기반의 스마트홈 허브 장치들도 다양하게 출시되고 있습니다.

 

2023.06.03 - [인공지능(AI; Artificial Intelligence)] - 자연어처리(NLP; Natural Language Processing) - 딥러닝을 이용한 자연어처리 (4)

 

 

728x90

댓글