본문 바로가기
  • AI와 함께 세상을 아름답게
인공지능(AI)이란? - 기초 개념 및 이론

머신러닝 (Machine Learning)

by neo-Lee 2023. 5. 11.

   학습(learning)은 인간이나 생물에게서 나타나는 지적 활동 중 핵심적인 활동이고 특징이라고 할 수 있습니다. 인공지능(AI)에서 컴퓨터를 이용한 학습, 머신러닝(Machine Learning; ML)의 원리와 다양한 방법을 알아보려 합니다.

 1. 머신러닝의 학습이란?

     생물에게 학습(learning)이란 과거의 경험이나 지식에 의해 보다 나은 방법으로 환경에 적응하는 수단입니다. 인간에게도 학습은 매우 중요한 일이며, 우리도 여러 가지 교육과 경험을 통해 학습하고 있습니다. 학교에서 오랫동안 교육을 받을 뿐 아니라, 사람들과의 인간관계에서도 경험을 통해 많은 것을 학습합니다. 즉, 교육을 통해 과거의 지식을 전수받거나, 인간관계에서 대화와 실패의 경험을 통해서 더 나은 방법으로 사회의 구성원들과 상호작용하는 방법학습(Learning)하는 것이라 할 수 있겠습니다.

    머신러닝(Machine Learning)은 생물이나 사람들의 학습이 가진 이 같은 특성을 컴퓨터 프로그램으로 구현하는 기술입니다. 즉, 주어진 정보를 바탕으로 어떤 모델을 생성하고, 생성된 모델을 이용하여 더 좋은 방법으로 환경에 적응하는 과정을 머신러닝이라고 합니다. 그리고 머신러닝으로 생성된 모델을 지식(knowledge)이라고 합니다.

    머신러닝(Machine Learning)은 현대적 스프트웨어 시스템의 다양한 영역에서 이용되었습니다. 앞서 공부했던 바와 같이 스마트폰의 음성인식이나 이미지 인식, 얼굴인식 등의 시스템에 머신러닝이 응용되었습니다. 또한 기계번역, 온라인 쇼핑몰의 추천 기능 및 제어나 전문가 시스템에 응용하는 등 다양한 소프트웨어에 머신러닝 기술이 활용되고 있습니다.

 

2. 학습의 방식

    일반적으로 학습에는 연역적 학습(deductive learning)귀납적 학습(Inductive learning) 두 가지 접근방식이 존재합니다. 연역적 학습기초적인 추상적 개념에서 구체적인 지식을 도출하면서 학습을 진행합니다. 반면에 귀납적 학습복수의 구체적인 사실로부터 구체적인 지식을 이끌어냅니다.

    머신러닝에서는 특히 귀납적 학습 방식이 많이 사용됩니다. 1)에서 소개한 응용 사례들은 모두 귀납적 학습을 바탕으로 한 것입니다.  예를 들면 이미지 인식이나 얼굴인식의 경우에는 사전에 찍힌 것이 무엇인지 인식하는 이미지를 몇 개 준비해서 학습을 통해 인식에 관련된 구체적인 지식을 획득합니다. 또한 기계번역의 경우에는 번역할 언어와 번역될 언어의 문장을 준비해서 그 대응 관계를 학습합니다.

    귀납적 학습에서는 복수의 구체적인 사실에서 지식을 이끌어내기 때문에 학습을 위한 데이터세트가 필요합니다. 이런 데이터 세트를 학습 데이터세트(learning data set) 또는 훈련 데이터세트(training data set)라고 부릅니다. 학습 데이터세트의 형식은 다양합니다. 예를 들면 수치로 구성된 데이터, 글자나 문장 데이터, 이미지나 음성 또는 영상 데이터 등 여러 가지 형식의 데이터가 있습니다. 귀납적 학습에 기반을 둔 머신러닝 시스템은 이러한 데이터를 통해 구체적인 지식표현을 얻게 됩니다. 이렇게 얻어진 지식의 표현도 다양하여 수식에 근거한 것이라든지 규칙표현에 바탕을 두는 것 또는 신경망을 토대로 한 것 등 다양한 지식표현을 이용할 수 있습니다. 

    머신러닝 시스템에는 여러 가지  다양한 학습 방법이 활용되고 있습니다. 대표적인 방법으로는 K-인접기법, 결정 트리, 서포트 벡터 머신, 신경망, 딥러닝, 강화학습 등이 있습니다. 이 방법들의 개념은 다음 편에서 정리하고, 깊이 있는 내용은 앞으로 각 방법 별로 공부해 나가도록 하겠습니다. 학습 데이터의 표현 방법이나 지식표현의 방법 또는 학습 데이터의 내용이나 질, 량에 따라  학습 방법(적용 알고리즘)도 달라지는 것입니다. 따라서 어떤 학습 방법을 선택할지는 대상이 되는 문제에 따라 연구자나 개발자가 판단해야 할 것입니다.

 

3. 오컴의 면도날 법칙노 프리 런치 정리

    귀납적 학습을 할 때 머신러닝 분야에서는 오컴의 면도날(Ockham's Razor) 법칙이라고 불리는 기본 법칙이 통용되고 있습니다. 오컴은 13~14세기에 활약한 영국의 철학자입니다. 오컴의 면도날 법칙이란 '같은 현상을 설명하는 두 개의 주장이 있다면 간단한 쪽을 선택하라'는 원칙을 말합니다.

    머신러닝의 입장에서 오컴의 면도날을 해석하면 '똑같은 결과가 나올 경우 학습 결과로 얻은 표현은 가능한 한 단순한 쪽이 좋다'는 의미입니다. 예를 들어 주식시장에서 주가변동의 예측에 관한 지식을  얻고 싶다고 가정하고,  과거 주가 추이나 시장의 동향 또는 여러 가지 경제지표 등의 학습 데이터 중에서 10가지 규칙을 학습한 A모델과 30가지 규칙을 학습한 B모델에서 얻어진 지식의 수준이 동등한 예측 능력을 가진다면 더 단순한 쪽인 지식 모델 A를 선택해야 한다는 것이 오컴의 면도날 법칙입니다. 오컴의 면도날 법칙은 머신러닝의 다양한 상황에서 학습 결과의 평가나 학습 방범의 비교 규범으로 활용됩니다. 그러나 이 법칙은 지식 자체의 좋고 나쁨이나 학습 방범의 우열을 가리는 논리는 아닙니다. 어디까지나 똑같은 결과가 나온다면 단순한 쪽을 선택하는 것이  합리적이라는 주장입니다.

   앞에서 머신러닝에는 다양한 방법이 있다고 했습니다. 또 문제 또는 대상에 따라서 여러 가지 다양한 방법을 적용해야 한다고 했습니다. 그 이유를 증명한 것이 노 프리 런치 정리(No Free Luchch Theorem; NFL Therorm)입니다. 이 정리는 David Wolpert와 William Macready가 "The Lack of A Priori Distinctions between Learning Algorithms"란 논문에서 정리한 것으로, '대상이 되는 모든 문제의 평균값을 고려했을 경우 귀납적 머신러닝의 학습 방법은 어떤 방법을 써도  같은 값이 나온다'는 것을 증명한 것입니다.

노 프리 런치 정리학습 방법에 관한 것으로 '학습 대상에 상관없이 학습 성능을 항상 최고로 향상할 수 있는 최적의 학습 방법이란 원리적으로 존재하지 않는다는 것이며, 학습 대상의 성질이나 데이터의 성향에 따라 학습에 적절한 방법과 부적절한 학습 방법이 있다는 것입니다. 따라서 머신러닝에는 다양한 방법이 있으므로 대상이 되는 문제의 성질을 충분히 이해한 후에 적절한 학습 방법을 선택해야 하는 것입니다.

 

    이상으로 인공지능(AI) 학습의 개념과 원리에 대해 간략하게 정리해 보았습니다.

 

(다음 편에서는 '머신러닝 학습 방법과 몇 가지 개념'에 관해서 알아보겠습니다)

 

 

2023.05.10 - [인공지능(AI; Artificial Intelligence)] - 인공지능(AI)에 적합한 프로그래밍 언어

728x90

댓글