강화학습_(5) - 머신 러닝 분류 - 지도 학습, 비지도 학습, 강화 학습

Study/Reinforcement learning · 2019. 10. 30. 21:26

 

 

- 머신 러닝 -> 지도 학습, 비지도 학습, 강화 학습

: 데이터를 이용하여 컴퓨터를 학습시키는 방법론

 

 

 

 

1) 지도 학습 (Supervised Learning)

: 특정 입력에 대하여 올바른 정답이 있는 데이터 집합이 주어지는 경우의 학습

-> 특정 입력에 대한 명시적인 답을 주고, 이를 학습시킨다. => (data, lable)

 

-> 입력과 출력이 주어지고, 둘의 관계를 통해 새로운 입력에 대한 결과를 예측한다.


- Training data set example.

(lable1에 대한 data, lable1), (lable2에 대한 data, lable2), (lable3에 대한 data, lable3), (lable4에 대한 data, lable4)

 

1] 위와 같은 트레이닝 데이터 셋 (training data set)을 주고 학습을 시킨다.

 

2] 트레이닝 데이터 셋 (training data set)으로 학습이 끝나면, 해당 데이터 셋에 포함되지 않은 테스트 데이터 셋 (test data set)을 이용해 학습 결과를 확인한다.

 

-> True detection? or False detection? (잘 구분했니?)

 

3] 지도 학습을 통해 예측을 하는 대상이 이산값 (discrete value) 일 경우 분류 (classification) 문제 // 연속값 (continuous value) 일 경우 회귀 (regression) 문제라고 한다.

 

          1. 회귀 (Regression)
              -> Output은 이산적이고 스칼라 값일 수 있지만 input에 대응하는 output을 분석하여 연속함수를 찾는 광정

 

          2. 분류 (Classification)
              -> 쉽게 binary 함수로 구분되는 값을 찾는 것이다. (물론 0과 1을 포함한 어떤 숫자던 discrete하게 data를

                  분리해 내는 값을 찾는 것을 말한다.)
              -> 예를들어, Input data = {1,1,2,5,3,3,-1,-1,-2,-3,-2}와 Output data={1,1,1,1,1,0,0,0,0}이 주어졌다고 하자.

                   => 우리는 쉽게 input data가 양수 일 때 output data가 1이고 input data가 음수 일 때 output data가

                         0 임을 알 수 있다

                   => Input data를 output data를 기준으로 분류하면 1의 결과 값을 얻는다. 

 

 

 

2) 비지도 학습 (Unsupervised Learning)

: 입력에 대한 명확한 정답이 주어지지 않는 데이터 집합에 대한 학습

 

-> data set을 cluster로 분류한다.

 

-> 답이 없기 때문에 피드백을 통한 보정이 어렵다.

 

-> 데이터의 숨겨진 특징이나 발견해볼까

 

 

 

3) 강화 학습 (Reinforcement Learning)

: 행동의 주체 (agent)가 주어진 환경 (state)에 대해 어떤 행동 (action)을 취한다. 이때 어떠한 보상 (reward)을 얻고, 이를 기준으로 학습을 진행한다.

 

-> Agent는 reward를 maximize 하도록학습이 진행된다.

 

-> 정적인 상태였던 위의 두가지 학습법과는 달리 동적인 상태 (dynamic environment)에서 데이터를 수집하는 과정을 포함한다. 

 

 

출처 : http://solarisailab.com/archives/1785 //  https://mangkyu.tistory.com/32

반응형