- 머신 러닝 -> 지도 학습, 비지도 학습, 강화 학습
: 데이터를 이용하여 컴퓨터를 학습시키는 방법론
1) 지도 학습 (Supervised Learning)
: 특정 입력에 대하여 올바른 정답이 있는 데이터 집합이 주어지는 경우의 학습
-> 특정 입력에 대한 명시적인 답을 주고, 이를 학습시킨다. => (data, lable)
-> 입력과 출력이 주어지고, 둘의 관계를 통해 새로운 입력에 대한 결과를 예측한다.
- Training data set example.
(lable1에 대한 data, lable1), (lable2에 대한 data, lable2), (lable3에 대한 data, lable3), (lable4에 대한 data, lable4)
1] 위와 같은 트레이닝 데이터 셋 (training data set)을 주고 학습을 시킨다.
2] 트레이닝 데이터 셋 (training data set)으로 학습이 끝나면, 해당 데이터 셋에 포함되지 않은 테스트 데이터 셋 (test data set)을 이용해 학습 결과를 확인한다.
-> True detection? or False detection? (잘 구분했니?)
3] 지도 학습을 통해 예측을 하는 대상이 이산값 (discrete value) 일 경우 분류 (classification) 문제 // 연속값 (continuous value) 일 경우 회귀 (regression) 문제라고 한다.
1. 회귀 (Regression)
-> Output은 이산적이고 스칼라 값일 수 있지만 input에 대응하는 output을 분석하여 연속함수를 찾는 광정
2. 분류 (Classification)
-> 쉽게 binary 함수로 구분되는 값을 찾는 것이다. (물론 0과 1을 포함한 어떤 숫자던 discrete하게 data를
분리해 내는 값을 찾는 것을 말한다.)
-> 예를들어, Input data = {1,1,2,5,3,3,-1,-1,-2,-3,-2}와 Output data={1,1,1,1,1,0,0,0,0}이 주어졌다고 하자.
=> 우리는 쉽게 input data가 양수 일 때 output data가 1이고 input data가 음수 일 때 output data가
0 임을 알 수 있다
=> Input data를 output data를 기준으로 분류하면 1의 결과 값을 얻는다.
2) 비지도 학습 (Unsupervised Learning)
: 입력에 대한 명확한 정답이 주어지지 않는 데이터 집합에 대한 학습
-> data set을 cluster로 분류한다.
-> 답이 없기 때문에 피드백을 통한 보정이 어렵다.
-> 데이터의 숨겨진 특징이나 발견해볼까
3) 강화 학습 (Reinforcement Learning)
: 행동의 주체 (agent)가 주어진 환경 (state)에 대해 어떤 행동 (action)을 취한다. 이때 어떠한 보상 (reward)을 얻고, 이를 기준으로 학습을 진행한다.
-> Agent는 reward를 maximize 하도록학습이 진행된다.
-> 정적인 상태였던 위의 두가지 학습법과는 달리 동적인 상태 (dynamic environment)에서 데이터를 수집하는 과정을 포함한다.
출처 : http://solarisailab.com/archives/1785 // https://mangkyu.tistory.com/32
'Study > Reinforcement learning' 카테고리의 다른 글
강화학습_(7) - Markov Decision Process (MDP) (0) | 2019.11.07 |
---|---|
강화학습_(6) - Neural Network의 학습 방법 - Gradient descent, Back-propagation (0) | 2019.10.30 |
강화학습_(4) - Math Preliminary_2 (0) | 2019.10.23 |
강화학습_(4) - Math Preliminary_1 (0) | 2019.10.22 |
강화학습_(3) - 시그모이드 (Sigmoid)함수 정의 (0) | 2019.10.21 |