기계 학습에 대해서 스터디를 진행하였고, 내용을 정리하여 연재를 진행하려고 한다. 주된 참고 자료로는 케빈 머피의 저서인 Machine Learning: A Probabilistic Perspective을 활용하였다. 앞으로 꾸준히 스터디 자료를 업로드할 계획이다.
확률이란?
확률(Probability)는 두 가지 관점으로 해석할 수 있다. 먼저 첫 번째는 Frequentist Interpretation이다. Frequentist Interpretation
은 확률이 장기적으로 사건들의 발생 빈도를 나타낸다는 관점이다. 예를 들면, 만약 우리가 동전을 매우 많이 던진다면 우린 그 동전이 약 절반의 빈도수를 가지며 앞면을 나타낼 것이라고 기대할 수 있다.
그 다음으로는 Bayesian Interpretation
이다. Bayesian Interpretation에서는 확률이 무언가에 대한 우리의 불확실성을 정량화하는데 활용된다고 여기게 된다. 즉, 확률은 근본적으로 반복되는 시도와 관계있다기 보다는 사건에 정보와 관련되어 있다고 생각하는 관점이다. 예를 들면, 우리가 동전을 던지는 경우 다음 시도에서 앞면과 뒷면이 같은 가능성을 가진다고 믿을 수 있다. 이러한 믿음을 나타내는 것이 확률이라는 관점이 바로 Bayesian Interpretation이다.
확률을 표현하는 방식은 다음과 같이 정리할 수 있다:
: 사건 가 참일 확률- 예시: “내일 비가 올 것이다.”와 같은 형식의 Logical Expression은 사건
의 예시가 될 수 있다.
- 예시: “내일 비가 올 것이다.”와 같은 형식의 Logical Expression은 사건
: 사건 가 거짓일 확률 .
- 앞으로는 이진 사건 (Binary Event)의 형식으로 사건을 다룰 예정이며,
은 가 참, 는 가 거짓을 나타낸다.
이산 확률 변수
이진 사건은 이산 확률 변수 상태 공간
(State Space)라고 한다.
사건 확률 질량 함수
(Probability Mass Function, PMF)라고 부른다. PMF는 다음과 같은 성질을 갖고 있다:
. .
다양한 확률 연산
사건
여기서 상호 배타적
(Mutually Exclusive)인 경우는 다음과 같이
위에서 등장한 Joint Event 결합 확률
(Joint Probability)이라고 정의한다. 조건부 확률(Conditional Probability)
이러한 계산 방식을 확률의 곱셈 규칙
(Product Rule)이라고 한다.
방금 언급한 조건부 확률의 경우는 다음과 같이 정의한다. 조건부 확률
물론 여기에는
위에서 정의한 결합 확률, 조건부 확률을 바탕으로 유명한 정리인 Bayes Rule
을 확인할 수 있다:
추가적으로 주변 분포
(Marginal Distribution)는 다음과 같이 정의한다:
이 정의는 또한 확률의 덧셈 법칙
, 또는 전체 확률의 법칙
(Law of Total Probability)이라고 부른다.
확률의 덧셈 법칙을 확장하여 확률의 연쇄 법칙
을 확인할 수 있다:
Generative Classifier
분류 문제는 주어진 Feature Vector Class-conditional Density
라고 정의한다.
Class-conditional Density
여기서 Bayes Rule 및 Class-conditional Density를 활용하여 Generative Classifier
를 정의할 수 있다:
여기서
이 분류기가 Generative Classifier라고 불리는 이유는 Class-conditional Density 및 Class Prior
Generative Classifier를 활용하는 경우에서 가장 키포인트는 각 분류 기준에서 우리가 기대하는 데이터가 어떤 종류일지를 정의해주는 Class-conditional Density의 형태를 잘 찾는 것이 중요하다는 점이다.
사건의 독립
만약 어떤 사건
두 사건은 독립 사건
이라고 하고
또한 조건부 독립도 정의할 수 있다. 특정 사건 조건부 독립
이라고 정의한다. 즉 다음을 만족하는 경우를 조건부 독립이라고 한다:
조건부 독립은
조건부 독립에서는 다음과 같은 중요한 정리를 확인할 수 있다. 만약
이를 증명해보자. 먼저
그 다음으로
라고 할 수 있다. 이 때 WLOG 모든
라고 정의하자. 그러면 다음을 확인할 수 있다:
또한 다음도 마찬가지로 확인할 수 있다:
따라서:
연속 확률 변수
어떤 변수
- 사건
를 , 사건 를 , 사건 를 라고 정의하자. - 그렇다면,
인 것을 확인할 수 있다. - 만약
와 가 상호 배타적이라면:
여기서 함수 누적 분포 함수
(Cumulative Distribution Function, CDF)라고 한다. CDF를 활용하면
추가적으로 CDF 단조 증가 함수
(Monotonically Increasing Function)인 것에 주의하자. 이에 따라
만약 CDF
이 함수를 확률 밀도 함수
(Probability Density Function, PDF)라고 부른다. PDF를 통해서
평균, 분산, 공분산, 상관 계수
일반적으로 평균
으로 알려진 물리량은 여러 가지가 있다. 첫 번째로 Mean
이 있다. Mean은 표본 평균
(Sample Mean)의 줄임말이며 이에 따라 표본에 종속되는 물리량이다. 확률 변수
표본 평균은 표본에 대한 산술 평균
(Arithmetic Mean)이라고도 부른다. 이는 또한 Average
라고 부르기도 한다.
그 다음으로는 기대값
(Expectation)이다. 이산 확률 변수
만약
기대값은 모 평균
(Population Mean)이라고 부르기도 하며, 확률 변수에 대한 관찰 기대값이라고 생각할 수 있다. 또한 표본의 크기가 무한히 증가한다면 표본 평균은 점차 기대값으로 수렴한다.
앞으로 분산, 공분산, 상관관계의 정의는 모두 연속 확률 변수인 경우에 대해서만 하도록 한다. 이산 확률 변수의 경우에는 적분 연산 대신 합 연산으로 대체하면 된다.
분산
(Variance)은 확률 변수의 분포가 기대값으로부터 얼마나 멀리 퍼져 있는지에 대한 물리량이다. 확률 변수
추가적으로 분산의 계산은 다음과 같은 변형이 가능하다:
공분산
(Covariance)이란 2개의 확률 변수 사이의 선형적인 관계를 측정하는 물리량이다. 두 확률 변수
또한 이를 통해 주어진 확률 벡터
(Random Vector) 공분산 행렬
(Covariance Matrix)는 다음과 같은 Positive Definite인 대칭 행렬(Symmetric Matrix)로 정의된다:
공분산은 상관 계수
(Correlation Coefficient)를 정의한다.
두 확률 변수
물론 마찬가지로 확률 벡터 상관 행렬
(Correlation Matrix)
변수의 변환
확률 변수의 분포를 다루다보면 변수의 변환
에 대한 분포가 어떻게 될지에 대해서 고민하게 될 수 있다. 즉, 주어진 확률 벡터
가장 기본적인 변환으로는 선형 변환
(Linear Transformation)을 들 수 있다. 주어진 확률 벡터
만약
다음을 만족한다:
그렇다면 선형 변환이 아닌 일반적인 변환
(General Transformation)에 대해서는 어떨까? 만약 확률 변수
즉
하지만 만약
만약 단조 증가 함수
라면
위 결과를 미분하여
만약 반대로 단조 감소 함수
라면:
따라서, 만약 단조 함수
라면:
이를 Change of Variables Formula
를 유도할 수 있다. 만약 함수
여기서 Jacobian Matrix
이다.
일반적으로 확률 변수의 변환에 대한 분포를 계산하는 과정에서 Change of Variable Formula를 사용하는 것은 상당히 어렵다. 이를 아주 간단하지만 강력한 수단을 통해서 대체가 가능한데 이 방법이 Monte Carlo Approximation
이다.
Monte Carlo Approximation을 사용하기 위해서는 먼저 경험적 분포
(Empirical Distribution)를 활용하여
참고 자료
수정 사항
- 2022.06.25
- 최초 게제
- 2022.06.27
- 이산 확률 변수 내용 정리
- 2022.07.01
- 다양한 확률 연산 내용 정리
- 2022.07.09
- Generative Classifier 내용 정리
- 2022.07.11
- 사건의 독립 내용 정리
- 2022.07.17
- 연속 확률 변수 내용 정리
- 평균, 분산, 공분산, 상관 계수 내용 정리
- 변수의 변환 내용 정리
- 2023.01.07
- 조건부 독립 정리 증명 잘못된 부분 수정