$P(H|E) = \frac{P(E|H)P(H)}{P(E)}$
이것을 이해 못하면 그냥 진도가 안나간다. (내가 그럼 ㅎ)
코쎄라에 좋은 강의가 있으니 한번 보면 좋을 듯 하다. https://www.coursera.org/learn/machine-learning-calculus
암튼 알았다 치고 일단 최종적인 딥러닝의 목표는 MAP이다. Posterior 를 높이는 것.
그것을 위해 일단 로그를 씌워보면
$logP(H|E) = log(P(E|H)) + log(P(H))$
posterior = likelihood + prior 이다.
각각 optimization 과 generalization이다.
이렇게 되니까 ML(Maximum Likelihood)와 Prior로 나눌 수 있다.
자. ML 은 likelihood를 최대화 시키는 것이다. 여기서 나오는 용어는
Cross Entropy loss 이다.
실제 값과 예측 값이 비슷한지 알기 위한 도구가 필요한 데 이것이 loss function이다.
그 중에서 cross entroy loss의 식은 다음과 같다.
$-E_{z\sim P_{z}}[log(p(Z|H)])$
또는
$H_{p,q}(X) = -\sum_{i=1}^{N}p(x_{i})log({q(x_i)})$
여기서 p는 예상값이고 q는 예측값
KL divergence
는 유사도 $D_{KL}(P||Q) = \sum_{x\in X}^{}P(x)log(\frac{P(x)}{Q(x)})$ 이다.
prior는 inductive bias를 주는 것이다.
어떤 특정 구조를 사용하라고 하는 것이 bias를 주는 것이다. RNN, transformer들이 그 예시다.
+ Jensen's Inequality
$Ef(X)\geq f(EX)$
근데 여기에 엄청 잘 설명되어 있다. ㅋㅋㅋ
https://modulabs.co.kr/blog/variational-inference-intro/
'딥러닝' 카테고리의 다른 글
Self Supervised Learning 찍먹 (1) | 2024.06.13 |
---|---|
Learning Fewer Labeled Examples (0) | 2024.06.13 |
Language Deep Learning 찍먹 (2) | 2024.06.13 |
MIT 6.S191 (2023): Convolutional Neural Networks (1) | 2024.06.07 |
MIT 6.S191 (2023): Recurrent Neural Networks, Transformers, and Attention (44:50~) (0) | 2024.06.07 |