Long-Short Term Memory, GRU
Cell state는 기억해야할 필요가 있는 모든 정보를 담고 있는 벡터라면 hidden state는 현재 time step에서 예측값 layer의 입력으로 사용 될 벡터라고 할 수 있다. cell state의 많은 정보 중에서 지금 당장 필요한 정보만을 filtering한 벡터라고 볼 수 있다. {c_t, h_t} = LSTM(x_t, c_t-1, h_t-1) hidden state 계산 과정을 살펴보자. Wxh, Whh를 붙여서 W라고 하고 [xh]와 계산하는 것과 같다. x(h,1), h(h,1), Wxh(h,h), Whh(h,h) 이라고 하자. xh의 concat은 (2h,1)이다. Wxh, Whh의 concat은 (h,2h) input gate, forget gate, output gate, g..
Naive-Bayse Classifier
1. Bag-of-Words Sentence "I really like studying artificial intelligence" Vocabularies I = [1, 0, 0, 0, 0, 0] really = [0, 1, 0, 0, 0, 0] like = [0, 0, 1, 0, 0, 0] studying = [0, 0, 0, 1, 0, 0] artificial = [0, 0, 0, 0, 1, 0] intelligence = [0, 0, 0, 0, 0, 1] Bag-of-words vector "I really really like studying artificial intelligence" [1, 2, 1, 1, 1, 1] 2. Naive-Bayse Classifier document d, class..
Transformer
The Illustrated Transformer Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Russian, Spanish 1, Spanish 2, jalammar.github.io - 너무 중요하기 때문에 attention is all you need 논문 리뷰에서 자세히 추가로 다뤄보겠다. - 지금은 brief understanding을 목표로 한..