Transformer - self attention
Transformer The Illustrated Transformer Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Rus jsdysw.tistory.com 지난번에 이어서 한번 더 공부내용을 다시 정리해보려한다. input 단어의 embedding vector는 Wq, Wk, Wv 변환을 각각 거처서 query, key, value 벡터로 변환된다. ..
Long-Short Term Memory, GRU
Cell state는 기억해야할 필요가 있는 모든 정보를 담고 있는 벡터라면 hidden state는 현재 time step에서 예측값 layer의 입력으로 사용 될 벡터라고 할 수 있다. cell state의 많은 정보 중에서 지금 당장 필요한 정보만을 filtering한 벡터라고 볼 수 있다. {c_t, h_t} = LSTM(x_t, c_t-1, h_t-1) hidden state 계산 과정을 살펴보자. Wxh, Whh를 붙여서 W라고 하고 [xh]와 계산하는 것과 같다. x(h,1), h(h,1), Wxh(h,h), Whh(h,h) 이라고 하자. xh의 concat은 (2h,1)이다. Wxh, Whh의 concat은 (h,2h) input gate, forget gate, output gate, g..