지난번에 이어서 NLP이론을 공부했다. 이번엔 Transformer에 대해 더 깊이 공부했다. 이전엔 attention에 집중했다면 이번에는 Transformer에 사용된 block들을 깊게 들여다보았다. positional encoding, layer norm, residual connection, learning rate scheduling, masked-self-attention, decoder를 살펴보았다. 작게 하나씩 쪼개 보고 여러 번 반복해서 공부하니 은근 별겨 아닌것 같다.
도 잠시...
논문 10개는 더 되는 많은 내용들을 듣고 정리하느라 머리가 또 터지는 한 주였다. GPT-1,2,3와 BERT에서 시작해서 ALBERT, ELECTRA까지, 적용된 기법들을 공부하는 중에 내가 놓치는 것은 없을까? 잘못 이해하지는 않았을까? 의심이 끊임없이 들었다. 어쨌든 다 흡수해보려고 애를 썼다.
모든 NLP task를 빠삭하게 알고 있어야 하는가? word2vec부터 transformer, GPT, BERT, ELECTRA 모든 구조를 다 달달 외우고 있어야 하는가?
이런 마음이 공부하다 잊어버리는 것을 두렵게 만들어서 앞으로 나아가는데 방해가 되는 것 같다.
내가 정말 좋아하고 잘 할 수 있는 task를 찾아야겠다는 생각이 든다.
Transformer - self attention : https://jsdysw.tistory.com/482
Transformer - Multi-Head attention : https://jsdysw.tistory.com/483
Self-Supervised Pre-training Model(GPT-1, BERT) : https://jsdysw.tistory.com/484
Self-Supervised Pre-training Model(GPT-2, GPT-3, ALBERT, ELECTRA) : https://jsdysw.tistory.com/485
GPT-3 and Latest Trend : https://jsdysw.tistory.com/492
'boostcamp AI tech > WeeklyReviews' 카테고리의 다른 글
Boostcamp AI - week8 (0) | 2023.12.26 |
---|---|
Boostcamp AI - week6,7 (0) | 2023.12.12 |
Boostcamp AI - week4 (0) | 2023.11.27 |
Boostcamp AI - week3 (1) | 2023.11.20 |
Boostcamp AI - week2 (0) | 2023.11.13 |