본문 바로가기

boostcamp AI tech/WeeklyReviews

Boostcamp AI - week5

728x90

지난번에 이어서 NLP이론을 공부했다. 이번엔 Transformer에 대해 더 깊이 공부했다. 이전엔 attention에 집중했다면 이번에는 Transformer에 사용된 block들을 깊게 들여다보았다. positional encoding, layer norm, residual connection, learning rate scheduling, masked-self-attention, decoder를 살펴보았다. 작게 하나씩 쪼개 보고 여러 번 반복해서 공부하니 은근 별겨 아닌것 같다.

도 잠시...

논문 10개는 더 되는 많은 내용들을 듣고 정리하느라 머리가 또 터지는 한 주였다. GPT-1,2,3와 BERT에서 시작해서 ALBERT, ELECTRA까지, 적용된 기법들을 공부하는 중에 내가 놓치는 것은 없을까? 잘못 이해하지는 않았을까? 의심이 끊임없이 들었다. 어쨌든 다 흡수해보려고 애를 썼다. 

 

모든 NLP task를 빠삭하게 알고 있어야 하는가? word2vec부터 transformer, GPT, BERT, ELECTRA 모든 구조를 다 달달 외우고 있어야 하는가?

이런 마음이 공부하다 잊어버리는 것을 두렵게 만들어서 앞으로 나아가는데 방해가 되는 것 같다. 

내가 정말 좋아하고 잘 할 수 있는 task를 찾아야겠다는 생각이 든다.

 


Transformer - self attention : https://jsdysw.tistory.com/482

Transformer - Multi-Head attention : https://jsdysw.tistory.com/483

Self-Supervised Pre-training Model(GPT-1, BERT) : https://jsdysw.tistory.com/484

Self-Supervised Pre-training Model(GPT-2, GPT-3, ALBERT, ELECTRA) : https://jsdysw.tistory.com/485

GPT-3 and Latest Trend : https://jsdysw.tistory.com/492

728x90
반응형

'boostcamp AI tech > WeeklyReviews' 카테고리의 다른 글

Boostcamp AI - week8  (0) 2023.12.26
Boostcamp AI - week6,7  (0) 2023.12.12
Boostcamp AI - week4  (0) 2023.11.27
Boostcamp AI - week3  (1) 2023.11.20
Boostcamp AI - week2  (0) 2023.11.13