본문 바로가기

boostcamp AI tech/boostcamp AI

Representation Learning & Self Supervised Learning

728x90

1. Representation Learning

인간의 기호(symbol) 발명은 많은 것을 가능하게 했다. 단순히 눈 앞에 보이는 것을 추상화 해서 그리는 것을 넘어, 소리를 기록할 수 있는 음계, 세상의 법칙을 설명하는 수학과 물리가 탄생했다. 화학식 체계는 직접 분자를 합성하지 않아도 어떤 물질이 탄생하는지 예측할 수 있도록 해준다. 실제로 경험하지 않아도 많은 것을 가상의 기호 체계 안에서 구현할 수 있게 된 셈이다.

인터넷이라는 기술이 등장하고 나서 가히 데이터의 시대가 펼쳐졌다.

지금은 음성, 자연어, 이미지를 주로 다루지만 그보다 훨씬 많은 양의 sensor데이터가 수집되고 저장되고 있다. 

 

인간이 현상을 가상의 어떠한 symbol로 취하는 방식처럼 기계가 직접 데이터를 자기가 이해할 수 있는 형태로 변환하여 학습하는 것을 말한다. 

우리는 사과 사진을 보고 {color:'red', shape='round'....} 처럼 표현할 수 있겠지만 이제는 이런 사람에 의한 feature engineering을 하지 않는다. 기계가 직접 number형태로 embedding(or encoding)하고 사과 이미지를 이해한다.

 

2. Self-Supervised Learning

예전에는 tag된 데이터에 대해서 서로 다른 학습 방법과 모델 구조를 적용해 높은 성능을 얻는 방식으로 경쟁이 진행되었다면 이젠 tag가 없는 raw데이터로 학습하고 labeled data로 fine-tuning을 하는 방식이 SOTA를 찍고 있다.

BERT의 등장 이후로 self-supervised learning에 대한 연구가 폭발적으로 늘어나고있다.

 

Autoencoder(AE)는 encoder를 통해 모델이 데이터를 요약하고 거기서 출발해 decoder가 복원하는 구조이다. 

Meta에서 발표한 BART가 있다.

 

 

Contrasive(Siamese Network)는 동일한 사진을 약간 변형했을 때, 모델이 같은 의미로 대상을 이해할 수 있도록 학습하는 방식이다.

 

자연어처리에서도 contrasive 적용이 된다. sentence1, sentence2가 next sentence니? 하는 형태로, 문서 두개를 가지고 엄청 난 양의 학습 데이터를 만들 수 있다. next sentence? 문제를 풀 수 있게 되면 문서를 이해할 수 있게 되는 셈이다.

 

GAN도 self supervised learning을 가능하게 했다는 점에서 큰 의의가 있었다. 여기서 더 발전해서 generative-contrasive는 원래 데이터에 여러 방식으로 손상을 가하고 이를 복구하도록 모델을 학습시킨다. 이런 방식으로 이미지의 representation을 학습하는 것이다. openai의 달리, BERT도 이런 방식이 적용되었다고 볼 수 있다.

Electra
https://arxiv.org/pdf/2109.07258.pdf

이제는 self-supervised learning이 supervised learning의 성능을 뛰어 넘었고. 대량의 raw데이터로 학습하고 transfer learning을 적용하는 방식이 대세가 되었다.

 

728x90
반응형

'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글

BERT 복습  (1) 2024.01.10
NLP task : Relation Extraction  (0) 2024.01.03
GPT-3 and Latest Trend  (0) 2024.01.01
PyTorch Lightning Preview  (0) 2023.12.12
Introduction to NLP task  (0) 2023.12.12