728x90
지금까지는 텍스트로부터만 모델이 언어를 배우도록 했다. 사람이 언어를 학습할 때 시각, 음성, 텍스트가 복합적으로 작용하는 것 처럼 모델도 이미지, 음성 등의 데이터를 함께 학습하도록 하려는 연구도 많이 진행되고 있다.
1. LXMERT
cross-modal resoning language model
그림을 자세히 보면 자연어를 embedding한 정보와 이미지가 embedding된 정보간의 교환이 보인다.
2. ViLBERT
bert와 구조는 똑같다. 다만 [SEP] 토큰 앞에는 자연어 토큰을 넣고 뒤에는 이미지에 대한 벡터를 넣어주었다.
영화의 포스터와 text를 보고 어떤 장르의 영화인가 분류하도록 하였다. multi-modal training이 적용된 모델이 더 좋은 성능을 보였다고 한다.
3. Dall-e
open-ai의 또 다른 작품이다. VQ-VAE를 통해 이미지를 축소하여 latent vector를 만들어낸다.
text token들이 모델의 input으로 들어가고 이미지의 latent vector를 출력하도록 학습시켰다.
728x90
반응형
'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글
Data Centric AI -Data Augmentation (0) | 2024.01.22 |
---|---|
Positional Encoding (0) | 2024.01.19 |
Controllable LM - Plug and Play LM(PPLM) (0) | 2024.01.18 |
XLNet, RoBERTa, BART, T5, Meena (0) | 2024.01.18 |
GPT-3/GPT-4 and Latest Trend 2 (0) | 2024.01.17 |