Multi-modal - LXMERT, ViLBERT, Dall-e

728x90

지금까지는 텍스트로부터만 모델이 언어를 배우도록 했다. 사람이 언어를 학습할 때 시각, 음성, 텍스트가 복합적으로 작용하는 것 처럼 모델도 이미지, 음성 등의 데이터를 함께 학습하도록 하려는 연구도 많이 진행되고 있다.

1. LXMERT

cross-modal resoning language model

그림을 자세히 보면 자연어를 embedding한 정보와 이미지가 embedding된 정보간의 교환이 보인다.

bert와 구조는 똑같다. 다만 [SEP] 토큰 앞에는 자연어 토큰을 넣고 뒤에는 이미지에 대한 벡터를 넣어주었다.

영화의 포스터와 text를 보고 어떤 장르의 영화인가 분류하도록 하였다. multi-modal training이 적용된 모델이 더 좋은 성능을 보였다고 한다.

open-ai의 또 다른 작품이다. VQ-VAE를 통해 이미지를 축소하여 latent vector를 만들어낸다.

text token들이 모델의 input으로 들어가고 이미지의 latent vector를 출력하도록 학습시켰다.

728x90

Data Centric AI -Data Augmentation (0)	2024.01.22
Positional Encoding (1)	2024.01.19
Controllable LM - Plug and Play LM(PPLM) (0)	2024.01.18
XLNet, RoBERTa, BART, T5, Meena (0)	2024.01.18
GPT-3/GPT-4 and Latest Trend 2 (0)	2024.01.17