본문 바로가기

boostcamp AI tech/boostcamp AI

Multi-Modal AI Dataset

728x90

서로 다른 타입의 데이터들을 처리하는 분야이다. uni-modal의 한계를 극복하고자 한다. 

 

1. Multi Modal Dataset - GSM8K

Mathematical/Arithmetic Reasoning 이란 기본적인 산술 연산을 사용하여 초등/중등 수학문제에 대해 일련의 풀이과정을 통해 최종 답에 도출하는 task이다.

GSM8K라는 데이터셋은 초등학교 수학 문제를 담고 있는 데이터셋이다.

최근에는 여기에 image 데이터가 추가된 (solution은 없다) CLEVER-Math라는 Multi-modal 수학 문제 데이터셋이 등장했다.

2. Dataset 구축

그럼 multimodal을 위한 데이터셋은 어떻게 구축할 수 있을까?

 

위 연구에서는 텍스트 데이터와 관련된 이미지를 검색해서 찾은 후, 대화에 이어 붙여서 이미지가 추가된 Multi-modal Dialogu를 생성한다.

 

3. Multi Modal Dataset - DialogCC

이미지가 함께 들어있는 대화 데이터셋이다.

데이터셋을 구축한 방법은 위 논문을 참고하자.

 

4. MMDialog

social media에서 사람들이 나눈, 이미지가 포함된 대화 데이터셋이다. 한 대화에 평균 2.59개의 이미지가 포함되어 있다.

 

5. VE(Visual Entailment)

dialogue데이터셋만 있는 것은 아니다.

전제는 이미지 가설은 텍스트로 주어서 올바른 가설을 고르도록 하는 데이터셋이다.

 

6. VQA

이미지와 그 이미지에 대한 질문이 주어졌을 때, 답을 하는 모델을 위한 데이터셋이다.

 

7. VQG

VQA가 대답을 생성하기 위한 데이터셋이라면 VQG는 질문을 생성하기 위한 데이터셋이다.

이미지가 주어졌을 때, 물어볼 수 있는 질문을 생성하기 위한 데이터 셋이다.

 

8. TextVQA

이건 이미지에 있는 텍스트도 이해할 수 있는지?를 위한 데이터셋이다.

 

9. OK-VQA

외부 지식을 요하는 visual Question Answering Dataset이다.

 

10. Visual Dialog

11. VCR

이미지로부터 상식을 추론하는 데이터셋이다.

12. Winoground

13. TextCaps

14. FFHQ-Text

15. SumMe

비디오에서 summary를 생성하는 task를 위한 데이터셋이다.

16. MSR-VTT

17. VidLN

 

728x90
반응형

'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글

Intro to MRC(Machine Reading Comprehension)  (2) 2024.02.05
Boostcamp AI - week14, 15, 16  (0) 2024.02.05
Recent Works in Data Centric AI  (0) 2024.01.24
NLP Datasets 2  (0) 2024.01.23
NLP Datasets 1  (0) 2024.01.23