서로 다른 타입의 데이터들을 처리하는 분야이다. uni-modal의 한계를 극복하고자 한다.
1. Multi Modal Dataset - GSM8K
Mathematical/Arithmetic Reasoning 이란 기본적인 산술 연산을 사용하여 초등/중등 수학문제에 대해 일련의 풀이과정을 통해 최종 답에 도출하는 task이다.
GSM8K라는 데이터셋은 초등학교 수학 문제를 담고 있는 데이터셋이다.
최근에는 여기에 image 데이터가 추가된 (solution은 없다) CLEVER-Math라는 Multi-modal 수학 문제 데이터셋이 등장했다.
2. Dataset 구축
그럼 multimodal을 위한 데이터셋은 어떻게 구축할 수 있을까?
위 연구에서는 텍스트 데이터와 관련된 이미지를 검색해서 찾은 후, 대화에 이어 붙여서 이미지가 추가된 Multi-modal Dialogu를 생성한다.
3. Multi Modal Dataset - DialogCC
이미지가 함께 들어있는 대화 데이터셋이다.
데이터셋을 구축한 방법은 위 논문을 참고하자.
4. MMDialog
social media에서 사람들이 나눈, 이미지가 포함된 대화 데이터셋이다. 한 대화에 평균 2.59개의 이미지가 포함되어 있다.
5. VE(Visual Entailment)
dialogue데이터셋만 있는 것은 아니다.
전제는 이미지 가설은 텍스트로 주어서 올바른 가설을 고르도록 하는 데이터셋이다.
6. VQA
이미지와 그 이미지에 대한 질문이 주어졌을 때, 답을 하는 모델을 위한 데이터셋이다.
7. VQG
VQA가 대답을 생성하기 위한 데이터셋이라면 VQG는 질문을 생성하기 위한 데이터셋이다.
이미지가 주어졌을 때, 물어볼 수 있는 질문을 생성하기 위한 데이터 셋이다.
8. TextVQA
이건 이미지에 있는 텍스트도 이해할 수 있는지?를 위한 데이터셋이다.
9. OK-VQA
외부 지식을 요하는 visual Question Answering Dataset이다.
10. Visual Dialog
11. VCR
이미지로부터 상식을 추론하는 데이터셋이다.
12. Winoground
13. TextCaps
14. FFHQ-Text
15. SumMe
비디오에서 summary를 생성하는 task를 위한 데이터셋이다.
16. MSR-VTT
17. VidLN
'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글
Intro to MRC(Machine Reading Comprehension) (2) | 2024.02.05 |
---|---|
Boostcamp AI - week14, 15, 16 (0) | 2024.02.05 |
Recent Works in Data Centric AI (0) | 2024.01.24 |
NLP Datasets 2 (0) | 2024.01.23 |
NLP Datasets 1 (0) | 2024.01.23 |