1. 해외 Datasets
GLUE : 9개의 NLP task를 위한 benchmark dataset을 제공한다.
SNLI(Stanford Natural Language Inference) : 주어진 문장들의 관계(contradiction, neutral, entailment) 구분
CoNLL : 영어, 독일어로 구성되어있는 NER dataset
TACRED : 대표적인 RE dataset
WMT : 기계번역에서 가장 유명한 데이터셋
Wizard-of-Oz : Dialogue System, 대화형 데이터셋
CNN/Daily Mail : Text summarization, 문서 요약을 위한 데이터셋
SQuAD : 문서, 질문, 답변 쌍으로 MRC를 위한 데이터셋
GEM : 생성모델을 위한 벤치마크 데이터셋들이 담겨있다
MMLU : 57개의 knowledge Intensive Tasks로 구성된 benchmark
Big Benchmark dataset : 200개 이상의 task를 수행할 수 있는 benchmark
2. 국내 Datasets
KorQuAD : LG CNS가 공개한 기계독해 benchmark set이다. MRC를 위해 문단, 질의, 정답을 한쌍으로 구성한 데이터셋이다.
KLUE : 다양한 NLP task(TC, DP, NLI, NER, RE, DST, MRC)를 위한 데이터들로 구성되어있다.
KorNLU : kakaobrain, 영어 문장 유사도 데이터셋을 한국어로 번역하여 공개했다.
KoBEST : SKT, 다양한 NLP task를 위한 데이터들로 구성되어있다. 하지만 KLUE와는 {sample, label}에서 차이가 존재한다.
모두의 말뭉치 : 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 공개 플랫폼이다. 국립국어원에서 제작하였다.
AI Hub : 다양한 task의 자연어 데이터셋 뿐만아니라 헬스케어, 영상, 교통물류, 음성 등 다양한 인공지능 학습데이터셋을 제공한다. NIA에 운영한다.
뉴스 빅데이터 : 한국언론진흥재단, 뉴스 데이터들이 모여있다. 제목, 기사분류, 개채명(인물, 지역)등이 담겨있다.
데이터 댐 : 국가주도로 구축한 데이터 셋이다. 데이터바우처 사업을 운영한다. 중소,스타트업등이 데이터를 통해 연구를 할 수 있도록 하는 환경을 구축하고자 하는 시도이다.
NSMC : Sentiment Movie Corpus, 영화 후기의 긍/부정 분류를 위한 데이터셋
Korean Comment Corpus : 한국어 댓글 데이터셋
Korean Hate Speech : 한국어 악플, 욕설 데이터셋
WordNet : 동의어, 하위어들의 관계를 그래프형식으로 구성한 데이터셋이다.
3. Multilingual Benchmark
영어같은 High resource language와 한국어같은 low resource language 간의 성능, 디지털 접근성 등의 격차를 줄이기 위해 만들어진 다국어 벤치마크 데이터셋이다.
'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글
Recent Works in Data Centric AI (0) | 2024.01.24 |
---|---|
NLP Datasets 2 (0) | 2024.01.23 |
Intro to Data Centric AI (0) | 2024.01.22 |
Data Centric AI -Data Augmentation (0) | 2024.01.22 |
Positional Encoding (0) | 2024.01.19 |