NLP Datasets 1
1. 해외 Datasets
GLUE : 9개의 NLP task를 위한 benchmark dataset을 제공한다.
SNLI(Stanford Natural Language Inference) : 주어진 문장들의 관계(contradiction, neutral, entailment) 구분
CoNLL : 영어, 독일어로 구성되어있는 NER dataset
TACRED : 대표적인 RE dataset
WMT : 기계번역에서 가장 유명한 데이터셋
Wizard-of-Oz : Dialogue System, 대화형 데이터셋
CNN/Daily Mail : Text summarization, 문서 요약을 위한 데이터셋
SQuAD : 문서, 질문, 답변 쌍으로 MRC를 위한 데이터셋
GEM : 생성모델을 위한 벤치마크 데이터셋들이 담겨있다
MMLU : 57개의 knowledge Intensive Tasks로 구성된 benchmark
Big Benchmark dataset : 200개 이상의 task를 수행할 수 있는 benchmark
2. 국내 Datasets
KorQuAD : LG CNS가 공개한 기계독해 benchmark set이다. MRC를 위해 문단, 질의, 정답을 한쌍으로 구성한 데이터셋이다.
KLUE : 다양한 NLP task(TC, DP, NLI, NER, RE, DST, MRC)를 위한 데이터들로 구성되어있다.
KorNLU : kakaobrain, 영어 문장 유사도 데이터셋을 한국어로 번역하여 공개했다.
KoBEST : SKT, 다양한 NLP task를 위한 데이터들로 구성되어있다. 하지만 KLUE와는 {sample, label}에서 차이가 존재한다.
모두의 말뭉치 : 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 공개 플랫폼이다. 국립국어원에서 제작하였다.
AI Hub : 다양한 task의 자연어 데이터셋 뿐만아니라 헬스케어, 영상, 교통물류, 음성 등 다양한 인공지능 학습데이터셋을 제공한다. NIA에 운영한다.
뉴스 빅데이터 : 한국언론진흥재단, 뉴스 데이터들이 모여있다. 제목, 기사분류, 개채명(인물, 지역)등이 담겨있다.
데이터 댐 : 국가주도로 구축한 데이터 셋이다. 데이터바우처 사업을 운영한다. 중소,스타트업등이 데이터를 통해 연구를 할 수 있도록 하는 환경을 구축하고자 하는 시도이다.
NSMC : Sentiment Movie Corpus, 영화 후기의 긍/부정 분류를 위한 데이터셋
Korean Comment Corpus : 한국어 댓글 데이터셋
Korean Hate Speech : 한국어 악플, 욕설 데이터셋
WordNet : 동의어, 하위어들의 관계를 그래프형식으로 구성한 데이터셋이다.
3. Multilingual Benchmark
영어같은 High resource language와 한국어같은 low resource language 간의 성능, 디지털 접근성 등의 격차를 줄이기 위해 만들어진 다국어 벤치마크 데이터셋이다.