본문 바로가기

boostcamp AI tech/boostcamp AI

NLP Datasets 1

728x90

1. 해외 Datasets

GLUE : 9개의 NLP task를 위한 benchmark dataset을 제공한다.

SNLI(Stanford Natural Language Inference) : 주어진 문장들의 관계(contradiction, neutral, entailment) 구분

CoNLL : 영어, 독일어로 구성되어있는 NER dataset

TACRED : 대표적인 RE dataset

WMT : 기계번역에서 가장 유명한 데이터셋

Wizard-of-Oz : Dialogue System, 대화형 데이터셋

CNN/Daily Mail : Text summarization, 문서 요약을 위한 데이터셋

SQuAD : 문서, 질문, 답변 쌍으로 MRC를 위한 데이터셋

GEM : 생성모델을 위한 벤치마크 데이터셋들이 담겨있다

MMLU : 57개의 knowledge Intensive Tasks로 구성된 benchmark

Big Benchmark dataset : 200개 이상의 task를 수행할 수 있는 benchmark

 

2. 국내 Datasets

KorQuAD : LG CNS가 공개한 기계독해 benchmark set이다. MRC를 위해 문단, 질의, 정답을 한쌍으로 구성한 데이터셋이다.

KLUE : 다양한 NLP task(TC, DP, NLI, NER, RE, DST, MRC)를 위한 데이터들로 구성되어있다.

KorNLU : kakaobrain, 영어 문장 유사도 데이터셋을 한국어로 번역하여 공개했다.

KoBEST : SKT, 다양한 NLP task를 위한 데이터들로 구성되어있다. 하지만 KLUE와는 {sample, label}에서 차이가 존재한다.


모두의 말뭉치 : 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 공개 플랫폼이다. 국립국어원에서 제작하였다.

AI Hub : 다양한 task의 자연어 데이터셋 뿐만아니라 헬스케어, 영상, 교통물류, 음성 등 다양한 인공지능 학습데이터셋을 제공한다. NIA에 운영한다.

뉴스 빅데이터 : 한국언론진흥재단, 뉴스 데이터들이 모여있다. 제목, 기사분류, 개채명(인물, 지역)등이 담겨있다.

데이터 댐 : 국가주도로 구축한 데이터 셋이다. 데이터바우처 사업을 운영한다. 중소,스타트업등이 데이터를 통해 연구를 할 수 있도록 하는 환경을 구축하고자 하는 시도이다.


NSMC : Sentiment Movie Corpus, 영화 후기의 긍/부정 분류를 위한 데이터셋

Korean Comment Corpus : 한국어 댓글 데이터셋

Korean Hate Speech : 한국어 악플, 욕설 데이터셋

WordNet : 동의어, 하위어들의 관계를 그래프형식으로 구성한 데이터셋이다.

 

3. Multilingual Benchmark

영어같은 High resource language와 한국어같은 low resource language 간의 성능, 디지털 접근성 등의 격차를 줄이기 위해 만들어진 다국어 벤치마크 데이터셋이다.

https://ai.meta.com/research/no-language-left-behind/#research-milestones
https://ai.meta.com/research/no-language-left-behind/#research-milestones

 

728x90
반응형

'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글

Recent Works in Data Centric AI  (0) 2024.01.24
NLP Datasets 2  (0) 2024.01.23
Intro to Data Centric AI  (0) 2024.01.22
Data Centric AI -Data Augmentation  (0) 2024.01.22
Positional Encoding  (0) 2024.01.19