본문 바로가기

boostcamp AI tech/boostcamp AI

NLP Datasets 2

728x90

1. Hate Speech Detection

인종, 성적 지향, 종교, 성별 등에 따른 비하, 공격 언어를 탐지하는 문제이다.

대표적으로 HateXplain 데이터셋이 있다. 

이 데이터셋은 rationale이라는 annotation이 추가되어있다. 모델이 추론을 할때 그 추론이유를 알 수 없다는건 deep learning의 한계이다. 이런 문제를 해결할 수 있도록 모델이 Label을 유추할때 참고해야하는 중요한 정보들이 함께 dataset에 마킹(초록색 부분)되어있다.

 

한국어 데이터셋으로는 KOLD(Korean Offensive Language Dataset), APEACH, BEEP! 등이 있다.

 

2. Counter Speech Generation

잘못된 정보를 제공하는 가짜 뉴스들에 대해 모델이 반박하고 대응하여 상대방을 설득시키는 발화생성을 위한 연구들도 있다.

Generate, Prune, Select: A Pipeline for Counterspeech Generation against Online Hate Speech(Zhu et al., 2021)

잘못된 정보 검출을 넘어서 설득까지 할 수 있도록 모델을 학습시키는 framework를 제안한 논문이다.

ProsocialDialog: A Prosocial Backbone for Conversational Agent (Kim et al. 2022)

또한 대화 시스템이 사용자의 비윤리적, 문제적, 편향적 발화에 대해 올바른 행동을 장려하는 응답생성을 할 수 있도록 하는 데이터셋도 만들어졌다. (ProsocialDialog)

 

3. Sarcasm Detection

음성이나 텍스트에서 풍자적이나 비꼬는 말투를 탐지하는 것이다. 대표적으로 iSarcasm 데이터셋이 있다.

4. Fake News Detection

인터넷에서 유포되는 가짜 뉴스, 과정 정보들을 식별하여 분류하는 task이다. 대표적으로 LIAR 데이터셋이 있다.

5. Fact Checking

fake news detection과 유사한 면이 있다. 인터넷상에서 유포되는 정보가 진실인지 아닌지 분류하는 task이다. 대표적으로 FEVER 데이터셋이 있다. 현재 생성모델의 잘못된 정보 생성, hallucination을 검증하는데 활용할 수 있다.

6. Machine Translation

번역이라고하면 보통 한국어 -> 영어 이런 형태를 떠올리는게 일반적이지만 MT에도 다양한 하위 task가 있다.

QE(quality estimation) : 기계 번역 모델이 변환한 번역 품질을 평가하는 "모델을 학습시키는" 기술이다. 대표적으로 QUAK 데이터셋이 있다.

Can Automatic Post-Editing Improve NMT? (Chollampatt et al., 2020)

APE(Automatic Post-Editing) : 기계번역의 출력물을 자동으로 수정해주는 모델을 학습시키는 기술이다. SubEdits 대표적으로 데이터셋이 있다.

https://wmt-chat-task.github.io

Chat Translation : 게임 같은 곳에서 채팅 어투에 특화된 대화체 번역을 위한 데이터셋이다.

 

7. Persona-grouned Dialog 

사용자의 상황, 성격, 개인적인 특징(직업 등)을 고려하여 대화를 생성하는 모델을 만드는 것이다.

대표적인 데이터셋으로 PersonaChat이 있다. 

personal chat 뿐만 아니라 사용자의 감정적 상태나 위키피디아 문서등을 추가한 BotsTalk라는 데이터셋도 있다.

 

8. Persuasive Dialogue

상대방을 설득하기 위한 목적의 대화를 말한다. 기업의 상품, 서비스를 구매하도록 대화하는 봇을 만드는 곳에 활용할 수 있다. 

사용자가 건강 목표를 달성하도록 설득하는 task와 환경 보호를 위해 재활용을 하도록 설득하는 task를 위한 데이터셋으로 P4G(Persuation for Good)가 있다.

 

9. Dialogue Summarization 

대화 내용을 요약하는 task이다.

대표적으로 DialogSum이라는 데이터셋이 있다.

이건 samsung에서 제작한 SAMSum 데이터셋이다.

 

10. Knowledge-grouned Dialogue

pretrain model이 외부 지식을 활용하여 대화할 수 있도록 하는 것이다. 

대표적으로 Wizard of Wikipedia라는 데이터셋이 있다. 

대화에 맞는 적절한 search query가 함께 labeling 되어 있다.

 

11. Dialogue for Characters

예를들어 어떤 영화의 장면, 캐릭터 속성, 관계 같은 풍부한 컨텍스트 정보를 함께 제공하여 그 캐릭터와의 대화를 생성하는 것이다.

스토리 내 세계관이나 배경 정보를 반영한 캐릭터와 대화를 하는 것이다.

대표적으로 harry potter dialogue가 있다.

 

12. Empathetic Dialogue

상대방의 감정을 고려하여 공감하는 대답을 생성하는 것이다.

EmpatheticDialogues(ED) 데이터셋이다.

이건 DailyDialog 데이터셋이다.

 

13. Question Generation

지문과 목표 답변이 주어지면 질문을 생성하는 task이다. 교육 목적으로 활용될 수 있다. 예를들어 지문과 정답 키워드를 주면 질문들을 생성하도록 하여 문제은행을 만들 수 있다.

대표적으로 Question Generation for Question Answering(EMNLP 2017) 데이터셋이 있다. 이미 많은 QA 데이터셋에 질문 정답이 labeling 되어있기 때문에 Q를 생성하는 task를 위해 데이터셋을 쉽게 변형할 수 있다.

 

14. Document-level Relation Extraction

sentence level RE를 넘어서 document level로 확장한 task이다.

대표적으로 DocRED 데이터셋이 있다.

728x90
반응형

'boostcamp AI tech > boostcamp AI' 카테고리의 다른 글

Multi-Modal AI Dataset  (0) 2024.01.24
Recent Works in Data Centric AI  (0) 2024.01.24
NLP Datasets 1  (0) 2024.01.23
Intro to Data Centric AI  (0) 2024.01.22
Data Centric AI -Data Augmentation  (0) 2024.01.22