본문 바로가기

728x90

분류 전체보기

(430)
Generation-based MRC extraction-based MRC는 답변의 위치를 본문에서 찾는다. 즉 정답 토큰의 위치를 예측한다. 그래서 bert와 같은 ,seq2seq이 아닌, PLM에 Classifier를 부착해서 모델을 구성했다. 반면 generation-based mrc는 답변을 생성하는 task이다. 정답 텍스트 자체를 예측한다. 따라서 auto regressive 형태로 모델이 정답을 출력하게된다. seq2seq PLM 구조를 활용한다. (ex. bart, T5) 1. Pre-processing extraction-based mrc에서는 정답의 위치를 나타내는 answer_start 정보가 중요했다. 하지만 생성방식에서는 이를 제외한 question, answer면 충분하다. 우리가 생성모델을 사용할 것이기 때문에 e..
Extraction-based MRC pre-preocessing 단계에서 context와 question을 각각 word embedding한다. 모델은 context안에서 제일 확률이 높은 position을 예측한다. 후에 정답으로 변환할때는 start/end position의 span을 가져오면 될 것이다. extraction-based mrc에서는 답변을 생성하는 것이 아니라 정답의 위치를 예측하도록 학습된다. 1. Preprocessing 가장 먼저 tokenization을 거친다. 요즘은 Out Of Vocabulary를 해결하기위해 Byte Pair Encoding 방법론 중 하나인 WordPiece를 많이 사용한다. 자주 나오는 단어는 단어별로 쪼개질테지만 덜 자주 나오는 단어는 subword로 쪼개진다. [cls] 질문 [se..
Intro to MRC(Machine Reading Comprehension) 기계독해는 모델이 주어진 지문을 이해하고 사용자로부터 주어지는 질문에 대해 답을 찾는 것을 말한다. 모델의 언어이해능력을 평가할 수 있는 시험인 셈이다. 이는 인공지능 비서, 검색엔진에서 많이 활용되고 있다. 위 그림에서는 하나 생각된 가정이 있다. 질문과 관련된 지문이 이미 주어진 상황이라는 점이다. 모델이 수십 수백만개의 문서를 전부 다 읽기엔 무리가 있기 때문에 질의응답 시스템을 만들기 위해 두 단계로 시스템을 나누어 설계해보겠다. (1) 검색을 통해 관련된 문서들을 선별(Retrieve) (2) 기계독해 모델이 해당 문서들을 읽고 답변(Read) Open domain QA : 특정 주제나 도메인에 국한되지 않고, 다양한 일반 지식을 바탕으로 사용자의 질문에 답변을 제공하는 시스템 Passage R..
Boostcamp AI - week14, 15, 16 이번주는 MRC(기계독해)와 QA(질의응답) 분야에 대해 공부하고 리더보드 대회에 참가했다. ODQA를 구성하는 reader/retriever 개별 모델들에 대한 정확도를 향상과 evaluation을 구현했다. tf-idf를 활용한 sparse embedding 기반 retriever와 dense embedding 모델을 기반 retriever를 구현했다. reader모델의 answer 탐지 능력을 보완하기 위해 증강한 데이터셋으로 fine-tuning을 수행했다. end-to-end MRC evaluation을 수행했다. 과연 cls 토큰이 문장 전체를 대표할까? input에 대한 representation을 추출한 후 pooling layer (avg or max)를 수행하는 것이 더 나을 수도 있다..
Multi-Modal AI Dataset 서로 다른 타입의 데이터들을 처리하는 분야이다. uni-modal의 한계를 극복하고자 한다. 1. Multi Modal Dataset - GSM8K Mathematical/Arithmetic Reasoning 이란 기본적인 산술 연산을 사용하여 초등/중등 수학문제에 대해 일련의 풀이과정을 통해 최종 답에 도출하는 task이다. GSM8K라는 데이터셋은 초등학교 수학 문제를 담고 있는 데이터셋이다. 최근에는 여기에 image 데이터가 추가된 (solution은 없다) CLEVER-Math라는 Multi-modal 수학 문제 데이터셋이 등장했다. 2. Dataset 구축 그럼 multimodal을 위한 데이터셋은 어떻게 구축할 수 있을까? 위 연구에서는 텍스트 데이터와 관련된 이미지를 검색해서 찾은 후, 대..
Recent Works in Data Centric AI 0. Cross Lingual Transfer Learning 한국어 BERT를 만든다고 하면 비용과 시간이 많이 들것이다. 그렇다고 기존의 큰 multilingual pretrain model을 쓰기에는 한국어에서 성능이 기대보다 좋지 않을 수 있다. 그래서 영어 BERT를 활용해서 한국어에서도 잘 하도록 할 수 없을까?에 대한 시도이다. 언어가 갖는 공통점을 극대화 시켜보려는 방법이다. encoder 앞뒤에 adaptation layer를 추가하고 encoder는 freeze시킨다. 새로 추가된 layer는 영어-한국어의 차이를 학습하게 되는 셈이다. 이렇게 step1이 끝나면 frozen시킨 encoder도 풀어주고 다시 한국어 문장들로 학습을 시킨다. 실험을 해보니 상대적으로 굉장히 적은 양의 한..
NLP Datasets 2 1. Hate Speech Detection 인종, 성적 지향, 종교, 성별 등에 따른 비하, 공격 언어를 탐지하는 문제이다. 대표적으로 HateXplain 데이터셋이 있다. 이 데이터셋은 rationale이라는 annotation이 추가되어있다. 모델이 추론을 할때 그 추론이유를 알 수 없다는건 deep learning의 한계이다. 이런 문제를 해결할 수 있도록 모델이 Label을 유추할때 참고해야하는 중요한 정보들이 함께 dataset에 마킹(초록색 부분)되어있다. 한국어 데이터셋으로는 KOLD(Korean Offensive Language Dataset), APEACH, BEEP! 등이 있다. 2. Counter Speech Generation 잘못된 정보를 제공하는 가짜 뉴스들에 대해 모델이 반박..
NLP Datasets 1 1. 해외 Datasets GLUE : 9개의 NLP task를 위한 benchmark dataset을 제공한다. SNLI(Stanford Natural Language Inference) : 주어진 문장들의 관계(contradiction, neutral, entailment) 구분 CoNLL : 영어, 독일어로 구성되어있는 NER dataset TACRED : 대표적인 RE dataset WMT : 기계번역에서 가장 유명한 데이터셋 Wizard-of-Oz : Dialogue System, 대화형 데이터셋 CNN/Daily Mail : Text summarization, 문서 요약을 위한 데이터셋 SQuAD : 문서, 질문, 답변 쌍으로 MRC를 위한 데이터셋 GEM : 생성모델을 위한 벤치마크 데이터..

728x90