본문 바로가기

728x90

boostcamp AI tech/boostcamp AI

(64)
Multi-Modal AI Dataset 서로 다른 타입의 데이터들을 처리하는 분야이다. uni-modal의 한계를 극복하고자 한다. 1. Multi Modal Dataset - GSM8K Mathematical/Arithmetic Reasoning 이란 기본적인 산술 연산을 사용하여 초등/중등 수학문제에 대해 일련의 풀이과정을 통해 최종 답에 도출하는 task이다. GSM8K라는 데이터셋은 초등학교 수학 문제를 담고 있는 데이터셋이다. 최근에는 여기에 image 데이터가 추가된 (solution은 없다) CLEVER-Math라는 Multi-modal 수학 문제 데이터셋이 등장했다. 2. Dataset 구축 그럼 multimodal을 위한 데이터셋은 어떻게 구축할 수 있을까? 위 연구에서는 텍스트 데이터와 관련된 이미지를 검색해서 찾은 후, 대..
Recent Works in Data Centric AI 0. Cross Lingual Transfer Learning 한국어 BERT를 만든다고 하면 비용과 시간이 많이 들것이다. 그렇다고 기존의 큰 multilingual pretrain model을 쓰기에는 한국어에서 성능이 기대보다 좋지 않을 수 있다. 그래서 영어 BERT를 활용해서 한국어에서도 잘 하도록 할 수 없을까?에 대한 시도이다. 언어가 갖는 공통점을 극대화 시켜보려는 방법이다. encoder 앞뒤에 adaptation layer를 추가하고 encoder는 freeze시킨다. 새로 추가된 layer는 영어-한국어의 차이를 학습하게 되는 셈이다. 이렇게 step1이 끝나면 frozen시킨 encoder도 풀어주고 다시 한국어 문장들로 학습을 시킨다. 실험을 해보니 상대적으로 굉장히 적은 양의 한..
NLP Datasets 2 1. Hate Speech Detection 인종, 성적 지향, 종교, 성별 등에 따른 비하, 공격 언어를 탐지하는 문제이다. 대표적으로 HateXplain 데이터셋이 있다. 이 데이터셋은 rationale이라는 annotation이 추가되어있다. 모델이 추론을 할때 그 추론이유를 알 수 없다는건 deep learning의 한계이다. 이런 문제를 해결할 수 있도록 모델이 Label을 유추할때 참고해야하는 중요한 정보들이 함께 dataset에 마킹(초록색 부분)되어있다. 한국어 데이터셋으로는 KOLD(Korean Offensive Language Dataset), APEACH, BEEP! 등이 있다. 2. Counter Speech Generation 잘못된 정보를 제공하는 가짜 뉴스들에 대해 모델이 반박..
NLP Datasets 1 1. 해외 Datasets GLUE : 9개의 NLP task를 위한 benchmark dataset을 제공한다. SNLI(Stanford Natural Language Inference) : 주어진 문장들의 관계(contradiction, neutral, entailment) 구분 CoNLL : 영어, 독일어로 구성되어있는 NER dataset TACRED : 대표적인 RE dataset WMT : 기계번역에서 가장 유명한 데이터셋 Wizard-of-Oz : Dialogue System, 대화형 데이터셋 CNN/Daily Mail : Text summarization, 문서 요약을 위한 데이터셋 SQuAD : 문서, 질문, 답변 쌍으로 MRC를 위한 데이터셋 GEM : 생성모델을 위한 벤치마크 데이터..
Intro to Data Centric AI 흔히 모델의 성능을 높이려고 하면 많은 model centric 기법들을 적용하는걸 떠올리기 쉽다. 하지만 data-centric기법만으로 코드를 수정하지 않고 모델의 성능을 높일 수 있다. 훨씬 효율적으로 큰 폭의 향상도 가능하다. 실제로 AI 프로젝트를 진행하면 데이터에 관한 일에 소요되는 시간이 훨씬 많다. 실제로 구글에서 공개한 Hidden Technical Debt in Machine Learning Systems라는 논문을 보면 정말 많은 시간과 자원이 데이터와 모델 서빙을 위한 작업에 소요됨을 알 수 있다. 이는 결국 데이터에 대한 중요성이 매우 크다는 말의 다른 표현이기도 하다. 1. Data-flywheel 그럼 현업에서는 데이터를 어떻게 수집하는가? data-flywheel이란 기업이 ..
Data Centric AI -Data Augmentation 모델의 구조를 바꾸지 않고 오로지 학습 데이터를 가공하는 것만으로 모델의 성능을 끌어올릴 수 있다. Generation Model (GPT3, T5, ChatGPT, GPT-4 등)을 통한 Synthetic Data 생성 Data Augmentation Data sampling negative sampling Data Quality Control Data labeling error detection, Data Cleaning, Data Filtering 1. Data augmentation - simple ways 기초적인 증강으로 가장 쉽게 떠올릴 수 있는건 label을 유지하면서 text를 살짝 바꿔보는 것이다. 1) paraphrasing 원문의 의미를 최대한 유지하면서 변형하는 것이다. - Wor..
Positional Encoding Transformer - Multi-Head attention 1. Multi-head attention self-attention을 유연하게 더 확장한 multihead attention에 대해 알아본다. 그림에서 보면 중첩된 블럭들이 보인다. self-attention에서는 한번 Q, K, V쌍이 만들어지고 attention 블럭을 한번 jsdysw.tistory.com LLM들의 약점으로 손꼽히는 것 중 하나는 long sequence를 잘 처리하지 못한다는 것이다. 이에 따라 positional encoding에 대한 연구들도 많이 이루어지고 있고 mamba는 아예 transformer구조 자체를 바꾸려는 시도도 하고 있다. 지난 시간 간략히 알아본 positional encoding에 대해 더 ..
Multi-modal - LXMERT, ViLBERT, Dall-e 지금까지는 텍스트로부터만 모델이 언어를 배우도록 했다. 사람이 언어를 학습할 때 시각, 음성, 텍스트가 복합적으로 작용하는 것 처럼 모델도 이미지, 음성 등의 데이터를 함께 학습하도록 하려는 연구도 많이 진행되고 있다. 1. LXMERT cross-modal resoning language model 그림을 자세히 보면 자연어를 embedding한 정보와 이미지가 embedding된 정보간의 교환이 보인다. 2. ViLBERT bert와 구조는 똑같다. 다만 [SEP] 토큰 앞에는 자연어 토큰을 넣고 뒤에는 이미지에 대한 벡터를 넣어주었다. 영화의 포스터와 text를 보고 어떤 장르의 영화인가 분류하도록 하였다. multi-modal training이 적용된 모델이 더 좋은 성능을 보였다고 한다. 3. ..

728x90