본문 바로가기

728x90

boostcamp AI tech

(73)

Multi-modal - LXMERT, ViLBERT, Dall-e 지금까지는 텍스트로부터만 모델이 언어를 배우도록 했다. 사람이 언어를 학습할 때 시각, 음성, 텍스트가 복합적으로 작용하는 것 처럼 모델도 이미지, 음성 등의 데이터를 함께 학습하도록 하려는 연구도 많이 진행되고 있다. 1. LXMERT cross-modal resoning language model 그림을 자세히 보면 자연어를 embedding한 정보와 이미지가 embedding된 정보간의 교환이 보인다. 2. ViLBERT bert와 구조는 똑같다. 다만 [SEP] 토큰 앞에는 자연어 토큰을 넣고 뒤에는 이미지에 대한 벡터를 넣어주었다. 영화의 포스터와 text를 보고 어떤 장르의 영화인가 분류하도록 하였다. multi-modal training이 적용된 모델이 더 좋은 성능을 보였다고 한다. 3. ..

Controllable LM - Plug and Play LM(PPLM) 대화형 language model이 등장하면서 모델에게도 인간과 같은 윤리성을 주입할 수 없을까? 하는 연구들 중 하나를 소개한다. 생성모델은 확률에 기반해 결과물을 완성시킨다. 만약 모델이 긍정적인 답변들을 만들어내길 원한다면 미리 긍정적인 예제들을 bag of word에 저장한다. 우리의 목적은 내가 원하는 긍정 단어들의 확률이 최대가 되도록 하는 것이다. LM이 chicken tastes ok를 뱉어내려고 할 때 bow에 있는 delicious가 나오길 원한다면 delicious의 확률을 높이도록 이전 latent vector의 값을 수정하는 것이다. 이런 방식으로 기쁨 bag of word, 놀람 bag of word 를 만들어서 여러 감정들을 모델에게 중첩시켜서 주입시킬 수 있다.

XLNet, RoBERTa, BART, T5, Meena 1. XLNet BERT에서는 sequence의 최대 길이 제한이 있었다. XLNet은 위 그림처럼 relative positional encoding을 적용함으로써 입력 sequence 길이 제한이 사라졌다. GPT는 현재 상태에서 다음 단어만을 예측하는 일방향으로만 학습이 된다. 위 그림처럼 발 -> 없는 -> 말이 -> 천리, 이런식으로 말이다. XLNet은 이와 달리 Permutation language modeling방식을 사용해 학습한다. 문장이 주어지면 토큰들의 모든 조합을 생성하고 그 섞인 모든 문장에 대해 다음 단어를 예측하도록 학습한다. [없는, 발, 말이, 천리, 간다] 로 섞인 문장에 대해 없는 -> 발 -> 말이 -> 천리 -> 간다 순으로 예측하도록 학습하는 것이다. 실제로 이런..

GPT-3/GPT-4 and Latest Trend 2 1. AutoPrompt few shot, one-shot learning이 반드시 도움이 되는 것은 아니다. 오히려 성능을 저하시키는 prompt를 만드는 경우도 생긴다. 우리는 그 원인을 알기도 매우 어렵고 prompt 내 단어 하나의 차이로도 성능이 달라진다. 그래서 prompt를 어떻게 만들어야 할까?에 대한 연구가 발전되고 있다. 이미 학습이 완료된 언어 모델을 다시 fine-tuning하지 않고 autoprompt만으로 성능을 높일 수 있다. sentimental analysis를 예로 들어 autoprompt의 원리를 이해해보자. "a real joy"라는 분류를 해야하는 문장이 주어졌다고 하자. 우리가 하려는 것은 이 input 문장 뒤에 prompt를 붙여서 새로운 input을 만들어 감..

BERT 복습 Self-Supervised Pre-training Model (GPT-1, BERT) self-attention block으로 구성된 encoder-decoder모델은 nlp의 다양한 분야에서 놀라운 성능을 보여주었다. pre-training model로 gpt-1, bert를 알아본다. 더 깊게 attention block을 쌓았다는 점을 제외하면 구조적으 jsdysw.tistory.com 지난 시간 BERT에 대해 알아본 것을 복습한다. 버트가 등장하기 전에는 이렇게 encoder-decoder 모델이 주를 이뤘다. 버트는 input에 [mask]로 일부를 가리고 복원할 수 있도록 학습되었다. transformer의 encoder 부분만을 떼왔다. sentence1과 sentence2를 [sep]로..

NLP task : Relation Extraction 1. Relation Extraction? 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제이다. 언어모델이 어떤 정보가 담긴 sentence을 이해할 수 있다면 그 sentence에 담긴 임의의 두 단어들의 관계를 맞출 수 있을 것이다. sentence: 오라클(구 썬 마이크로시스템즈)에서 제공하는 자바 가상 머신 말고도 각 운영 체제 개발사가 제공하는 자바 가상 머신 및 오픈소스로 개발된 구형 버전의 온전한 자바 VM도 있으며, GNU의 GCJ나 아파치 소프트웨어 재단(ASF: Apache Software Foundation)의 하모니(Harmony)와 같은 아직은 완전하지 않지만 지속적인 오픈 소스 자바 가상 머신도 존재한다. subject_entity: 썬 마이크로시스템즈 object..

Boostcamp AI - week9, 10, 11 BERT에 대해 다시 한번 복습하고 BERT를 활용하여 단일 문장 분류, 두 문장 간 유사도 측정, 기계 독해 문제를 풀어보는 실습을 진행했다. - STS - chatbot - NER - POS tagging 이어서 GPT에 대해서 다시 한번 복습하고 GPT를 활용하여 생성모델 실습을 수행했다. - greedy/beam search (decoding strategy) - sampling (decoding strategy) - zero show & few shot - fine-tuning & chatbot tokenizer, pre-trained model 사용에 익숙해질만큼 많은 실습으로 3주를 채운 것 같다. 마지막으로 bert이후 최신 트렌드와 다양한 최신 모델들에 대해서 간단히 공부했다. 동시에 자..

Representation Learning & Self Supervised Learning 1. Representation Learning 인간의 기호(symbol) 발명은 많은 것을 가능하게 했다. 단순히 눈 앞에 보이는 것을 추상화 해서 그리는 것을 넘어, 소리를 기록할 수 있는 음계, 세상의 법칙을 설명하는 수학과 물리가 탄생했다. 화학식 체계는 직접 분자를 합성하지 않아도 어떤 물질이 탄생하는지 예측할 수 있도록 해준다. 실제로 경험하지 않아도 많은 것을 가상의 기호 체계 안에서 구현할 수 있게 된 셈이다. 인터넷이라는 기술이 등장하고 나서 가히 데이터의 시대가 펼쳐졌다. 지금은 음성, 자연어, 이미지를 주로 다루지만 그보다 훨씬 많은 양의 sensor데이터가 수집되고 저장되고 있다. 인간이 현상을 가상의 어떠한 symbol로 취하는 방식처럼 기계가 직접 데이터를 자기가 이해할 수 있는..

목록 더보기

728x90

티스토리툴바