본문 바로가기

boostcamp AI tech/WeeklyReviews

Boostcamp AI - week12, 13

728x90

그동안은 모델에 대한 공부를 많이 했다. 이번주는 data를 중심으로 데이터 수집, 저장, 관리, 분석에 대해 배워본다.

앞으로의 AI에서 중요하다고 점쳐질 몇 가지 키워드를 정리해본다.

- Scaling Law : 모델이 커질수록 loss도 잘 떨어지고 결국 성능이 좋아진다.

- Chinchilla  : 거대 LLM보다 크기는 훨씬 작은데 훨씬 더 많은 데이터로 학습했더니 성능이 GPT-3보다 좋았다.

- LLaMA : Chinchilla보다 모델 크기를 훨씬 줄였다. open source데이터만으로 학습시켰는데 reasoning이나 common sense에서 훨씬 좋은 성능을 보였다.

- ALBERT : 크기만 키운 Vanila Transformer가 더 좋은데? 모델보다 데이터가 더 중요한거 아니냐?

- Multi-Modal : 여러 타입의 데이터가 융합되어 foundation model을 만들 것이다. (PaLM-E, Kosmos-1, GPT-4)

- Multilingual : 여러 언어로 학습되어 여러 언어에서 동작한다.

- External Knowledge : LLM의 한계를 외부지식으로부터의 retrieval & update로 극복한다.

- Synthetic Data : real data보다 생성 모델들의 synthetic data의 양이 미래에는 훨씬 많아질 것이다.

- Domain Specialized : LLM을 특정 domain에 특화시키기 위한 시도들

- Evaluation : LLM의 능력을 평가하기 위한 기준들 (Reasoning, Knowledge, Bias etc...)

- Detect GPT : LLM의 성능이 높아짐에 따라 사람이 쓴 것인지 인공지능이 쓴 것인지 구별

- Prompt Engineering : Chain of Thought, 모델이 더 잘 대답할 수 있도록 유도하는 prompt를 발견하는 일이 돈이 될 수 있다.

 

오직 데이터만으로 topic classification에서 모델의 성능을 높이는 Data Centric AI 대회에 참가했다.

항상 문제를 해결하기 위해서는 대단한 방법들만 필요할 거라고 생각하기 쉬운데 예상외로 정말 작은 변화로도 문제를 해결할 수 있는 것 같다.

큰 변화를 주어가며 실험을 하면 통제해야하는 변수들이 너무 많아져서 단계적으로 다음 실험을 위해 나아가기 어렵다. 작은 변화들을 하나씩 관찰해가며 실험 결과들을 쌓아가자.

 

데이터에서 중복을 제거한다는 작업을 매우 쉽다고 생각하기 쉽다. 하지만 만약 데이터가 1억개가 넘어간다면? 이게 다 메모리에 올라가지 않을텐데 어떻게 중복을 제거할 수 있을까? 이런 것이 바로 기업의 관점에서 문제를 바라보는 방식이다.


Fortune favours the bold : 행운은 대담한 사람들을 좋아한다.


Intro to Data Centric AI : https://jsdysw.tistory.com/506

Data Centric - Data Augmentation : https://jsdysw.tistory.com/505

NLP Datasets 1 : https://jsdysw.tistory.com/507

NLP Datasets 2 : https://jsdysw.tistory.com/508

Recent Works in Data Centric AI : https://jsdysw.tistory.com/509

Multi-Modal AI Dataset : https://jsdysw.tistory.com/510

728x90
반응형

'boostcamp AI tech > WeeklyReviews' 카테고리의 다른 글

Boostcamp AI - week9, 10, 11  (1) 2024.01.02
Boostcamp AI - week8  (0) 2023.12.26
Boostcamp AI - week6,7  (0) 2023.12.12
Boostcamp AI - week5  (1) 2023.12.06
Boostcamp AI - week4  (0) 2023.11.27