본문 바로가기

728x90

분류 전체보기

(430)

Short History of Sequential Model - sequential model들의 발전 흐름과 동작 개념을 간략하게 알아본다. Naive sequence model - p(x_t | x_{t-1}, x_{t-2}, ...) - 이전 입력들이 주어졌을 때 다음에 나올 데이터의 확률을 구한다. Autoregressive model - p(x_t | x_{t-1}, x_{t-2}, ..., x_{t-r}) - 매 순간 모든 입력을 조건으로 주면 계산이 힘드니 past timespan을 고정한다. Markov model (first-order autoregressive model) - p(x_1, ...., x_t) = p(x_t | x_{t-1}) * p(x_{t-1} | x_{t-2}) * ... * p(x_2 | x_1) * p(x_1) - 현재는 ..

[Paper Review] Neural Machine Translation by Jointly Learning to Align and Translate Neural Machine Translation by Jointly Learning to Align and TranslateNeural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the traarxiv.org Abstractionseq2seq에서는 Encoder가 문장을 입력받아서 fixed length context v..

Short History of Detection Model - semantic segmentation이 픽셀을 객체의 일부분으로 분류한다면 detection은 객체의 bounding box를 찾는 문제이다. - detection model들의 발전 흐름과 동작 개념을 간략하게 알아본다. 1. R-CNN - 가장 간단한 방법으로 R-CNN이 있다. - input image에서 특정 알고리즘을 통해 예를들어 2000개의 patch를 뽑아낸 다음 (물론 크기를 맞추기위해 crop,resize도 필요하다) CNN layer를 거치게 하여 feature를 뽑아낸다. 이 feature들로 사람이니? 고양이니? 나무니?를 SVM으로 분류하는 것이다. - 그럼 input이미지에서 object의 위치를 잡을 수 있을 것이다. - 가장 간단한 만큼 문제가 있다. 2000개의 pa..

Short History of Semantic Segmentation - 이제까지 봤던 image classification과는 다른 segmentation task의 문제들을 AI가 어떻게 풀고 있는지 살펴본다. - semantic segmentation model들의 발전 흐름과 동작 개념을 간략하게 알아본다. - 각 픽셀들이 고양이에 속하는지 배경에 속하는지 분류한다고 생각하면 된다. 1. Convolutionalization - 우리가 보통 떠올리는 이미지 분류 문제를 푸는 모델은 이렇게 생겼다. 맨 마지막에 dense layer를 통해 flatten한 input을 label 수만큼의 차원으로 바꿔준다. - (4,4,16)을 flatten시키면 dense layer의 input tensor의 길이는 256이 된다. label이 10개라면 총 파라미터 수는 2560개..

AlexNet, VGGNet, GoogleLeNet, ResNet, DenseNet 1. AlexNet - Image Classification task에서 당시 매년 1등을 차지했던 모델이다. - 당시에는 더 많은 파라미터를 학습시키고 싶ㅇgpu 메모리 크기의 한계 때문에 모델을 반으로 나눠서 각 gpu에 학습을 시켰다. - ReLU activation, drop, data augmentation 등 지금에서는 많이 익숙한 기법이지만 당시에는 새로운 시도였다. - 현재에 와서는 일반적으로 잘 되는 모델의 standard를 만들었다고 볼 수 있다. - sigmoid, tanh에서 발생하는 vanishing gradient 문제를 ReLU를 통해 극복했다. 2. VGGNet - 특징을 뽑자면 3 by 3 kernel을 사용했고 dropout(0.5)를 사용했다. - alexnet이 11 ..

Regularization - generalization을 높이기 위한 노력들에 대해 알아보자. - testset에서의 성능을 낮추지 않으면서 training에서 학습을 방해하는 개념이다. Early stopping - validation loss가 커지는 지점 전에서 학습을 멈춘다. Weight decay, Parameter Norm Penalty - 네트워크의 parameter들의 크기가 작으면 작을수록 좋다. - function space에서 뉴럴 네트워크가 만들어내는 함수가 부드러우면 generalization에 더 좋다는 가정이 깔려있다. - 그래서 loss를 줄일때, 학습 파라미터들의 크기도 함께 줄이는 방법이다. Data Augmentation - 데이터가 아주아주아주 많으면 generalization에는 반드시 좋다..

Optimization Momentum - 새 batch에 대한 weight를 조정할 때, 이전 배치에서 계산한 gradient의 관성을 유지한다. - 현재 위치에서의 gradient와 현재까지의 momentum을 가지고 구한다. - batch에 따라 gradient가 요동치는 상황에서 효과가 있을 수 있다. - local minimum convergence를 방해해서 local minimum를 벗어나는데 활용될 수 있다. Nesterov Accelerated Gradient - 현재까지의 momentum과 해당 momentum이 안내하는 곳으로 이동한 곳에서의 gradient를 가지고 구한다. - converging 속도가 빠르다. Adagrad - 많이,자주 변한 파라미터 w1에 대해서는 앞으로 적게 변화시키고, 적게,조금..

Boostcamp AI - week3 Deep learning 기초를 다루는 한 주였다. 놀라운 기록들을 갱신했던 모델들의 역사와 구조를 살펴보면서 새로운 아이디어의 출현이 어떤 것인지 관찰할 수 있었다. 이전 모델의 단점을 어떻게 개선해서 한 걸음씩 나아갔는지를 공부하면서 감탄을 금치 못했다. Image classification 문제 말고도 semantic segmentation, object detection, generative model이 어떻게 발전해 왔는지도 살펴봤다. task가 바뀜으로써 문제를 바라보는 관점이 달라지고 그 문제를 해결하기 위해 했던 고민과 노력을 엿볼 수 있었다. 현재에 와서 우리가 사용하는 도구들과 아이디어가 (AI 발전 과정에서) 언제 어떤 문제를 해결하기 위해 등장했던 것인지 깨닫는 과정은 굉장히 인상 ..

이전 1 ··· 6 7 8 9 10 11 12 ··· 54 다음

728x90

티스토리툴바