AlexNet은 ILSVRC의 2012년 대회에서 Top 5 test error 15.4%를 기록하여 1위를 차지한 네트워크이다.
AlexNet은 성능을 높이기 위해 큰 Dataset인 ImageNet을 사용하였다.
Convolutional neural networks(CNNs)은 넓이나 깊이를 통해 모델의 크기를 조절할 수 있고,
이미지의 특성(이미지를 구성하는 특징들은 이미지 전체가 아닌 일부 지역에 근접한 픽셀들로만 구성되고, 근접한 픽셀들끼리만의 특성을 가지는 특징)
이라는 이미지의 특성을 잘 살릴 수 있다. 또한 Feed-Forward 신경망에 비해 CNN은 연결과 매개변수가 훨씬 적어서 훈련하기가 더욱 쉽지만, 이론적으로 성능은 약간 떨어질 수 있다.
GPU는 매우 큰 CNN의 훈련을 용이하게 할 수 있어 2D Convolution에 최적화 되어 있다.
AlexNet은 성능을 향상시키고 훈련 시간을 단축하는 많은 새롭고 특이한 기능을 설명한다.
AlexNet은 심각한 과적합 문제를 만들어 이를 방지하기 위한 몇 가지 효과적인 기술을 설명한다.
최종 네트워크에는 5개의 Convolutional Layer와 3개의 Fully connected Layer가 포함되어 있으며, 이 depth들은 매우 중요한 것으로 보인다
ImageNet은 15만장의 Label된 고해상도 이미지와 2만2천개의 카테고리로 구성된 거대한 데이터 셋입니다.
ILSVRC 대회는 ImageNet 데이터에서 각 카테고리당 약 천장의 이미지를 갖는 천개의 label에 대해서 Classification을 하는 task에 대해 경쟁하는 대회입니다.
ImageNet에서는 각 class에 대한 confidence score를 sort 했을 때 가장 높은 score를 가진 1개의 class가 정답이 아닌 경우의 비율(top-1)과
상위 score에 대한 5개의 class들 중 정답이 아닌 경우의 비율(top-5)를 이용해 구분합니다.