카테고리 없음

ResNet 논문

인공지능파이썬 2025. 1. 23. 06:31

Abstract

# 더 깊은 신경망은 학습이 어렵다는 문제를 해결하기 위해 잔차 학습(residual learning) 프레임워크를 제안
Deeper neural networks are more difficult to train. 
-->
더 깊은 신경망은 학습이 더 어렵다는 문제가 있습니다. 

We present a residual learning framework to ease the training
of networks that are substantially deeper than those used
previously. 
---->
우리는 이전보다 훨씬 깊은 네트워크를 학습하기 쉽게 만들기 위해 잔차 학습(residual learning) 프레임워크를 제안합니다.

# 레이어를 입력에 대한 참조를 기반으로 잔차 함수(residual functions)를 학습하도록 재구성하여 학습 용이성을 향상
We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. 
---->
우리는 레이어를 입력에 대한 참조를 기반으로 잔차 함수(residual functions)를 학습하도록 명시적으로 재구성하며, 참조가 없는 함수(unreferenced functions)를 학습하는 대신 이러한 방식을 채택했습니다.

# 잔차 네트워크가 최적화가 더 용이하고, 깊이가 증가함에 따라 정확도가 향상된다는 실험적 증거 제시
We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. 
--->
잔차 네트워크는 최적화가 더 용이하고, 깊이가 상당히 증가함에 따라 정확도를 얻을 수 있다는 종합적인 실험적 증거를 제공합니다. 

# ImageNet 데이터셋에서 최대 152개 레이어의 잔차 네트워크 평가 (VGG 네트워크보다 8배 깊지만 복잡도는 더 낮음)
On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers—8× deeper than VGG nets [40] but still having lower complexity. 
--->
ImageNet 데이터셋에서 우리는 최대 152 레이어 깊이를 가진 잔차 네트워크를 평가했으며, 이는 VGG 네트워크보다 8배 더 깊지만 복잡도는 더 낮습니다. 



# 잔차 네트워크 앙상블이 ImageNet 테스트 세트에서 3.57%의 오류율을 기록, ILSVRC 2015 분류 과제에서 1위 기록
An ensemble of these residual nets achieves 3.57% error
on the ImageNet test set. This result won the 1st place on the
ILSVRC 2015 classification task. 
--->
이러한 잔차 네트워크 앙상블은 ImageNet 테스트 세트에서 3.57%의 오류율을 기록했으며, 이 결과는 ILSVRC 2015 분류 과제에서 1위를 차지했습니다.


# CIFAR-10 데이터셋에서 100 레이어와 1000 레이어의 분석 결과도 제공
We also present analysis on CIFAR-10 with 100 and 1000 layers. 
---->
또한 CIFAR-10 데이터셋에서 100 레이어와 1000 레이어의 잔차 네트워크에 대한 분석도 제공합니다.


# 표현의 깊이는 많은 시각적 인식 작업에서 중요한 요소이며, 깊은 표현 덕분에 COCO 객체 탐지 데이터셋에서 28% 상대적 성능 향상 달성
The depth of representations is of central importance
for many visual recognition tasks. Solely due to our extremely deep representations, we obtain a 28% relative improvement on the COCO object detection dataset. 
--->
표현의 깊이는 많은 시각적 인식 작업에서 매우 중요합니다. 우리의 매우 깊은 표현 덕분에 COCO 객체 탐지 데이터셋에서 28%의 상대적 성능 향상을 얻을 수 있었습니다.


# 잔차 네트워크는 ILSVRC와 COCO 2015 대회에서 여러 작업에서 1위를 차지한 기초 모델
Deep residual nets are foundations of our submissions to ILSVRC
& COCO 2015 competitions1
, where we also won the 1st
places on the tasks of ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation.
--->
깊은 잔차 네트워크는 ILSVRC 및 COCO 2015 대회에 제출한 작업들의 기초가 되었으며, ImageNet 탐지, ImageNet 위치 추정, COCO 탐지 및 COCO 세분화 과제에서 1위를 차지했습니다.


1. Introduction
# 딥 컨볼루션 신경망은 이미지 분류에서 획기적인 발전을 이끌어냄
# 이미지 분류 분야에서 연이은 성과를 기록함
Deep convolutional neural networks [22, 21] have led to a series of breakthroughs for image classification [21, 49, 39].
---->
딥 컨볼루션 신경망(Deep Convolutional Neural Networks) [22, 21]은 이미지 분류(image classification) [21, 49, 39] 분야에서 일련의 획기적인 성과를 이끌어냈습니다.


# 딥 네트워크는 저수준, 중수준, 고수준 특징을 통합하며, 여러 계층을 쌓아올림으로써 특징 표현의 수준을 더욱 풍부하게 만듦
Deep networks naturally integrate low/mid/highlevel features [49] and classifiers in an end-to-end multilayer fashion, and the “levels” of features can be enriched
by the number of stacked layers (depth).
--->
딥 네트워크는 자연스럽게 저수준, 중수준, 고수준 특징(low/mid/high-level features) [49]과 분류기(classifiers)를 엔드투엔드(end-to-end) 다중 계층 방식으로 통합합니다. 또한, 특징의 "수준(levels)"은 쌓여진 계층(layer)의 수(즉, 깊이(depth))를 증가시킴으로써 더욱 풍부해질 수 있습니다.


# 최근 증거에 따르면
# 네트워크의 깊이가 매우 중요한 요소임을 보여줌
Recent evidence [40, 43] reveals that network depth is of crucial importance, and the leading results [40, 43, 12, 16] on the challenging ImageNet dataset [35] all exploit “very deep” [40] models, with a depth of sixteen [40] to thirty [16].
--->
최근의 연구 결과 [40, 43]에 따르면, 네트워크의 깊이(network depth)는 매우 중요한 요소임이 밝혀졌습니다. 어려운 문제로 알려진 ImageNet 데이터셋 [35]에서 최고 성능을 기록한 모델들 [40, 43, 12, 16]은 모두 “매우 깊은(very deep)” [40] 모델을 활용했으며, 그 깊이는 16층 [40]에서 30층 [16]에 이릅니다.









# ImageNet 데이터셋에서 최고 성능을 기록한 모델들은 모두 매우 깊은 모델을 사용하며, 깊이는 16에서 30층에 이르렀음
# 이 외에도 다양한 시각적 인식 작업에서 딥 네트워크의 이점이 나타남
Many other nontrivial visual recognition tasks [7, 11, 6, 32, 27] have also Figure 1. Training error (left) and test error (right) on CIFAR-10 with 20-layer and 56-layer “plain” networks. 
--->
다른 여러 비일상적인 시각적 인식 작업들 [7, 11, 6, 32, 27]에서도 유사한 결과가 나타났습니다. 그림 1은 CIFAR-10 데이터셋에서 20층 및 56층의 “단순(plain)” 네트워크를 사용했을 때의 학습 오류(왼쪽)와 테스트 오류(오른쪽)를 보여줍니다.


# 20층과 56층의 "단순" 네트워크를 사용한 CIFAR-10에서의 학습 오류와 테스트 오류 결과
# 더 깊은 네트워크는 학습 오류가 더 높으며, 이는 테스트 오류로 이어짐
# 유사한 현상이 ImageNet 데이터셋에서도 관찰되었으며, 이는 그림 4에 제시됨
The deeper network has higher training error, and thus test error. Similar phenomena on ImageNet is presented in Fig. 4.
--->
더 깊은 네트워크는 더 높은 학습 오류(training error)를 가지며, 이로 인해 테스트 오류(test error) 또한 증가합니다. 유사한 현상이 ImageNet 데이터셋에서도 관찰되었으며, 이는 그림 4에 제시되어 있습니다.




# 매우 깊은 모델로부터 많은 이점을 얻음
greatly benefited from very deep models.
--->
매우 깊은 모델(very deep models)로부터 큰 이점을 얻었습니다.






# 깊이의 중요성에 따라 다음과 같은 질문이 제기됨: 더 나은 네트워크를 학습하는 것이 단순히 레이어를 더 쌓는 것만으로 가능한가?
Driven by the significance of depth, a question arises: Is
learning better networks as easy as stacking more layers?
--->
깊이(depth)의 중요성에 의해 다음과 같은 질문이 제기됩니다:
더 나은 네트워크를 학습하는 것이 단순히 더 많은 레이어를 쌓는 것만큼 쉬운 일일까요?


# 이 질문에 답하는 데 있어서 주요 장애물은 "소실/폭발 기울기(vanishing/exploding gradients)" 문제로, 이는 학습 초기에 수렴을 방해함
An obstacle to answering this question was the notorious
problem of vanishing/exploding gradients [14, 1, 8], which
hamper convergence from the beginning.
--->
이 질문에 답하는 데 있어 주요 장애물은 악명 높은 기울기 소실/폭발 문제(vanishing/exploding gradients) [14, 1, 8]로, 이는 학습 초기에 수렴(convergence)을 방해하는 요인입니다.


# 하지만 이 문제는 주로 정규화된 초기화(normalized initialization) [23, 8, 36, 12]와 중간 정규화 레이어(intermediate normalization layers) [16]를 통해 해결됨
# 이를 통해 수십 개의 레이어를 가진 네트워크도 역전파(backpropagation) [22]를 사용하는 확률적 경사 하강법(SGD)으로 수렴을 시작할 수 있게 됨
This problem,
however, has been largely addressed by normalized initialization [23, 8, 36, 12] and intermediate normalization layers [16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].
--->
그러나 이 문제는 정규화된 초기화(normalized initialization) [23, 8, 36, 12]와 중간 정규화 레이어(intermediate normalization layers) [16]를 통해 대부분 해결되었습니다. 이를 통해 수십 개의 레이어를 가진 네트워크도 역전파(backpropagation) [22]를 사용하는 **확률적 경사 하강법(SGD)**으로 수렴을 시작할 수 있게 되었습니다.








# 더 깊은 네트워크가 수렴을 시작할 수 있을 때,
# "성능 저하 문제(degradation problem)"가 나타남: 네트워크 깊이가 증가하면 정확도가 포화 상태에 이르고(이는 놀랍지 않음), 이후 급격히 저하됨
When deeper networks are able to start converging, a degradation problem has been exposed: with the network
depth increasing, accuracy gets saturated (which might be
unsurprising) and then degrades rapidly.
--->
더 깊은 네트워크가 수렴(convergence)을 시작할 수 있게 되면, **성능 저하 문제(degradation problem)**가 드러납니다. 네트워크의 깊이가 증가함에 따라 정확도(accuracy)는 포화 상태에 이르게 되며(이는 예상 가능한 일이지만), 이후 급격히 감소하게 됩니다.


# 예상외로, 이러한 성능 저하는 과적합(overfitting)에 의해 발생하는 것이 아니며, 적절히 깊은 모델에 더 많은 레이어를 추가하면 학습 오류(training error)가 증가함 [10, 41]
Unexpectedly,
such degradation is not caused by overfitting, and adding
more layers to a suitably deep model leads to higher training error, as reported in [10, 41] and thoroughly verified by our experiments.
---->
예상외로, 이러한 성능 저하(degradation)는 **과적합(overfitting)**에 의해 발생하는 것이 아닙니다. 적절히 깊은 모델에 더 많은 레이어를 추가하면 학습 오류(training error)가 증가하게 됩니다. 이러한 현상은 [10, 41]에서 보고되었으며, 우리의 실험을 통해 철저히 검증되었습니다.


# 그림 1은 이와 같은 전형적인 사례를 보여줌
Fig. 1 shows a typical example.
--->
그림 1은 이러한 현상의 전형적인 예를 보여줍니다.



# 학습 정확도의 저하는 모든 시스템이 동일하게 최적화하기 쉬운 것은 아님을 나타냄
The degradation (of training accuracy) indicates that not all systems are similarly easy to optimize.
--->
학습 정확도의 저하(degradation)는 모든 시스템이 동일하게 최적화하기 쉬운 것은 아님을 나타냅니다.


# 더 얕은 구조와, 해당 구조에 더 많은 레이어를 추가한 더 깊은 구조를 생각해보자
Let us consider a shallower architecture and its deeper counterpart that adds more layers onto it.
---->
더 얕은 아키텍처(shallower architecture)와, 그 구조에 더 많은 레이어를 추가한 더 깊은 아키텍처(deeper counterpart)를 생각해봅시다.


# 더 깊은 모델에 대해 구성적으로 해결책이 존재함: 추가된 레이어는 항등 맵(identity mapping)이고, 나머지 레이어는 학습된 얕은 모델에서 복사된 것
There exists a solution by construction to the deeper model: the added layers are identity mapping, and the other layers are copied from the learned shallower model.
--->
더 깊은 모델(deeper model)에는 구성적으로 해결책(solution)이 존재합니다. 추가된 레이어는 **항등 맵(identity mapping)**으로 동작하며, 나머지 레이어는 학습된 얕은 모델(shallower model)에서 복사된 것입니다.


# 이러한 구성적 해결책의 존재는, 더 깊은 모델이 더 얕은 모델보다 높은 학습 오류를 가져서는 안 된다는 것을 나타냄
The existence of this constructed solution indicates that a deeper model should produce no higher training error than its shallower counterpart.
--->
이와 같은 **구성적 해결책(constructed solution)**의 존재는, 더 깊은 모델(deeper model)이 더 얕은 모델(shallower counterpart)보다 높은 학습 오류(training error)를 가져서는 안 된다는 것을 나타냅니다.






# 하지만 실험에 따르면, 현재 사용 가능한 해결 알고리즘(solvers)은 구성적 해결책과 비교해 동등하거나 더 나은 해답을 찾지 못하거나, 현실적인 시간 내에 이를 수행하지 못함
But experiments show that our current solvers on hand are unable to find solutions that are comparably good or better than the constructed solution (or unable to do so in feasible time).
--->
그러나 실험 결과, 현재 사용 가능한 해결 알고리즘(solvers)은 구성적 해결책(constructed solution)과 동등하거나 더 나은 해답을 찾지 못하거나, 현실적인 시간(feasible time) 내에 이를 수행하지 못한다는 것이 밝혀졌습니다.


# 본 논문에서는 성능 저하 문제(degradation problem)를 해결하기 위해
# 깊은 잔차 학습(deep residual learning) 프레임워크를 도입
In this paper, we address the degradation problem by introducing a deep residual learning framework.
--->
본 논문에서는 **성능 저하 문제(degradation problem)**를 해결하기 위해 깊은 잔차 학습(deep residual learning) 프레임워크를 도입합니다.


# 몇 개의 쌓인 레이어가 원하는 기본 매핑(desired underlying mapping)을 직접 학습하도록 기대하는 대신, 이러한 레이어가 잔차 매핑(residual mapping)을 학습하도록 설정
Instead of hoping each few stacked layers directly fit a desired underlying mapping, we explicitly let these layers fit a residual mapping.
---->
몇 개의 쌓인 레이어가 원하는 기본 매핑(desired underlying mapping)을 직접 학습하도록 기대하는 대신, 이러한 레이어가 **잔차 매핑(residual mapping)**을 명시적으로 학습하도록 설정합니다.


# 형식적으로, 원하는 기본 매핑을 H(x)라고 하면, 비선형 레이어가 H(x)−x로 정의되는 또 다른 매핑 F(x)를 학습하도록 만듦
Formally, denoting the desired underlying mapping as H(x), we let the stacked nonlinear layers fit another mapping of F(x) := H(x)−x.
--->
형식적으로, 원하는 기본 매핑(desired underlying mapping)을 
𝐻(𝑥) H(x)라고 정의하면, 쌓인 비선형 레이어는 𝐹(𝑥):=𝐻(𝑥)−𝑥
F(x):=H(x)−x로 정의되는 또 다른 매핑 𝐹(𝑥) F(x)을 학습하도록 설정합니다.


# 원래 매핑은 F(x)+x로 재구성됨
The original mapping is recast into F(x)+x.
--->
원래 매핑(original mapping)은 𝐹(𝑥)+𝑥로 재구성됩니다.


# 잔차 매핑(residual mapping)을 최적화하는 것이 원래의 참조되지 않은 매핑(unreferenced mapping)을 최적화하는 것보다 더 쉽다고 가정함
We hypothesize that it is easier to optimize the residual mapping than to optimize
the original, unreferenced mapping.
--->
우리는 잔차 매핑(residual mapping)을 최적화하는 것이 원래의 참조되지 않은 매핑(unreferenced mapping)을 최적화하는 것보다 더 쉽다고 가정합니다.


# 극단적으로, 항등 맵(identity mapping)이 최적이라면, 비선형 레이어 스택으로 항등 맵을 학습하는 것보다 잔차를 0으로 만드는 것이 더 쉬움
To the extreme, if an identity mapping were optimal, it would be easier to push
the residual to zero than to fit an identity mapping by a stack of nonlinear layers.
--->
극단적인 경우, 항등 맵(identity mapping)이 최적이라면, 비선형 레이어 스택을 통해 항등 맵을 학습하는 것보다 **잔차(residual)**를 0으로 만드는 것이 더 쉬울 것입니다.


# F(x) + x 형태의 수식은 "쇼트컷 연결(shortcut connections)"을 가진 전방향 신경망(feedforward neural networks)으로 구현할 수 있음 (그림 2 참고)
The formulation of F(x) +x can be realized by feedforward neural networks with “shortcut connections” (Fig. 2).
--->
F(x)+x 형태의 수식은 **"쇼트컷 연결(shortcut connections)"**을 사용하는 **전방향 신경망(feedforward neural networks)**으로 구현할 수 있습니다 (그림 2 참고).


# 쇼트컷 연결은 하나 이상의 레이어를 건너뛰는 연결을 의미함 [2, 33, 48]
Shortcut connections [2, 33, 48] are those skipping one or
more layers.
--->
쇼트컷 연결(shortcut connections) [2, 33, 48]은 하나 이상의 레이어를 건너뛰는 연결을 의미합니다.



# 우리의 경우, 쇼트컷 연결은 단순히 항등 맵(identity mapping)을 수행하며, 그 출력은 쌓인 레이어의 출력에 더해짐 (그림 2 참고)
In our case, the shortcut connections simply perform identity mapping, and their outputs are added to the outputs of the stacked layers (Fig. 2).
--->
우리의 경우, **쇼트컷 연결(shortcut connections)**은 단순히 **항등 맵(identity mapping)**을 수행하며, 그 출력은 쌓인 레이어(stacked layers)의 출력에 더해집니다 (그림 2 참고).


# 항등 쇼트컷 연결은 추가적인 매개변수(parameter)나 계산 복잡도(computational complexity)를 증가시키지 않음
Identity shortcut connections add neither extra parameter nor computational complexity.
--->
**항등 쇼트컷 연결(identity shortcut connections)**은 추가적인 매개변수(parameter)나 계산 복잡도(computational complexity)를 증가시키지 않습니다.


# 네트워크 전체는 여전히 역전파(backpropagation)를 사용하는 확률적 경사 하강법(SGD)을 통해 엔드투엔드(end-to-end) 방식으로 학습 가능하며,
# 일반적인 라이브러리(예: Caffe [19])를 사용하여 솔버(solvers)를 수정하지 않고도 쉽게 구현할 수 있음
The entire network can still be trained end-to-end by SGD with backpropagation, and can be easily implemented using common libraries (e.g., Caffe [19]) without modifying the solvers.
--->
네트워크 전체는 여전히 **역전파(backpropagation)**를 사용하는 **확률적 경사 하강법(SGD)**으로 엔드투엔드(end-to-end) 방식으로 학습할 수 있습니다. 또한, **Caffe [19]**와 같은 일반적인 라이브러리를 사용하여 솔버(solvers)를 수정하지 않고도 쉽게 구현할 수 있습니다.


# 우리는 ImageNet [35] 데이터셋에서 종합적인 실험을 통해 성능 저하 문제(degradation problem)를 보여주고, 제안한 방법을 평가함
We present comprehensive experiments on ImageNet [35] to show the degradation problem and evaluate our method.
--->
우리는 ImageNet [35] 데이터셋에서 종합적인 실험을 통해 **성능 저하 문제(degradation problem)**를 보여주고, 제안한 방법을 평가합니다.


# 우리는 다음과 같은 결과를 보여줌:
We show that: 
--->
우리는 다음과 같은 결과를 보여줍니다:


# 1) 우리의 매우 깊은 잔차 네트워크(residual nets)는 최적화하기 쉬운 반면, 단순히 레이어를 쌓은 "평범한" 네트워크(plain nets)는 깊이가 증가할수록 더 높은 학습 오류(training error)를 보임
1) Our extremely deep residual nets are easy to optimize, but the counterpart “plain” nets (that simply stack layers) exhibit higher training error when the depth increases;
--->
우리의 **매우 깊은 잔차 네트워크(residual nets)**는 최적화하기 쉽지만, 단순히 레이어를 쌓은 **"평범한" 네트워크(plain nets)**는 깊이가 증가할수록 더 높은 **학습 오류(training error)**를 보입니다.


# 2) 우리의 깊은 잔차 네트워크는 깊이가 크게 증가함에 따라 정확도 향상을 쉽게 얻을 수 있으며, 이전 네트워크보다 훨씬 더 나은 결과를 생성함
2) Our deep residual nets can easily enjoy accuracy gains from greatly increased depth, producing results substantially better than previous networks
---->
우리의 **깊은 잔차 네트워크(deep residual nets)**는 깊이가 크게 증가함에 따라 **정확도 향상(accuracy gains)**을 쉽게 얻을 수 있으며, 이전 네트워크들보다 훨씬 더 나은 결과를 제공합니다.


# 유사한 현상은 CIFAR-10 데이터셋 [20]에서도 관찰됨
# 이는 최적화의 어려움과 제안한 방법의 효과가 특정 데이터셋에만 국한되지 않음을 시사함
Similar phenomena are also shown on the CIFAR-10 set [20], suggesting that the optimization difficulties and the effects of our method are not just akin to a particular dataset.
--->
유사한 현상은 CIFAR-10 데이터셋 [20]에서도 관찰되었으며, 이는 최적화의 어려움과 제안한 방법의 효과가 특정 데이터셋에만 국한되지 않음을 시사합니다.




# 우리는 100개 이상의 레이어를 가진 모델을 CIFAR-10 데이터셋에서 성공적으로 학습시켰으며, 1000개 이상의 레이어를 가진 모델도 탐구함
We present successfully trained models on this dataset with over 100 layers, and explore models with over 1000 layers.
--->
우리는 이 데이터셋에서 100개 이상의 레이어를 가진 모델을 성공적으로 학습시켰으며, 1000개 이상의 레이어를 가진 모델도 탐구합니다.


# ImageNet 분류 데이터셋 [35]에서 매우 깊은 잔차 네트워크를 통해 우수한 결과를 얻음
On the ImageNet classification dataset [35], we obtain excellent results by extremely deep residual nets.
--->
ImageNet 분류 데이터셋 [35]에서 **매우 깊은 잔차 네트워크(extremely deep residual nets)**를 사용하여 우수한 결과를 얻었습니다.


# 우리의 152층 잔차 네트워크는 ImageNet에서 발표된 가장 깊은 네트워크이며, VGG 네트워크 [40]보다 낮은 복잡도를 가짐
Our 152-layer residual net is the deepest network ever presented on ImageNet, while still having lower complexity than VGG nets [40].
---->
우리의 **152층 잔차 네트워크(residual net)**는 ImageNet에서 발표된 가장 깊은 네트워크이며, 여전히 **VGG 네트워크 [40]**보다 복잡도가 낮습니다.


# 우리의 앙상블 모델은 ImageNet 테스트 세트에서 상위 5개 오류(top-5 error) 3.57%를 기록하며 ILSVRC 2015 분류 대회에서 1위를 차지함
Our ensemble has 3.57% top-5 error on the ImageNet test set, and won the 1st place in the ILSVRC 2015 classification competition.
--->
우리의 앙상블 모델은 ImageNet 테스트 세트에서 상위 5개 오류율(top-5 error) 3.57%를 기록했으며, ILSVRC 2015 분류 대회에서 1위를 차지했습니다.








# 매우 깊은 표현(deep representations)은 다른 인식 작업에서도 뛰어난 일반화 성능을 보임
# 이는 ILSVRC 및 COCO 2015 대회에서 ImageNet 탐지(ImageNet detection), ImageNet 위치 추정(ImageNet localization), COCO 탐지(COCO detection), COCO 분할(COCO segmentation) 과제에서도 1위를 차지하게 함
The extremely deep representations also have excellent generalization performance on other recognition tasks, and lead us to further win the 1st places on: ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation in ILSVRC & COCO 2015 competitions.
--->
**매우 깊은 표현(extremely deep representations)**은 다른 인식 작업에서도 뛰어난 **일반화 성능(generalization performance)**을 보였으며, 이를 통해 ILSVRC 및 COCO 2015 대회에서 다음 과제에서도 1위를 차지할 수 있었습니다:
ImageNet 탐지(ImageNet detection)
ImageNet 위치 추정(ImageNet localization)
COCO 탐지(COCO detection)
COCO 분할(COCO segmentation)


# 이러한 강력한 증거는 잔차 학습 원칙(residual learning principle)이 범용적임을 보여주며, 다른 비전 및 비비전 문제에도 적용 가능할 것으로 기대함
This strong evidence shows that the residual learning principle is generic, and we expect that it is applicable in other vision and non-vision problems.
--->
이 강력한 증거는 **잔차 학습 원리(residual learning principle)**가 **범용적(generic)**임을 보여주며, 다른 비전(vision) 및 비비전(non-vision) 문제에도 적용 가능할 것으로 기대됩니다.

2. Related Work
# 잔차 표현(Residual Representations)
Residual Representations.
# 이미지 인식에서 VLAD [18]는 사전에 대한 잔차 벡터(residual vectors)를 인코딩하는 표현 방식
# Fisher Vector [30]는 VLAD의 확률적 버전(probabilistic version)으로 공식화될 수 있음
In image recognition, VLAD [18] is a representation that encodes by the residual vectors with respect to a dictionary, and Fisher Vector [30] can be formulated as a probabilistic version [18] of VLAD.
--->
이미지 인식(image recognition)에서, **VLAD [18]**는 사전(dictionary)에 대한 **잔차 벡터(residual vectors)**를 인코딩하는 표현 방식입니다. **Fisher Vector [30]**는 VLAD의 확률적 버전(probabilistic version)으로 공식화될 수 있습니다 [18].
# 이 두 가지는 이미지 검색(image retrieval)과 분류(classification)에 강력한 얕은 표현(shallow representations)으로 사용됨 [4, 47]
Both of them are powerful shallow representations for image retrieval and classification [4, 47].
--->
이 두 가지(VLAD와 Fisher Vector)는 **이미지 검색(image retrieval)**과 **분류(classification)**에서 강력한 **얕은 표현(shallow representations)**으로 사용됩니다 [4, 47].


# 벡터 양자화(vector quantization)에서는 원본 벡터를 인코딩하는 것보다 잔차 벡터를 인코딩하는 것이 더 효과적임이 입증됨 [17]
For vector quantization, encoding residual vectors [17] is shown to be more effective than encoding original vectors.
--->
**벡터 양자화(vector quantization)**에서는 원본 벡터(original vectors)를 인코딩하는 것보다 **잔차 벡터(residual vectors)**를 인코딩하는 것이 더 효과적임이 입증되었습니다 [17].


# 저수준 비전(low-level vision) 및 컴퓨터 그래픽스(computer graphics)에서, 편미분 방정식(PDEs)을 해결하기 위해 널리 사용되는 다중 격자 방법(Multigrid method) [3]은 시스템을 여러 스케일에서의 하위 문제(subproblems)로 재구성함
# 각 하위 문제는 더 거친 스케일(coarser scale)과 더 세밀한 스케일(finer scale) 사이의 잔차 해(residual solution)를 담당함
In low-level vision and computer graphics, for solving Partial Differential Equations (PDEs), the widely used Multigrid method [3] reformulates the system as subproblems at multiple scales, where each subproblem is responsible for the residual solution between a coarser and a finer scale.
--->
저수준 비전(low-level vision) 및 **컴퓨터 그래픽스(computer graphics)**에서, **편미분 방정식(Partial Differential Equations, PDEs)**을 해결하기 위해 널리 사용되는 다중 격자 방법(Multigrid method) [3]은 시스템을 여러 스케일에서의 **하위 문제(subproblems)**로 재구성합니다.
이때, 각 하위 문제는 더 거친 스케일(coarser scale)과 더 세밀한 스케일(finer scale) 사이의 **잔차 해(residual solution)**를 담당합니다.







# 다중 격자의 대안으로 계층적 기저 사전조건화(hierarchical basis preconditioning) [44, 45]가 있음 
# 이는 두 스케일 간의 잔차 벡터(residual vectors)를 나타내는 변수에 의존함
An alternative to Multigrid is hierarchical basis preconditioning [44, 45], which relies on variables that represent residual vectors between two scales.
--->
**다중 격자 방법(Multigrid)**의 대안으로 계층적 기저 사전조건화(hierarchical basis preconditioning) [44, 45]가 있습니다. 이 방법은 두 스케일 간의 **잔차 벡터(residual vectors)**를 나타내는 변수에 의존합니다.


# 이러한 솔버들이 잔차 해(residual solutions)의 특성을 고려하지 않는 표준 솔버보다 훨씬 빠르게 수렴함이 입증됨 [3, 44, 45]
# 이러한 방법들은 적절한 재구성(reformulation) 또는 사전조건화(preconditioning)가 최적화를 단순화할 수 있음을 시사함
It has been shown [3, 44, 45] that these solvers converge much faster than standard solvers that are unaware of the residual nature of the  solutions.
These methods suggest that a good reformulation or preconditioning can simplify the optimization.
--->
연구 [3, 44, 45]에 따르면, 이러한 솔버(solvers)는 **잔차 해(residual solutions)**의 특성을 고려하지 않는 **표준 솔버(standard solvers)**보다 훨씬 더 빠르게 수렴하는 것으로 나타났습니다.
이 방법들은 적절한 재구성(reformulation) 또는 **사전조건화(preconditioning)**가 최적화(optimization)를 단순화할 수 있음을 시사합니다.


# 우리의 연구와 동시에, "하이웨이 네트워크(highway networks)" [41, 42]는 게이트 함수(gating functions) [15]를 사용하는 쇼트컷 연결(shortcut connections)을 제안함
Concurrent with our work, “highway networks” [41, 42] present shortcut connections with gating functions [15].
--->
우리의 연구와 동시에, "하이웨이 네트워크(highway networks)" [41, 42]는 게이트 함수(gating functions) [15]를 사용하는 **쇼트컷 연결(shortcut connections)**을 제안했습니다.




# 이러한 게이트는 데이터에 의존하며 매개변수(parameters)를 가지지만, 우리의 항등 쇼트컷(identity shortcuts)은 매개변수가 없음
These gates are data-dependent and have parameters, in contrast to our identity shortcuts that are parameter-free.
--->
이 **게이트(gates)**는 **데이터 의존적(data-dependent)**이며 매개변수(parameters)를 가지고 있습니다. 이는 매개변수가 없는 우리의 **항등 쇼트컷(identity shortcuts)**과 대조적입니다.


# 게이트가 "닫힐(closed)" 때(값이 0에 가까워질 때), 하이웨이 네트워크의 레이어는 비잔차 함수(non-residual functions)를 나타냄
When a gated shortcut is “closed” (approaching zero), the layers in highway networks represent non-residual functions.
--->
게이트가 “닫힐(closed)” 때(값이 0에 가까워질 때), 하이웨이 네트워크의 레이어는 **비잔차 함수(non-residual functions)**를 나타냅니다.



# 반대로, 우리의 공식은 항상 잔차 함수(residual functions)를 학습하며, 우리의 항등 쇼트컷(identity shortcuts)은 절대 닫히지 않음
# 모든 정보는 항상 전달되며, 추가적인 잔차 함수가 학습됨
On the contrary, our formulation always learns residual functions; our identity shortcuts are never closed, and all information is always passed through, with additional residual functions to be learned.
--->
반대로, 우리의 **공식(formulation)**은 항상 **잔차 함수(residual functions)**를 학습합니다.
우리의 **항등 쇼트컷(identity shortcuts)**은 절대 닫히지 않으며, 모든 정보가 항상 전달되고, 추가적인 잔차 함수도 학습됩니다.










# 또한, 하이웨이 네트워크는 극도로 증가된 깊이(예: 100개 이상의 레이어)에서 정확도 향상을 입증하지 못함
In addition, highway networks have not demonstrated accuracy gains with extremely increased depth (e.g., over 100 layers).
--->
게다가, 하이웨이 네트워크는 극도로 깊이가 증가했을 때(예: 100개 이상의 레이어) **정확도 향상(accuracy gains)**을 입증하지 못했습니다.


3. Deep Residual Learning
3.1. Residual Learning
Let us consider H(x) as an underlying mapping to be fit by a few stacked layers (not necessarily the entire net), with x denoting the inputs to the first of these layers.
--->
H(x)를 몇 개의 쌓인 레이어(전체 네트워크가 아님)에 의해 학습될 **기본 매핑(underlying mapping)**으로 간주해 봅시다. 여기서 x는 이러한 레이어들 중 첫 번째 레이어에 대한 입력을 나타냅니다.
























# 여러 비선형 레이어가 복잡한 함수들을 점근적으로 근사할 수 있다고 가정한다면,
# 이는 그들이 잔차 함수(residual functions), 즉 H(x) − x를 점근적으로 근사할 수 있다고 가정하는 것과 같음
# (입력과 출력의 차원이 같다고 가정할 때)
 If one hypothesizes that multiple nonlinear layers can asymptotically approximate complicated functions2, then it is equivalent to hypothesize that they can asymptotically approximate the residual functions, i.e., H(x) − x (assuming that the input and output are of the same dimensions). 
--->
만약 여러 비선형 레이어가 복잡한 함수들을 점근적으로 근사할 수 있다고 가정한다면, 이는 잔차 함수(residual functions), 즉 H(x) − x를 점근적으로 근사할 수 있다는 가정과 동일합니다(입력과 출력의 차원이 같다고 가정).


# 따라서 쌓인 레이어들이 H(x)를 근사하도록 기대하는 대신, 이러한 레이어들이 명시적으로 
# 이렇게 하면 원래 함수는 F(x)+x 형태가 됨
# 두 형식 모두 (가정대로) 원하는 함수를 점근적으로 근사할 수 있어야 하지만, 학습의 용이성에는 차이가 있을 수 있음
So rather than expect stacked layers to approximate H(x), we explicitly let these layers approximate a residual function F(x) := H(x) − x. The original function thus becomes F(x)+x. Although both forms should be able to asymptotically approximate the desired functions (as hypothesized), the ease of learning might be different.
--->
따라서, 쌓인 레이어들이 H(x)를 근사하도록 기대하는 대신, 이러한 레이어들이 명시적으로 잔차 함수 F(x) := H(x) − x를 근사하도록 합니다.
이렇게 하면 원래 함수는 F(x) + x 형태가 됩니다.
두 형식 모두 가정대로 원래의 원하는 함수를 점근적으로 근사할 수 있지만, 학습의 용이성에는 차이가 있을 수 있습니다.


# 이 재구성(reformulation)은 성능 저하 문제(degradation problem)에 관한 직관에 반하는(counterintuitive) 현상(Fig. 1, left)에서 동기를 얻음
This reformulation is motivated by the counterintuitive phenomena about the degradation problem (Fig. 1, left).
--->
이 **재구성(reformulation)**은 **성능 저하 문제(degradation problem)**에 대한 직관에 반하는(counterintuitive) 현상(Fig. 1, left)에서 동기를 얻었습니다.



# 서두에서 논의한 바와 같이, 추가된 레이어가 항등 매핑(identity mappings)으로 구성될 수 있다면, 더 깊은 모델은 얕은 모델보다 높은 학습 오류(training error)를 가질 이유가 없음
As we discussed in the introduction, if the added layers can be constructed as identity mappings, a deeper model should have training error no greater than its shallower counterpart.
--->
서론에서 논의한 바와 같이, 추가된 레이어가 **항등 매핑(identity mappings)**으로 구성될 수 있다면, 더 깊은 모델은 더 얕은 모델보다 높은 **학습 오류(training error)**를 가져서는 안 됩니다.

# 성능 저하 문제는 솔버(solvers)가 여러 비선형 레이어로 항등 매핑을 근사하는 데 어려움을 겪을 수 있음을 시사함
The degradation problem suggests that the solvers might have difficulties in approximating identity mappings by multiple nonlinear layers.
--->
**성능 저하 문제(degradation problem)**는 솔버(solvers)가 여러 **비선형 레이어(non-linear layers)**를 사용하여 **항등 매핑(identity mappings)**을 근사하는 데 어려움을 겪을 수 있음을 시사합니다.


# 잔차 학습(residual learning) 재구성에서는, 항등 매핑이 최적이라면 솔버가 여러 비선형 레이어의 가중치를 0으로 수렴시켜 항등 매핑에 가까워질 수 있음
With the residual learning reformulation, if identity mappings are optimal, the solvers may simply drive the weights of the multiple nonlinear layers toward zero to approach identity mappings.
--->
**잔차 학습 재구성(residual learning reformulation)**을 통해, 항등 매핑(identity mappings)이 최적이라면, 솔버(solvers)는 여러 비선형 레이어의 가중치를 0으로 조정함으로써 항등 매핑에 근접할 수 있습니다.


# 실제 경우에서는 항등 매핑(identity mappings)이 최적일 가능성은 낮음
# 그러나 우리의 재구성이 문제를 사전조건화(preconditioning)하는 데 도움을 줄 수 있음
In real cases, it is unlikely that identity mappings are optimal, but our reformulation may help to precondition the problem.
--->
실제 상황에서 **항등 매핑(identity mappings)**이 최적일 가능성은 낮지만, 우리의 **재구성(reformulation)**이 문제를 **사전조건화(preconditioning)**하는 데 도움을 줄 수 있습니다.


# 만약 최적의 함수가 제로 매핑(zero mapping)보다 항등 매핑에 더 가까운 경우, 
# 솔버(solver)가 항등 매핑을 기준으로 작은 변동(perturbations)을 찾는 것이,
# 함수를 새롭게 학습하는 것보다 더 쉬움
If the optimal function is closer to an identity mapping than to a zero mapping,
it should be easier for the solver to find the perturbations with reference to an identity mapping, than to learn the function as a new one.
--->
최적의 함수가 **제로 매핑(zero mapping)**보다 **항등 매핑(identity mapping)**에 더 가까운 경우, 솔버(solver)가 항등 매핑을 기준으로 작은 변동(perturbations)을 찾는 것이 함수를 새롭게 학습하는 것보다 더 쉬울 것입니다.


# 최적의 함수가 제로 매핑(zero mapping)보다 항등 매핑(identity mapping)에 더 가깝다면,
# 솔버(solver)가 항등 매핑을 기준으로 작은 변동(perturbations)을 찾는 것이,
# 함수를 새롭게 학습하는 것보다 더 쉬움
If the optimal function is closer to an identity mapping than to a zero mapping,
it should be easier for the solver to find the perturbations with reference to an identity mapping, than to learn the function as a new one.
--->
최적의 함수가 **제로 매핑(zero mapping)**보다 **항등 매핑(identity mapping)**에 더 가까운 경우, 솔버가 항등 매핑을 기준으로 변동(perturbations)을 찾는 것이 함수를 새로운 것으로 학습하는 것보다 더 용이할 것입니다.


# 우리는 실험(Fig. 7)을 통해, 학습된 잔차 함수(residual functions)가 대체로 작은 반응을 보인다는 것을 입증함
# 이는 항등 매핑이 적절한 사전조건화(preconditioning)를 제공한다는 것을 시사함
We show by experiments (Fig. 7) that the learned residual functions in general have small responses, suggesting that identity mappings provide reasonable preconditioning.
--->
실험(Fig. 7)을 통해 학습된 **잔차 함수(residual functions)**가 대체로 작은 반응을 보인다는 것을 입증했습니다. 이는 **항등 매핑(identity mappings)**이 적절한 **사전조건화(preconditioning)**를 제공할 수 있음을 시사합니다.





3.2. Identity Mapping by Shortcuts
# 몇 개의 쌓인 레이어마다 잔차 학습(residual learning)을 적용함
# 하나의 빌딩 블록(building block)은 그림 2에 나타나 있음
We adopt residual learning to every few stacked layers.
A building block is shown in Fig. 2.
--->
몇 개의 쌓인 레이어마다 **잔차 학습(residual learning)**을 적용했습니다.
하나의 **빌딩 블록(building block)**은 그림 2에 나타나 있습니다.
          y = F(x, {Wi}) + Wsx. [그림 2]

# 형식적으로, 본 논문에서는 다음과 같이 정의된 빌딩 블록을 고려함:
Formally, in this paper we consider a building block defined as:
# y = F(x, {Wi}) + x
           y = F(x, {Wi}) + x. [그림 1]
-->
형식적으로, 본 논문에서는 다음과 같이 정의된 **빌딩 블록(building block)**을 고려합니다:


# 여기서 x와 y는 고려된 레이어의 입력 벡터와 출력 벡터를 나타냄
# 함수 F(x, {Wi})는 학습할 잔차 매핑(residual mapping)을 나타냄
Here x and y are the input and output vectors of the layers considered.
The function F(x, {Wi}) represents the residual mapping to be learned.
--->
여기서 x와 𝑦는 고려된 레이어의 **입력 벡터(input vector)**와 **출력 벡터(output vector)**를 나타냅니다. 함수 F(x,Wi)는 학습해야 할 **잔차 매핑(residual mapping)**을 나타냅니다.


# 그림 2의 두 개의 레이어를 가진 예제의 경우,
# F = W2σ(W1x)이며, 여기서 σ는 ReLU [29]를 나타내고, 표기법을 단순화하기 위해 편향(bias)은 생략됨
For the example in Fig. 2 that has two layers,
F = W2σ(W1x) in which σ denotes ReLU [29] and the biases are omitted for simplifying notations.
--->
그림 2의 두 개의 레이어로 구성된 예제를 기준으로 하면, 𝐹=𝑊2𝜎(𝑊1𝑥)F=W2σ(W1 x)로 나타낼 수 있습니다.여기서 σ는 ReLU [29]를 나타내며, 표기를 단순화하기 위해 **편향(bias)**은 생략되었습니다.


# F + x 연산은 쇼트컷 연결(shortcut connection)과 원소별 덧셈(element-wise addition)에 의해 수행됨
The operation F + x is performed by a shortcut connection and element-wise addition.
-->
연산F+x는 **쇼트컷 연결(shortcut connection)**과 **원소별 덧셈(element-wise addition)**에 의해 수행됩니다.


# 덧셈 후 두 번째 비선형성(non-linearity), 즉 σ(y)를 적용함 (그림 2 참조)
We adopt the second nonlinearity after the addition (i.e., σ(y), see Fig. 2).
--->
우리는 덧셈 이후 두 번째 비선형성(nonlinearity), 즉 𝜎(𝑦)σ(y)를 적용합니다. (그림 2 참조)


# 식 (1)의 쇼트컷 연결(shortcut connections)은 추가적인 매개변수(parameter)나 계산 복잡도(computation complexity)를 추가하지 않음
The shortcut connections in Eqn.(1) introduce neither extra parameter nor computation complexity.
-->
식 (1)의 **쇼트컷 연결(shortcut connections)**은 추가적인 **매개변수(parameter)**나 **계산 복잡도(computation complexity)**를 추가하지 않습니다.


# 이는 실제로 매력적일 뿐만 아니라 평범한 네트워크(plain networks)와 잔차 네트워크(residual networks) 간 비교에서도 중요함
This is not only attractive in practice but also important in our comparisons between plain and residual networks.
--->
이는 실제로 매력적일 뿐만 아니라, 평범한 네트워크(plain networks)와 잔차 네트워크(residual networks)를 비교하는 데 있어서도 중요합니다.










# 매개변수 개수, 깊이(depth), 폭(width), 계산 비용(computational cost)이 동일한(단, 무시할 수 있는 수준의 원소별 덧셈 제외) 평범한 네트워크와 잔차 네트워크를 공정하게 비교 가능
We can fairly compare plain/residual networks that simultaneously have the same number of parameters, depth, width, and computational cost (except for the negligible element-wise addition).
---->
매개변수 수, 깊이(depth), 폭(width), 계산 비용(computational cost)이 동일한 상태에서 평범한 네트워크(plain networks)와 잔차 네트워크(residual networks)를 공정하게 비교할 수 있습니다. (단, 무시할 수 있을 정도로 작은 **원소별 덧셈(element-wise addition)**은 제외합니다.)


# 식 (1)에서 x와 F의 차원(dimensions)은 같아야 함
The dimensions of x and F must be equal in Eqn.(1).
-->
식 (1)에서 x와 F의 **차원(dimensions)**은 동일해야 합니다.


# 만약 그렇지 않을 경우(예: 입력/출력 채널 변경 시), 차원을 맞추기 위해 쇼트컷 연결을 통해 선형 프로젝션(linear projection) Ws를 수행할 수 있음:
If this is not the case (e.g., when changing the input/output channels), we can perform a linear projection Ws by the shortcut connections to match the dimensions:
--->
만약 그렇지 않은 경우(예: 입력/출력 채널을 변경할 때), 차원을 맞추기 위해 **쇼트컷 연결(shortcut connections)**을 통해 선형 변환(linear projection) Ws 를 수행할 수 있습니다:

y = F(x, {Wi}) + Wsx. [그림 2]












# Eqn.(1)에서 정방행렬 Ws를 사용할 수도 있습니다.
# 하지만 실험을 통해 항등 매핑(identity mapping)이 열화 문제(degradation problem)를 해결하기에 충분하고, 경제적이라는 것을 보여줍니다. 따라서 Ws는 차원을 맞출 때만 사용됩니다.
We can also use a square matrix Ws in Eqn.(1). 
But we will show by experiments that the identity mapping is sufficient
for addressing the degradation problem and is economical, and thus Ws is only used when matching dimensions.
--->
우리는 Eqn.(1)에서 정방행렬 Ws를 사용할 수도 있습니다.
하지만 실험을 통해 항등 매핑(identity mapping)이 열화 문제(degradation problem)를 해결하기에 충분하며, 경제적이라는 것을 보여줄 것입니다. 따라서 Ws는 차원을 맞출 때만 사용됩니다.


# 잔차 함수(residual function) F의 형태는 유연합니다.
# 본 논문에서는 2개 또는 3개의 레이어로 구성된 F를 사용한 실험을 다루지만, 더 많은 레이어도 가능합니다.
The form of the residual function F is flexible. 
Experiments in this paper involve a function F that has two or three layers (Fig. 5), while more layers are possible. 
--->
잔차 함수 F의 형태는 유연합니다.
본 논문에서는 F가 2개 또는 3개의 레이어로 구성된 실험을 다루고 있지만(Fig. 5 참조), 더 많은 레이어도 가능합니다.


# 그러나 F가 단일 레이어만 가진다면, Eqn.(1)은 선형 레이어와 유사하게 됩니다:
# y = W1x + x와 같으며, 이는 이점이 관찰되지 않았습니다.
But if F has only a single layer, Eqn.(1) is similar to a linear layer:
y = W1x + x, for which we have not observed advantages.
--->
그러나 ( F )가 단일 레이어만 가진다면, Eqn.(1)은 선형 레이어와 유사하게 됩니다:  
( y = W_1x + x ).  이 경우 특별한 이점은 관찰되지 않았습니다.







# 또한 위의 표기법은 단순화를 위해 완전 연결층(fully-connected layers)에 대해 서술되었지만, 이는 합성곱층(convolutional layers)에도 적용 가능합니다.
# 함수 F(x, {Wi})는 여러 합성곱층을 나타낼 수 있습니다.
We also note that although the above notations are about fully-connected layers for simplicity, they are applicable to convolutional layers.
The function F(x, {Wi}) can represent multiple convolutional layers. 
--->
또한, 위의 표기법은 단순화를 위해 완전 연결층(fully-connected layers)에 대해 서술되었지만, 이는 합성곱층(convolutional layers)에도 적용 가능합니다.
함수 𝐹(𝑥,{𝑊𝑖})F(x,{Wi})는 여러 합성곱층을 나타낼 수 있습니다.


# 요소별 덧셈(element-wise addition)은 두 특징 맵(feature map)에서 채널 단위로 수행됩니다.
The element-wise addition is performed on two feature maps, channel by channel.
--->
요소별 덧셈(element-wise addition)은 두 개의 특징 맵(feature map)에서 채널 단위로 수행됩니다.


# 다양한 단순 네트워크(plain nets)와 잔차 네트워크(residual nets)를 테스트한 결과, 일관된 현상을 관찰했습니다.
# 논의를 위해, ImageNet에 대한 두 가지 모델을 다음과 같이 설명합니다.
We have tested various plain/residual nets, and have observed consistent phenomena. 
To provide instances for discussion, we describe two models for ImageNet as follows.
--->
우리는 다양한 단순 네트워크(plain nets)와 잔차 네트워크(residual nets)를 테스트했으며, 일관된 현상을 관찰했습니다.
논의를 위해, ImageNet에 대한 두 가지 모델을 다음과 같이 설명합니다.










# 단순 네트워크(Plain Network). 우리의 단순 네트워크 베이스라인(Fig. 3, 중간)은 주로 VGG 네트워크(Fig. 3, 왼쪽)의 철학에서 영감을 받았습니다.
# 합성곱층(convolutional layers)은 주로 3×3 필터를 사용하며, 두 가지 단순한 설계 규칙을 따릅니다:
Plain Network. Our plain baselines (Fig. 3, middle) are mainly inspired by the philosophy of VGG nets [40] (Fig. 3, left).
The convolutional layers mostly have 3×3 filters and follow two simple design rules:
--->
단순 네트워크(Plain Network):
우리의 단순 네트워크 베이스라인(Fig. 3, 중간)은 주로 VGG 네트워크(Fig. 3, 왼쪽)의 설계 철학에서 영감을 받았습니다.
합성곱층(convolutional layers)은 주로 3×3 필터를 사용하며, 두 가지 단순한 설계 규칙을 따릅니다:

# (i) 동일한 출력 특징 맵(feature map) 크기를 가지는 경우, 레이어는 동일한 수의 필터를 갖습니다.
# (ii) 특징 맵의 크기가 절반으로 줄어들면, 레이어당 시간 복잡성을 유지하기 위해 필터 수를 두 배로 증가시킵니다.
(i) for the same output feature map size, the layers have the same number of filters;
(ii) if the feature map size is halved, the number of filters is doubled so as to preserve the time complexity per layer.
--->
(i) 동일한 출력 특징 맵(feature map) 크기를 가지는 경우, 각 레이어는 동일한 수의 필터를 가집니다.
(ii) 특징 맵의 크기가 절반으로 줄어들면, 레이어당 시간 복잡성을 유지하기 위해 필터 수를 두 배로 증가시킵니다.


# 다운샘플링(downsampling)은 stride가 2인 합성곱층을 통해 직접 수행합니다.
# 네트워크는 전역 평균 풀링(global average pooling) 층과 1000개 출력 노드를 가지는 완전 연결(fully-connected) 층(소프트맥스 포함)으로 끝납니다.
We perform downsampling directly by convolutional layers that have a stride of 2.
The network ends with a global average pooling layer and a 1000-way fully-connected layer with softmax.
--->
우리는 stride가 2인 합성곱층(convolutional layer)을 사용하여 다운샘플링(downsampling)을 직접 수행합니다.
네트워크는 전역 평균 풀링(global average pooling) 층과 소프트맥스(softmax)를 포함한 1000개의 클래스 출력을 위한 완전 연결층(fully-connected layer)으로 종료됩니다.
# Fig. 3(중간)의 네트워크는 총 34개의 가중치가 있는 레이어로 구성됩니다.
# 주목할 점은 우리의 모델이 VGG 네트워크(Fig. 3, 왼쪽)보다 적은 필터와 낮은 복잡성을 가진다는 점입니다.
The total number of weighted layers is 34 in Fig. 3 (middle).
It is worth noticing that our model has fewer filters and lower complexity than VGG nets [40] (Fig. 3, left).
--->
Fig. 3(중간)에 나타난 네트워크의 가중치가 있는 레이어는 총 34개입니다.
우리의 모델은 VGG 네트워크(Fig. 3, 왼쪽)보다 필터 수가 적고, 복잡성도 낮다는 점에 주목할 필요가 있습니다.


# 우리의 34 레이어 베이스라인은 36억 FLOP(곱셈-덧셈 연산)를 가지며, 이는 VGG-19(196억 FLOP)의 18%에 불과합니다.
Our 34-layer baseline has 3.6 billion FLOPs (multiply-adds), which is only 18% of VGG-19 (19.6 billion FLOPs).
---->
우리의 34-레이어 베이스라인은 36억 FLOP(곱셈-덧셈 연산)를 가지며, 이는 VGG-19(196억 FLOP)의 18%에 불과합니다.



# Figure 3. ImageNet을 위한 예제 네트워크 구조.
# 왼쪽: 참고용으로 사용된 VGG-19 모델(19.6억 FLOPs).
Figure 3. Example network architectures for ImageNet.
Left: the VGG-19 model [40] (19.6 billion FLOPs) as a reference.
--->
Figure 3. ImageNet을 위한 예제 네트워크 아키텍처.
왼쪽: 참고용으로 사용된 VGG-19 모델 [40] (196억 FLOPs).


# 중간: 34개의 파라미터 레이어와 36억 FLOPs를 가진 단순 네트워크(plain network).
# 오른쪽: 34개의 파라미터 레이어와 36억 FLOPs를 가진 잔차 네트워크(residual network).
Middle: a plain network with 34 parameter layers (3.6 billion FLOPs).
Right: a residual network with 34 parameter layers (3.6 billion FLOPs).
--->
중간: 34개의 파라미터 레이어와 36억 FLOPs를 가진 단순 네트워크(Plain Network).
오른쪽: 34개의 파라미터 레이어와 36억 FLOPs를 가진 잔차 네트워크(Residual Network).


# 점선으로 표시된 숏컷(shortcut)은 차원을 증가시킵니다.
# Table 1은 더 많은 세부사항과 다른 변형들을 보여줍니다.
The dotted shortcuts increase dimensions.
Table 1 shows more details and other variants.
-->
점선으로 표시된 숏컷(shortcut)은 차원을 증가시킵니다.
표 1(Table 1)은 더 많은 세부사항과 다른 변형들을 제공합니다.


# 잔차 네트워크(Residual Network): 위의 단순 네트워크(Plain Network)를 기반으로 숏컷 연결(shortcut connections)을 추가하여(Fig. 3, 오른쪽) 네트워크를 잔차 버전으로 변환합니다.
Residual Network. Based on the above plain network, we insert shortcut connections (Fig. 3, right) which turn the network into its counterpart residual version.
--->
잔차 네트워크(Residual Network):
위의 단순 네트워크(Plain Network)를 기반으로 숏컷 연결(shortcut connections)을 추가하여(Fig. 3, 오른쪽) 네트워크를 잔차 버전(Residual Version)으로 변환합니다.




# 항등 숏컷(identity shortcuts, Eqn.(1))은 입력과 출력의 차원이 동일할 때(Fig. 3에서 실선 숏컷) 직접 사용할 수 있습니다.
The identity shortcuts (Eqn.(1)) can be directly used when the input and output are of the same dimensions (solid line shortcuts in Fig. 3).
--->
항등 숏컷(identity shortcuts, Eqn.(1))은 입력과 출력의 차원이 동일할 경우(Fig. 3에서 실선 숏컷) 직접 사용할 수 있습니다.


# 차원이 증가하는 경우(Fig. 3에서 점선 숏컷), 두 가지 옵션을 고려합니다:
When the dimensions increase (dotted line shortcuts in Fig. 3), we consider two options:
--->
차원이 증가하는 경우(Fig. 3에서 점선 숏컷), 두 가지 옵션을 고려합니다:


# (A) 숏컷은 여전히 항등 매핑(identity mapping)을 수행하며, 차원을 증가시키기 위해 추가적인 0값을 채웁니다(padding). 이 옵션은 추가 파라미터를 도입하지 않습니다.
(A) The shortcut still performs identity mapping, with extra zero entries padded for increasing dimensions. This option introduces no extra parameter;
--->
(A) 숏컷은 여전히 항등 매핑(identity mapping)을 수행하며, 차원을 증가시키기 위해 추가적인 0값을 채웁니다(padding). 이 옵션은 추가적인 파라미터를 도입하지 않습니다.


# (B) 차원을 맞추기 위해 Eqn.(2)에 나타난 프로젝션 숏컷(projection shortcut)을 사용합니다(1×1 합성곱으로 수행).
(B) The projection shortcut in Eqn.(2) is used to match dimensions (done by 1×1 convolutions).
-->
(B) 차원을 맞추기 위해 Eqn.(2)에 나타난 프로젝션 숏컷(projection shortcut)을 사용합니다(1×1 합성곱으로 수행).









# 두 옵션 모두, 숏컷이 서로 다른 크기의 특징 맵(feature map)을 가로지를 때, stride를 2로 설정하여 수행됩니다.
For both options, when the shortcuts go across feature maps of two sizes, they are performed with a stride of 2.
--->
두 옵션 모두, 숏컷이 서로 다른 크기의 특징 맵(feature map)을 가로지를 때, stride를 2로 설정하여 수행됩니다.

# 3.4. 구현 (Implementation)
3.4. Implementation


# 우리의 ImageNet 구현은 [21, 40]에서 제시된 방식을 따릅니다.
Our implementation for ImageNet follows the practice in [21, 40].
-->
우리의 ImageNet 구현은 [21, 40]에서 제안된 방식을 따릅니다.

# 이미지는 크기 증강(scale augmentation)을 위해 짧은 변의 길이를 [256, 480] 범위에서 랜덤으로 샘플링하여 크기가 조정됩니다[40].
The image is resized with its shorter side randomly sampled in [256, 480] for scale augmentation [40].
--->
이미지는 크기 증강(scale augmentation)을 위해 짧은 변의 길이를 [256, 480] 범위에서 랜덤으로 샘플링하여 크기가 조정됩니다 [40].

# 224×224 크기의 패치(crop)는 이미지나 수평으로 뒤집은 이미지에서 랜덤하게 샘플링되며, 픽셀 단위 평균(per-pixel mean)을 차감합니다[21].
A 224×224 crop is randomly sampled from an image or its horizontal flip, with the per-pixel mean subtracted [21].
--->
224×224 크기의 패치(crop)는 이미지나 수평으로 뒤집힌 이미지에서 랜덤하게 샘플링되며, 픽셀 단위 평균(per-pixel mean)이 차감됩니다 [21].


# [21]에서 제안된 표준 색상 증강(color augmentation)을 사용합니다.
The standard color augmentation in [21] is used.
--->
[21]에서 제안된 표준 색상 증강(color augmentation)을 사용합니다.



# [16]을 따라, 각 합성곱(convolution) 이후와 활성화 함수(activation) 이전에 배치 정규화(Batch Normalization, BN)를 적용합니다.
We adopt batch normalization (BN) [16] right after each convolution and before activation, following [16].
--->
우리는 [16]을 따라 각 합성곱(convolution) 이후와 활성화 함수(activation) 이전에 배치 정규화(Batch Normalization, BN)를 적용합니다.


# 가중치는 [12]에서 제안된 방식으로 초기화하며, 모든 단순 네트워크(plain nets)와 잔차 네트워크(residual nets)를 처음부터 학습합니다.
We initialize the weights as in [12] and train all plain/residual nets from scratch.
--->
우리는 가중치를 [12]에서 제안된 방식으로 초기화하고, 모든 단순 네트워크(plain nets)와 잔차 네트워크(residual nets)를 처음부터 학습합니다.


# 미니 배치 크기를 256으로 설정하고 확률적 경사 하강법(SGD)을 사용합니다.
We use SGD with a mini-batch size of 256.
--->
우리는 미니 배치 크기를 256으로 설정하고 확률적 경사 하강법(SGD)을 사용합니다.


# 초기 학습률은 0.1이며, 에러가 감소하지 않는 지점(plateau)에 도달하면 10으로 나눕니다. 모델은 최대 60만 회 반복(iteration)으로 학습됩니다.
The learning rate starts from 0.1 and is divided by 10 when the error plateaus, and the models are trained for up to 60 × 10⁴ iterations.
---->
학습률은 0.1에서 시작하며, 에러가 감소하지 않는 지점(plateau)에 도달하면 10으로 나눕니다. 모델은 최대 60 × 10⁴번의 반복(iteration) 동안 학습됩니다.

# 가중치 감쇠(weight decay)는 0.0001, 모멘텀(momentum)은 0.9로 설정합니다.
We use a weight decay of 0.0001 and a momentum of 0.9.
--->
우리는 가중치 감쇠(weight decay)를 0.0001로 설정하고, 모멘텀(momentum)은 0.9로 사용합니다.

# [16]에서의 방식에 따라 드롭아웃(dropout)은 사용하지 않습니다.
We do not use dropout [13], following the practice in [16].
--->
우리는 [16]에서의 방식을 따라 드롭아웃(dropout)을 사용하지 않습니다 [13].

# 테스트 시, 비교 연구를 위해 표준 10-crop 테스트 방식을 채택합니다[21].
In testing, for comparison studies we adopt the standard 10-crop testing [21].
--->
테스트 시, 비교 연구를 위해 [21]에서 제안된 표준 10-crop 테스트 방식을 채택합니다.


# 최상의 결과를 위해 [40, 12]에서 제안된 완전 합성곱(fully-convolutional) 형태를 채택하고, 여러 스케일에서 점수를 평균화합니다.
(이미지는 짧은 변의 길이가 {224, 256, 384, 480, 640} 중 하나가 되도록 크기가 조정됩니다.)
For best results, we adopt the fully-convolutional form as in [40, 12], and average the scores at multiple scales
(images are resized such that the shorter side is in {224, 256, 384, 480, 640}).
--->
최상의 결과를 위해 [40, 12]에서 제안된 완전 합성곱(fully-convolutional) 형태를 채택하고, 여러 스케일에서 점수를 평균화합니다.
이미지는 짧은 변의 길이가 {224, 256, 384, 480, 640} 중 하나가 되도록 크기를 조정합니다.

4. Experiments
4.1. ImageNet Classification

# 우리의 방법을 1000개의 클래스가 포함된 ImageNet 2012 분류 데이터셋 [35]에서 평가합니다.
# 모델은 128만 개의 학습 이미지로 학습되며, 5만 개의 검증 이미지로 평가됩니다.
We evaluate our method on the ImageNet 2012 classification dataset [35] that consists of 1000 classes.
The models are trained on the 1.28 million training images, and evaluated on the 50k validation images.
--->
우리는 1000개의 클래스로 구성된 ImageNet 2012 분류 데이터셋 [35]에서 우리의 방법을 평가합니다.
모델은 128만 개의 학습 이미지로 학습되며, 5만 개의 검증 이미지로 평가됩니다.








# 또한 테스트 서버에서 보고한 10만 개의 테스트 이미지에 대한 최종 결과를 얻습니다.
# 우리는 top-1 에러율과 top-5 에러율을 모두 평가합니다.
We also obtain a final result on the 100k test images, reported by the test server.
We evaluate both top-1 and top-5 error rates.
--->
우리는 테스트 서버에서 보고한 10만 개의 테스트 이미지에 대한 최종 결과도 얻습니다.
top-1 에러율과 top-5 에러율을 모두 평가합니다.


# 단순 네트워크(Plain Networks): 먼저 18 레이어와 34 레이어로 구성된 단순 네트워크를 평가합니다.
# 34 레이어 단순 네트워크는 Fig. 3(중간)에 나타나 있으며, 18 레이어 단순 네트워크도 유사한 형태입니다.
Plain Networks. We first evaluate 18-layer and 34-layer plain nets.
The 34-layer plain net is in Fig. 3 (middle). The 18-layer plain net is of a similar form.
-->
단순 네트워크(Plain Networks):
우리는 먼저 18 레이어와 34 레이어로 구성된 단순 네트워크를 평가합니다.
34 레이어 단순 네트워크는 Fig. 3(중간)에 나타나 있으며, 18 레이어 단순 네트워크도 유사한 형태를 가지고 있습니다.


# 자세한 아키텍처는 Table 1을 참조하세요.
# Table 2의 결과는 더 깊은 34 레이어 단순 네트워크가 더 얕은 18 레이어 단순 네트워크보다 검증 에러(validation error)가 더 높음을 보여줍니다.
See Table 1 for detailed architectures.
The results in Table 2 show that the deeper 34-layer plain net has higher validation error than the shallower 18-layer plain net.
-->
자세한 아키텍처는 Table 1을 참조하세요.
Table 2의 결과는 더 깊은 34 레이어 단순 네트워크가 더 얕은 18 레이어 단순 네트워크보다 검증 에러(validation error)가 더 높음을 보여줍니다.








# 그 이유를 밝히기 위해, Fig. 4(왼쪽)에서 학습 과정 동안의 학습 에러(training error)와 검증 에러(validation error)를 비교합니다.
To reveal the reasons, in Fig. 4 (left) we compare their training/validation errors during the training procedure.
--->
그 이유를 밝히기 위해, Fig. 4(왼쪽)에서 학습 과정 동안의 학습 에러(training error)와 검증 에러(validation error)를 비교합니다.


# 우리는 열화 문제(degradation problem)를 관찰했습니다.
We have observed the degradation problem.
--->
우리는 열화 문제(degradation problem)를 관찰했습니다.


the Table 1. Architectures for ImageNet. Building blocks are shown in brackets (see also Fig. 5), with the numbers of blocks stacked. Downsampling is performed by conv3 1, conv4 1, and conv5 1 with a stride of 2.
--->
표 1. ImageNet을 위한 아키텍처
빌딩 블록(building blocks)은 괄호 안에 표시되며(Fig. 5도 참조), 쌓인 블록의 개수가 함께 표시됩니다.
다운샘플링(downsampling)은 conv3_1, conv4_1, conv5_1에서 stride를 2로 설정하여 수행됩니다.










# Figure 4. ImageNet에서의 학습 과정.
# 얇은 곡선은 학습 에러(training error)를 나타내며, 굵은 곡선은 중앙 크롭(center crops)의 검증 에러(validation error)를 나타냅니다.
Figure 4. Training on ImageNet.
Thin curves denote training error, and bold curves denote validation error of the center crops.
--->
Figure 4. ImageNet에서의 학습 과정
얇은 곡선은 학습 에러(training error)를 나타내며, 굵은 곡선은 중앙 크롭(center crops)의 검증 에러(validation error)를 나타냅니다.


# 왼쪽: 18 레이어와 34 레이어로 구성된 단순 네트워크(plain networks).
# 오른쪽: 18 레이어와 34 레이어로 구성된 잔차 네트워크(ResNets).
Left: plain networks of 18 and 34 layers.
Right: ResNets of 18 and 34 layers.
--->
왼쪽: 18 레이어와 34 레이어로 구성된 단순 네트워크(Plain Networks).
오른쪽: 18 레이어와 34 레이어로 구성된 잔차 네트워크(ResNets).


# 이 그래프에서 잔차 네트워크는 단순 네트워크에 비해 추가적인 파라미터를 가지지 않습니다.
In this plot, the residual networks have no extra parameter compared to their plain counterparts.
--->
이 그래프에서 잔차 네트워크(Residual Networks)는 단순 네트워크(Plain Networks)와 비교했을 때 추가적인 파라미터를 가지지 않습니다.





Table 2. Top-1 error (%, 10-crop testing) on ImageNet validation.
Here the ResNets have no extra parameter compared to their plain
counterparts. Fig. 4 shows the training procedures.
--->
Table 2. ImageNet 검증 데이터셋의 Top-1 에러율(%, 10-crop 테스트 기준)
여기에서 잔차 네트워크(ResNets)는 단순 네트워크(Plain Networks)와 비교했을 때 추가적인 파라미터를 가지지 않습니다.
학습 절차는 Fig. 4에 나타나 있습니다.




























# 34 레이어 단순 네트워크는 전체 학습 과정 동안 18 레이어 단순 네트워크보다 높은 학습 에러를 보입니다. 
# 이는 18 레이어 네트워크의 해 공간(solution space)이 34 레이어 네트워크의 해 공간의 부분 공간(subspace)에 속한다는 점에서 주목할 만합니다.
The 34-layer plain net has higher training error throughout the whole training procedure, even though the solution space of the 18-layer plain network is a subspace of that of the 34-layer one.
--->
34 레이어 단순 네트워크는 전체 학습 과정에서 18 레이어 단순 네트워크보다 더 높은 학습 에러를 보입니다.
이는 18 레이어 네트워크의 해 공간(solution space)이 34 레이어 네트워크의 해 공간의 부분 공간(subspace)에 속한다는 점을 감안할 때 주목할 만한 결과입니다.


# 우리는 이러한 최적화의 어려움이 기울기 소멸(vanishing gradients)로 인해 발생했을 가능성이 낮다고 주장합니다.
# 이 단순 네트워크들은 BN(Batch Normalization) [16]을 사용하여 학습되었으며, 이는 순방향으로 전파되는 신호가 0이 아닌 분산(non-zero variance)을 가지도록 보장합니다.
We argue that this optimization difficulty is unlikely to be caused by vanishing gradients.
These plain networks are trained with BN [16], which ensures forward propagated signals to have non-zero variances.
--->
우리는 이러한 최적화의 어려움이 기울기 소멸(vanishing gradients)로 인해 발생했을 가능성이 낮다고 주장합니다.
이 단순 네트워크들은 BN(Batch Normalization) [16]을 사용하여 학습되었으며, 이는 순방향으로 전파되는 신호가 0이 아닌 분산(non-zero variance)을 가지도록 보장합니다.


# 또한 역전파되는 기울기(gradients)가 BN을 통해 정상적인 크기(norm)를 유지함을 확인했습니다.
# 따라서 순방향 신호도, 역방향 신호도 소멸하지 않습니다.
We also verify that the backward propagated gradients exhibit healthy norms with BN.
So neither forward nor backward signals vanish.
--->
우리는 또한 BN(Batch Normalization)을 통해 역전파되는 기울기(gradients)가 정상적인 크기(norm)를 유지함을 확인했습니다.
따라서 순방향 신호와 역방향 신호 모두 소멸하지 않습니다.

# 실제로, 34 레이어 단순 네트워크는 여전히 경쟁력 있는 정확도(Table 3)를 달성할 수 있으며, 이는 해법(solver)이 어느 정도 작동함을 시사합니다.
# 우리는 깊은 단순 네트워크가 지수적으로 낮은 수렴률(convergence rate)을 가지며, 이것이 학습 에러를 줄이는 데 영향을 미친다고 추측합니다.
In fact, the 34-layer plain net is still able to achieve competitive accuracy (Table 3), suggesting that the solver works to some extent.
We conjecture that the deep plain nets may have exponentially low convergence rates, which impact the reducing of the training error.
--->
사실, 34 레이어 단순 네트워크는 여전히 경쟁력 있는 정확도(Table 3)를 달성할 수 있으며, 이는 해법(solver)이 어느 정도 작동함을 시사합니다.
우리는 깊은 단순 네트워크가 지수적으로 낮은 수렴률(convergence rate)을 가질 수 있으며, 이것이 학습 에러를 줄이는 데 영향을 미친다고 추측합니다.


# 이러한 최적화 어려움의 원인은 향후 연구에서 다룰 예정입니다.
The reason for such optimization difficulties will be studied in the future.
--->
이러한 최적화의 어려움에 대한 원인은 향후 연구에서 다룰 예정입니다.



Second, compared to its plain counterpart, the 34-layer Table 3. Error rates (%, 10-crop testing) on ImageNet validation.
VGG-16 is based on our test. ResNet-50/101/152 are of option B
that only uses projections for increasing dimensions.
--->
둘째, 단순 네트워크와 비교했을 때, 34 레이어 네트워크의 성능은 다음과 같습니다(Table 3).
Table 3. ImageNet 검증 데이터셋의 에러율(%, 10-crop 테스트 기준)
VGG-16은 우리의 테스트 기반에서 평가되었습니다.
ResNet-50/101/152는 차원을 증가시키기 위해 프로젝션(option B)을 사용하는 방식만 적용한 결과입니다.





Table 4. Error rates (%) of single-model results on the ImageNet
validation set (except †reported on the test set).
-->
Table 4. ImageNet 검증 세트에서 단일 모델 결과의 에러율(%)
(단, †표시는 테스트 세트에서 보고된 결과를 나타냅니다.)




Table 5. Error rates (%) of ensembles. The top-5 error is on the
test set of ImageNet and reported by the test server.
-->
Table 5. 앙상블 결과의 에러율(%)
Top-5 에러율은 ImageNet 테스트 세트에서 측정되었으며, 테스트 서버에 의해 보고된 결과입니다.


# ResNet은 학습 에러를 성공적으로 줄임으로써(Table 2 참조) Top-1 에러를 3.5% 감소시켰습니다(Fig. 4 오른쪽 vs. 왼쪽).
# 이 비교를 통해, 매우 깊은 시스템에서 잔차 학습(residual learning)의 효과가 입증됩니다.
ResNet reduces the top-1 error by 3.5% (Table 2), resulting from the successfully reduced training error (Fig. 4 right vs. left).
This comparison verifies the effectiveness of residual learning on extremely deep systems.
--->
학습 에러가 감소한 결과(Fig. 4 오른쪽 vs. 왼쪽)입니다.
이 비교는 잔차 학습(residual learning)이 매우 깊은 시스템에서 효과적임을 입증합니다.


# 마지막으로, 18 레이어 단순 네트워크(plain net)와 잔차 네트워크(ResNet)는 유사한 정확도를 보이지만(Table 2 참조), 18 레이어 ResNet은 더 빠르게 수렴한다는 점을 확인했습니다(Fig. 4 오른쪽 vs. 왼쪽).
Last, we also note that the 18-layer plain/residual nets are comparably accurate (Table 2), but the 18-layer ResNet converges faster (Fig. 4 right vs. left).
-->
마지막으로, 18 레이어 단순 네트워크(plain net)와 잔차 네트워크(ResNet)는 유사한 정확도를 보이지만(Table 2 참조), 18 레이어 ResNet은 더 빠르게 수렴한다는 점을 확인했습니다(Fig. 4 오른쪽 vs. 왼쪽).


# 네트워크가 "지나치게 깊지 않을 때"(여기서는 18 레이어), 현재의 SGD 해법(SGD solver)은 단순 네트워크에 대해 여전히 좋은 해를 찾을 수 있습니다.
When the net is “not overly deep” (18 layers here), the current SGD solver is still able to find good solutions to the plain net.
--->
네트워크가 "지나치게 깊지 않을 때"(여기서는 18 레이어), 현재의 SGD 해법(SGD solver)은 단순 네트워크(plain net)에 대해 여전히 좋은 해(solution)를 찾을 수 있습니다.


In this case, the ResNet eases the optimization by providing faster convergence at the early stage.
--->
이 경우, ResNet은 초기 단계에서 더 빠른 수렴을 제공함으로써 최적화를 용이하게 합니다.


# 항등(Identity) 숏컷 vs. 프로젝션(Projection) 숏컷
Identity vs. Projection Shortcuts. 








We have shown that Figure 5. A deeper residual function F for ImageNet. Left: a
building block (on 56×56 feature maps) as in Fig. 3 for ResNet34. Right: a “bottleneck” building block for ResNet-50/101/152.
-->
우리는 다음을 보여주었습니다:
Figure 5. ImageNet을 위한 더 깊은 잔차 함수 F 
왼쪽: ResNet-34의 빌딩 블록(56×56 특징 맵)으로 Fig. 3에 나타난 구조와 동일합니다.
오른쪽: ResNet-50/101/152를 위한 "병목(bottleneck)" 빌딩 블록입니다.


# 파라미터가 없는 항등 숏컷(identity shortcut)은 학습을 돕습니다.
Parameter-free, identity shortcuts help with training.
--->
파라미터가 없는 항등 숏컷(identity shortcut)은 학습을 돕습니다.


# 다음으로, 프로젝션 숏컷(projection shortcut, Eqn.(2))을 조사합니다.
Next we investigate projection shortcuts (Eqn.(2)).
--->
다음으로, 프로젝션 숏컷(projection shortcut, Eqn.(2))을 조사합니다.


# Table 3에서는 다음 세 가지 옵션을 비교합니다:
In Table 3 we compare three options:


# (A) 차원을 증가시키기 위해 제로 패딩(zero-padding) 숏컷을 사용하며, 모든 숏컷은 파라미터를 사용하지 않습니다(이 방식은 Table 2와 Fig. 4 오른쪽과 동일합니다).
(A) Zero-padding shortcuts are used for increasing dimensions, and all shortcuts are parameter-free (the same as Table 2 and Fig. 4 right);
--->
(A) 차원을 증가시키기 위해 제로 패딩(zero-padding) 숏컷을 사용하며, 모든 숏컷은 파라미터를 사용하지 않습니다(이는 Table 2와 Fig. 4 오른쪽과 동일합니다).


# (B) 차원을 증가시키기 위해 프로젝션 숏컷을 사용하며, 나머지 숏컷은 항등입니다.
(B) Projection shortcuts are used for increasing dimensions, and other shortcuts are identity;
--->
(B) 차원을 증가시키기 위해 프로젝션 숏컷(projection shortcuts)을 사용하며, 나머지 숏컷은 항등(identity)입니다.
# (C) 모든 숏컷을 프로젝션으로 사용합니다.
(C) All shortcuts are projections.
--->
(C) 모든 숏컷이 프로젝션(projections)으로 사용됩니다.


# Table 3은 이 세 가지 옵션이 모두 단순 네트워크(plain network)보다 훨씬 우수함을 보여줍니다.
Table 3 shows that all three options are considerably better than the plain counterpart.
--->
Table 3은 세 가지 옵션이 모두 단순 네트워크(plain counterpart)보다 훨씬 우수하다는 것을 보여줍니다.


# B는 A보다 약간 더 우수합니다.
B is slightly better than A.
--->
B는 A보다 약간 더 우수합니다.


# 이는 A에서 제로 패딩된 차원(zero-padded dimensions)이 잔차 학습(residual learning)을 수행하지 않기 때문이라고 주장합니다.
We argue that this is because the zero-padded dimensions in A indeed have no residual learning.
--->
이는 A에서 제로 패딩된 차원(zero-padded dimensions)이 실제로 잔차 학습(residual learning)을 수행하지 않기 때문이라고 주장합니다.


# C는 B보다 약간 더 우수하며, 이는 많은(총 13개의) 프로젝션 숏컷이 추가 파라미터를 도입했기 때문이라고 봅니다.
C is marginally better than B, and we attribute this to the extra parameters introduced by many (thirteen) projection shortcuts.
--->
C는 B보다 약간 더 우수하며, 이는 많은(총 13개의) 프로젝션 숏컷(projection shortcuts)에 의해 추가된 파라미터 때문이라고 봅니다.




# 하지만 A, B, C 간의 미미한 차이는 프로젝션 숏컷이 열화 문제(degradation problem)를 해결하는 데 필수적이지 않음을 나타냅니다.
But the small differences among A/B/C indicate that projection shortcuts are not essential for addressing the degradation problem.
--->
하지만 A, B, C 간의 작은 차이는 프로젝션 숏컷(projection shortcuts)이 열화 문제(degradation problem)를 해결하는 데 필수적이지 않음을 나타냅니다.


# 따라서 나머지 논문에서는 메모리/시간 복잡성과 모델 크기를 줄이기 위해 옵션 C를 사용하지 않습니다.
So we do not use option C in the rest of this paper, to reduce memory/time complexity and model sizes.
--->
따라서 메모리/시간 복잡성과 모델 크기를 줄이기 위해, 이 논문의 나머지 부분에서는 옵션 C를 사용하지 않습니다.


# 항등 숏컷은 아래에서 설명하는 병목 구조(bottleneck architecture)의 복잡성을 증가시키지 않기 때문에 특히 중요합니다.
Identity shortcuts are particularly important for not increasing the complexity of the bottleneck architectures that are introduced below.
--->
항등 숏컷(identity shortcuts)은 아래에서 설명하는 병목 아키텍처(bottleneck architectures)의 복잡성을 증가시키지 않기 때문에 특히 중요합니다.
















Deeper Bottleneck Architectures. 

# 이제 ImageNet을 위한 더 깊은 네트워크를 설명합니다.
Next we describe our deeper nets for ImageNet.


# 허용 가능한 학습 시간에 대한 우려 때문에, 우리는 빌딩 블록을 병목(bottleneck) 설계로 수정했습니다.
Because of concerns on the training time that we can afford, we modify the building block as a bottleneck design.
--->
우리가 감당할 수 있는 훈련 시간에 대한 우려로 인해, 빌딩 블록(모델의 기본 구성 요소)을 병목(bottleneck) 설계로 변경했습니다.


# 각 잔차 함수(F)에서, 2개 레이어 대신 3개 레이어를 쌓아 사용합니다(Fig. 5).
For each residual function F, we use a stack of 3 layers instead of 2 (Fig. 5).
--->
각 잔차 함수 F에 대해, 우리는 2개의 층 대신 3개의 층을 쌓아서 사용합니다 (그림 5)


# 세 개의 레이어는 1×1, 3×3, 그리고 1×1 합성곱(convolution)으로 구성됩니다. 
# 여기서 1×1 레이어는 차원을 축소하고 다시 복원하는 역할을 하며, 3×3 레이어는 입력/출력 차원이 더 작은 병목 역할을 합니다.
The three layers are 1×1, 3×3, and 1×1 convolutions, where the 1×1 layers are responsible for reducing and then increasing (restoring) dimensions, leaving the 3×3 layer a bottleneck with smaller input/output dimensions.
--->
이 세 개의 층은 1×1, 3×3, 그리고 1×1 컨볼루션으로 구성되며, 여기서 1×1 층은 차원을 줄이고 다시 증가(복원)시키는 역할을 합니다. 3×3 층은 입력 및 출력 차원이 더 작은 병목(bottleneck) 역할을 하게 됩니다.

# Fig. 5는 두 설계가 유사한 시간 복잡도를 가지는 예제를 보여줍니다.
# 파라미터가 없는 항등 숏컷(identity shortcut)은 병목 아키텍처에서 특히 중요합니다.
Fig. 5 shows an example, where both designs have similar time complexity.
The parameter-free identity shortcuts are particularly important for the bottleneck architectures.
--->
그림 5는 예제를 보여주며, 두 가지 설계가 유사한 시간 복잡도를 가지고 있음을 나타냅니다. 파라미터가 없는(identity) 숏컷(shortcuts)은 특히 병목(bottleneck) 아키텍처에서 중요합니다.
# 만약 Fig. 5(오른쪽)의 항등 숏컷이 프로젝션으로 대체되면, 숏컷이 두 고차원 단(high-dimensional ends)에 연결되기 때문에 시간 복잡도와 모델 크기가 두 배로 증가합니다.
If the identity shortcut in Fig. 5 (right) is replaced with projection, one can show that the time complexity and model size are doubled, as the shortcut is connected to the two high-dimensional ends.
--->
그림 5 (오른쪽)에서 아이덴티티 숏컷(identity shortcut)을 프로젝션(projection)으로 대체하면, 숏컷이 두 개의 고차원 끝단에 연결되기 때문에 시간 복잡도와 모델 크기가 두 배로 증가하는 것을 확인할 수 있습니다.


# 따라서 항등 숏컷은 병목 설계에서 더 효율적인 모델을 제공합니다.
So identity shortcuts lead to more efficient models for the bottleneck designs.
--->
따라서 아이덴티티 숏컷(identity shortcuts)은 병목(bottleneck) 설계를 위한 더 효율적인 모델을 만들어줍니다.


50-layer ResNet: We replace each 2-layer block in the 34-layer net with this 3-layer bottleneck block, resulting in a 50-layer ResNet (Table 1). We use option B for increasing dimensions. This model has 3.8 billion FLOPs
---->
50-레이어 ResNet:
34-레이어 네트워크에서 사용된 각 2-레이어 블록을 3-레이어 병목 블록(bottleneck block)으로 교체하여 50-레이어 ResNet을 구성합니다(Table 1).
차원을 증가시키기 위해 옵션 B를 사용합니다.
이 모델은 38억 FLOP(Floating Point Operations)을 가집니다.













101-layer and 152-layer ResNets: We construct 101-layer and 152-layer ResNets by using more 3-layer blocks (Table 1). Remarkably, although the depth is significantly increased, the 152-layer ResNet (11.3 billion FLOPs) still
has lower complexity than VGG-16/19 nets (15.3/19.6 billion FLOPs).
The 50/101/152-layer ResNets are more accurate than the 34-layer ones by considerable margins (Table 3 and 4).
We do not observe the degradation problem and thus enjoy significant accuracy gains from considerably increased depth. The benefits of depth are witnessed for all evaluation metrics (Table 3 and 4).
---->
101-레이어와 152-레이어 ResNet:
101-레이어와 152-레이어 ResNet은 더 많은 3-레이어 병목 블록을 사용하여 구성합니다(Table 1). 주목할 만하게도, 깊이가 크게 증가했음에도 불구하고 152-레이어 ResNet(113억 FLOPs)은 여전히 VGG-16/19 네트워크(153억/196억 FLOPs)보다 복잡도가 낮습니다.
50/101/152-레이어 ResNet은 34-레이어 ResNet에 비해 상당한 차이로 더 높은 정확도를 보여줍니다(Table 3 및 Table 4).
우리는 열화 문제(degradation problem)를 관찰하지 않았으며, 깊이가 상당히 증가함에 따라 정확도가 크게 향상되는 것을 확인했습니다.
깊이의 이점은 모든 평가 지표에서 확인할 수 있습니다(Table 3 및 Table 4).


# 최첨단(state-of-the-art) 방법들과의 비교.
Comparisons with State-of-the-art Methods.
--->
최신 기법들과의 비교는 모델이나 알고리즘의 성능을 현재 가장 뛰어난 기술들과 비교해 우수성을 입증하려는 과정을 의미합니다.

# Table 4에서 이전의 최고 단일 모델(single-model) 결과와 비교합니다.
In Table 4 we compare with the previous best single-model results.
--->
표 4에서는 이전에 보고된 단일 모델의 최고 성능 결과와 비교합니다.


# 우리의 기본 34-레이어 ResNet은 매우 경쟁력 있는 정확도를 달성했습니다.
Our baseline 34-layer ResNets have achieved very competitive accuracy.
--->
우리의 기본 34층 ResNet은 매우 경쟁력 있는 정확도를 달성했습니다.




# 152-레이어 ResNet은 단일 모델 기준으로 4.49%의 top-5 검증 에러를 기록했습니다.
Our 152-layer ResNet has a single-model top-5 validation error of 4.49%.
--->
"우리의 152층 ResNet은 단일 모델로 top-5 검증 오류율 4.49%를 달성했습니다."


# 이 단일 모델 결과는 모든 이전 앙상블(ensemble) 결과를 능가합니다(Table 5 참조).
This single-model result outperforms all previous ensemble results (Table 5).
--->
"이 단일 모델 결과는 이전의 모든 앙상블 결과를 능가합니다 (표 5 참고)."


# 서로 다른 깊이의 여섯 가지 모델을 결합하여 앙상블을 구성했습니다(제출 시점에서는 152-레이어 모델 두 개만 포함).
We combine six models of different depth to form an ensemble (only with two 152-layer ones at the time of submitting).
---->
"우리는 서로 다른 깊이를 가진 여섯 개의 모델을 결합하여 앙상블을 구성했습니다(제출 당시에는 152층 모델 두 개만 포함되었습니다)."


# 이를 통해 테스트 세트에서 3.57%의 top-5 에러를 기록했습니다(Table 5 참조).
This leads to 3.57% top-5 error on the test set (Table 5).
--->
"이로 인해 테스트 세트에서 top-5 오류율 3.57%를 달성했습니다 (표 5 참고)."

# 이 결과는 ILSVRC 2015에서 1위를 차지했습니다.
This entry won the 1st place in ILSVRC 2015.
--->
"이 출품작은 ILSVRC 2015에서 1위를 차지했습니다."











4.2. CIFAR-10 and Analysis

# CIFAR-10 데이터셋에 대해 추가적인 연구를 진행했음. 이 데이터셋은 총 10개의 클래스에 50,000개의 학습 이미지와 10,000개의 테스트 이미지를 포함하고 있음.
We conducted more studies on the CIFAR-10 dataset [20], which consists of 50k training images and 10k testing images in 10 classes. 
-->
"우리는 CIFAR-10 데이터셋 [20]에 대해 추가 연구를 수행했습니다. 이 데이터셋은 10개의 클래스(범주)로 구성된 5만 개의 학습 이미지와 1만 개의 테스트 이미지를 포함하고 있습니다."


# 실험은 학습 데이터셋으로 학습시키고, 테스트 데이터셋에서 평가함.
We present experiments trained on the training set and evaluated on the test set. 
-->
"우리는 학습 세트에서 훈련되고 테스트 세트에서 평가된 실험들을 제시합니다."

# 이 연구의 초점은 매우 깊은 신경망의 동작을 분석하는 데 있으며, 최신 성능을 추구하는 것이 아니기 때문에 의도적으로 간단한 네트워크 아키텍처를 사용함.
Our focus is on the behaviors of extremely deep networks, but not on pushing the state-of-the-art results, so we intentionally use simple architectures as follows. 
--->
"우리의 초점은 매우 깊은 네트워크의 동작에 맞춰져 있으며, 최첨단 결과를 달성하는 데 있지 않으므로 의도적으로 다음과 같은 간단한 아키텍처를 사용합니다."


# 간단한 아키텍처와 잔차(residual) 아키텍처는 Fig. 3 (중앙/오른쪽)의 형태를 따름.
# 네트워크의 입력은 32×32 크기의 이미지이며, 각 픽셀의 평균값을 뺀 값으로 전처리됨.
The plain/residual architectures follow the form in Fig. 3 (middle/right). 
The network inputs are 32×32 images, with the per-pixel mean subtracted. 
--->
"기본(Plain) 및 잔차(Residual) 아키텍처는 그림 3(중간/오른쪽)에 나타난 형태를 따릅니다. 네트워크 입력은 32×32 크기의 이미지이며, 각 픽셀의 평균값을 뺀 형태로 전처리됩니다."


# 첫 번째 레이어는 3×3 컨볼루션 레이어임.
The first layer is 3×3 convolutions. 
-->
첫 번째 레이어는 3×3 컨볼루션 레이어이다.

# 이후에는 {32, 16, 8} 크기의 특징 맵에 대해 각각 3×3 컨볼루션 레이어 6n개를 사용하며, 각 특징 맵 크기당 2n개의 레이어를 포함함.
# 필터의 개수는 {16, 32, 64}로 설정됨.
Then we use a stack of 6n layers with 3×3 convolutions on the feature maps of sizes {32, 16, 8} respectively, with 2n layers for each feature map size.
The numbers of filters are {16, 32, 64} respectively. 
--->
"그런 다음 우리는 각각 크기가 {32, 16, 8}인 특성 맵(feature map)에서 3×3 합성곱(convolution)을 사용하는 6n 개의 계층을 쌓습니다. 각 특성 맵 크기에 대해 2n 개의 계층을 사용합니다. 필터의 개수는 각각 {16, 32, 64}입니다."


# 서브샘플링은 stride=2를 가지는 컨볼루션으로 수행됨.
# 네트워크는 글로벌 평균 풀링(global average pooling), 10개의 출력 노드를 가진 완전 연결 레이어(fully-connected layer), 그리고 소프트맥스(softmax)로 종료됨.
The subsampling is performed by convolutions with a stride of 2. 
The network ends with a global average pooling, a 10-way fully-connected layer, and softmax. 
--->
"다운샘플링은 스트라이드(stride)가 2인 합성곱(convolution)에 의해 수행됩니다. 네트워크는 전역 평균 풀링(global average pooling), 10-클래스 완전 연결 계층(fully-connected layer), 그리고 소프트맥스(softmax)로 끝납니다."

# 네트워크에는 총 6n+2개의 가중치를 가진 레이어가 포함됨.
# 아래 표는 위에서 설명한 네트워크 구조를 요약한 것임.
There are totally 6n+2 stacked weighted layers. 
The following table summarizes the architecture:



--->
"총 6n+2개의 가중치 계층(weighted layers)이 쌓여 있습니다. 다음 표는 아키텍처를 요약합니다.“







When shortcut connections are used, they are connected to the pairs of 3×3 layers (totally 3n shortcuts). 
--->
잔차 연결(shortcut connection)이 사용될 때, 이 연결은 두 개의 3×3 계층(layer) 쌍에 연결됩니다.
즉, 네트워크 전체적으로 총 3n 개의 잔차 연결이 존재합니다.


On this dataset we use identity shortcuts in all cases (i.e., option A), Table 6. Classification error on the CIFAR-10 test set. All methods are with data augmentation. For ResNet-110, we run it 5 times and show “best (mean±std)” as in [42].
--->
이 실험에서 사용된 데이터셋(CIFAR-10)에서는 모든 경우에 아이덴티티(Identity) 잔차 연결을 사용했습니다.
"아이덴티티 연결"은 입력을 그대로 출력으로 전달하는 간단한 연결 방식입니다.
이는 ResNet 논문에서 정의된 "옵션 A"를 따릅니다.






so our residual models have exactly the same depth, width, and number of parameters as the plain counterparts. 
--->
우리의 잔차(residual) 모델은 기본(plain) 모델과 동일한 깊이(depth), 너비(width), 그리고 파라미터 수(parameter count)를 가집니다.
즉, 잔차 연결을 추가했더라도 모델 구조는 동일한 복잡도를 유지합니다.






We use a weight decay of 0.0001 and momentum of 0.9, and adopt the weight initialization in [12] and BN [16] but with no dropout. 
--->
학습 설정으로 **가중치 감쇠(weight decay)**는 0.0001, **모멘텀(momentum)**은 0.9를 사용했습니다.
가중치 초기화(weight initialization)는 [12]에서 제안된 방식을 사용했으며, 배치 정규화(Batch Normalization, BN)는 [16]의 방식을 채택했습니다.
**드롭아웃(Dropout)**은 사용하지 않았습니다.


These models are trained with a minibatch size of 128 on two GPUs. 
--->
모델은 128 크기의 미니배치(minibatch)**로 학습되었으며, 두 개의 GPU를 사용했습니다.


We start with a learning rate of 0.1, divide it by 10 at 32k and 48k iterations, and terminate training at 64k iterations, which is determined on a 45k/5k train/val split. 
--->
초기 **학습률(learning rate)**은 0.1로 시작했습니다.
학습 도중 32,000 및 48,000번째 반복(iteration)에서 학습률을 10배로 줄였습니다.
총 64,000번의 반복에서 학습을 종료했으며, 이는 45,000개의 학습 데이터와 5,000개의 검증 데이터로 나눈 train/val 분할을 기반으로 결정된 것입니다.


We follow the simple data augmentation in [24] for training: 4 pixels are padded on each side, and a 32×32 crop is randomly sampled from the padded image or its horizontal flip. 
--->
학습 시에는 [24]에서 제안된 간단한 데이터 증강(data augmentation) 방법을 사용했습니다.
각 이미지의 모든 면에 **4픽셀 패딩(padding)**을 추가한 뒤, 패딩된 이미지에서 32×32 크기의 영역을 무작위로 추출하거나, 이를 수평으로 뒤집은(horizontal flip) 이미지를 샘플링했습니다.


For testing, we only evaluate the single view of the original 32×32 image.
--->
테스트 시에는 데이터 증강 없이, 원본 **32×32 크기 이미지의 단일 뷰(single view)**만 평가했습니다.


We compare n = {3, 5, 7, 9}, leading to 20, 32, 44, and 56-layer networks. 
--->
실험에서는 n={3,5,7,9} 값을 비교했으며, 이는 각각 20층, 32층, 44층, 56층 네트워크로 이어집니다. 여기서 6𝑛+26n+2 식을 기반으로 네트워크의 총 깊이를 결정합니다.


Fig. 6 (left) shows the behaviors of the plain nets. 
"그림 6 (왼쪽)"은 기본 네트워크(plain nets)의 동작을 보여줍니다.
기본 네트워크는 잔차 연결이 없는 단순한 구조를 의미합니다.

The deep plain nets suffer from increased depth, and exhibit higher training error when going deeper. 
---->
깊은 기본 네트워크는 깊이가 증가함에 따라 학습이 어려워지고, **훈련 오류(training error)**가 더 높아지는 현상을 보입니다.
즉, 네트워크가 깊어질수록 성능이 저하되는 문제를 겪습니다.


This phenomenon is similar to that on ImageNet (Fig. 4, left) and on MNIST (see [41]), suggesting that such an optimization difficulty is a fundamental problem.
--->
이러한 현상은 ImageNet(그림 4, 왼쪽) 및 MNIST([41] 참고)에서 발생한 문제와 유사합니다.
이로 인해, **최적화의 어려움(optimization difficulty)**이 근본적인 문제임을 시사합니다.


Fig. 6 (middle) shows the behaviors of ResNets. 
--->
"그림 6 (중간)"은 **잔차 네트워크(ResNets)**의 동작을 보여줍니다.
잔차 연결이 추가된 네트워크는 기본 네트워크와 비교하여 더 깊은 구조에서도 학습이 안정적입니다.







Also similar to the ImageNet cases (Fig. 4, right), our ResNets
manage to overcome the optimization difficulty and demonstrate accuracy gains when the depth increases.
--->
ImageNet 사례(그림 4, 오른쪽)와 마찬가지로, 우리의 ResNet 모델은 **최적화의 어려움(optimization difficulty)**을 극복하고, 깊이가 증가함에 따라 정확도가 향상되는 결과를 보여줍니다.


We further explore n = 18 that leads to a 110-layer ResNet. 
--->
우리는 n=18을 설정하여 110층 ResNet을 추가로 탐구했습니다.
6𝑛+26n+2 공식을 기반으로 네트워크 깊이가 110층이 됩니다.


In this case, we find that the initial learning rate of 0.1 is slightly too large to start converging5.
--->
이 경우, 초기 학습률(learning rate) 0.1이 학습이 수렴(converging)하기 시작하기에 다소 큰 것으로 나타났습니다.

 
So we use 0.01 to warm up the training until the training error is below 80% (about 400 iterations), and then go back to 0.1 and continue training. 
--->
그래서 우리는 0.01의 학습률로 학습을 **웜업(warm-up)**하여, **훈련 오류(training error)**가 80% 아래로 떨어질 때까지(약 400번 반복) 진행했습니다.
이후, 학습률을 다시 0.1로 올리고 학습을 계속 진행했습니다.


The rest of the learning schedule is as done previously. This 110-layer network converges well (Fig. 6, middle). 
--->
이후 학습 스케줄은 이전 실험에서 사용된 방식과 동일하게 유지되었습니다.
이러한 방식으로 학습한 110층 네트워크는 잘 수렴했으며, 결과는 "그림 6(중간)"에 나와 있습니다.








It has fewer parameters than other deep and thin Figure 6. 
--->
이 네트워크는 다른 깊고 얇은(deep and thin) 네트워크에 비해 **더 적은 파라미터(parameter)**를 가지고 있습니다.
이는 ResNet이 효율적인 구조를 통해 깊이를 증가시키면서도 복잡도를 상대적으로 낮게 유지할 수 있음을 의미합니다.


Training on CIFAR-10. 
--->
"그림 6"은 CIFAR-10 데이터셋에서 네트워크를 훈련한 결과를 보여줍니다.

Dashed lines denote training error, and bold lines denote testing error. 
--->
**점선(dashed lines)**은 **훈련 오류(training error)**를 나타냅니다.
**굵은 선(bold lines)**은 **테스트 오류(testing error)**를 나타냅니다.
이는 네트워크가 학습 과정에서 과적합 여부와 테스트 성능을 비교하기 위해 사용됩니다.

Left: plain networks. The error of plain-110 is higher than 60% and not displayed. Middle: ResNets. Right: ResNets with 110 and 1202 layers
--->
그림 6의 왼쪽은 **기본 네트워크(plain networks)**의 결과를 보여줍니다.
Plain-110 네트워크는 테스트 오류가 60% 이상으로 매우 높아져서 결과에 표시되지 않았습니다.
이는 깊은 기본 네트워크가 학습 최적화 문제를 극복하지 못했음을 나타냅니다.
그림 6의 중간은 **잔차 네트워크(ResNets)**의 결과를 보여줍니다.
그림 6의 오른쪽은 110층 및 1202층 ResNet의 결과를 보여줍니다.









Figure 7. Standard deviations (std) of layer responses on CIFAR10. 
--->
"그림 7"은 CIFAR-10 데이터셋에서 **각 계층의 반응(layer responses)**에 대한 **표준편차(Standard Deviation, std)**를 보여줍니다.
**반응(layer responses)**은 신경망 계층의 출력 값들을 의미합니다.


The responses are the outputs of each 3×3 layer, after BN and before nonlinearity. 
---->
반응 값은 각 3×3 계층의 출력에서 계산됩니다.
이는 배치 정규화(Batch Normalization, BN) 이후, **비선형 활성화 함수(nonlinearity)**를 적용하기 이전의 값입니다.
이 단계는 모델의 학습 과정에서 계층별 출력을 분석하는 데 중요합니다.

Top: the layers are shown in their original order. Bottom: the responses are ranked in descending order.
--->
그림 7의 상단에서는 계층들이 원래 순서대로 나열되어 있습니다.
즉, 네트워크의 순서대로 각 계층의 출력 표준편차를 나타냅니다.
그림 7의 하단에서는 반응 값들을 내림차순으로 정렬하여 표시했습니다.
이는 가장 큰 출력 표준편차를 가지는 계층부터 가장 작은 계층까지 순서를 정리한 것입니다.


networks such as FitNet [34] and Highway [41] (Table 6),
yet is among the state-of-the-art results (6.43%, Table 6).
--->
**FitNet [34]**과 **Highway [41]**와 같은 네트워크가 Table 6에 나와 있으며, 그럼에도 불구하고 ResNet은 최첨단(state-of-the-art) 결과 중 하나로 **6.43%**의 오류율을 기록하고 있습니다.
이는 ResNet이 다른 네트워크들과 비교하여 뛰어난 성능을 보였다는 것을 나타냅니다.


Analysis of Layer Responses. Fig. 7 shows the standard
deviations (std) of the layer responses. 
--->
계층 반응 분석: 그림 7은 각 계층의 **반응 표준편차(std)**를 보여줍니다.
이 분석은 각 계층에서 출력 값이 얼마나 변동하는지(즉, 반응의 강도를 평가하는 데 도움을 줍니다).

The responses are the outputs of each 3×3 layer, after BN and before other
nonlinearity (ReLU/addition). 
--->
반응 값은 각 3×3 합성곱 계층의 출력에서 계산됩니다.
이 값은 배치 정규화(BN) 후, 비선형 활성화 함수(예: ReLU 또는 덧셈) 적용 전의 값을 의미합니다.
이 단계에서 계산된 반응은 모델의 특성과 학습에 중요한 영향을 미칩니다.


For ResNets, this analysis reveals the response strength of the residual functions.
---->
ResNet에 대해 이 분석은 **잔차 함수(residual functions)**의 반응 강도를 드러냅니다.
ResNet에서의 잔차 연결은 네트워크가 깊어질수록 그 효과가 더욱 강하게 나타나며, 이는 네트워크가 더 잘 학습하고 안정적인 출력을 생성하도록 돕습니다.


Fig. 7 shows that ResNets have generally smaller responses than their plain counterparts. 
--->
그림 7은 ResNet이 기본 네트워크(plain networks)보다 일반적으로 **작은 반응 값(response)**을 가지는 것을 보여줍니다.
이는 ResNet의 설계가 출력의 안정성을 높이고 반응의 변화를 줄이는 데 기여한다는 것을 시사합니다.


These results support our basic motivation (Sec.3.1) that the residual functions might be generally closer to zero than the non-residual functions.
--->
이 결과는 **잔차 함수(residual functions)**가 **비잔차 함수(non-residual functions)**보다 일반적으로 0에 더 가까울 수 있다는 우리의 기본 가설(Sec. 3.1)을 뒷받침합니다.
이는 잔차 함수가 네트워크 학습 과정에서 작은 수정만 수행하도록 설계되었음을 나타냅니다.



We also notice that the deeper ResNet has smaller magnitudes of responses, as evidenced by the comparisons among ResNet-20, 56, and 110 in Fig. 7.
--->
또한, ResNet의 깊이가 깊어질수록 반응의 크기(magnitude)가 작아진다는 점을 발견했습니다.
이는 ResNet-20, ResNet-56, ResNet-110 간의 비교(그림 7)를 통해 확인되었습니다.

When there are more layers, an individual layer of ResNets tends to modify the signal less. 
--->
네트워크 계층이 많아질수록, 개별 ResNet 계층은 신호(signal)를 덜 수정하는 경향을 보입니다.
이는 ResNet의 계층별 역할이 국소적이고 작게 조정되는 방식임을 나타냅니다.

Exploring Over 1000 layers. 
We explore an aggressively deep model of over 1000 layers. 
--->
1000층 이상의 네트워크 탐구: 우리는 1000층을 초과하는 매우 깊은 모델을 실험했습니다.


We set n = 200 that leads to a 1202-layer network, which is trained as described above. 
--->
n=200으로 설정하여 1202층 네트워크를 구성했으며, 위에서 설명한 방식으로 학습을 진행했습니다.


Our method shows no optimization difficulty, and this 103-layer network is able to achieve training error <0.1% (Fig. 6, right). Its test error is still fairly good (7.93%, Table 6).
--->
우리의 방법은 **최적화 문제(optimization difficulty)**를 보이지 않았고, 이 1202층 네트워크는 **훈련 오류(training error)**를 0.1% 미만으로 줄이는 데 성공했습니다(그림 6, 오른쪽). 이 네트워크의 **테스트 오류(test error)**는 여전히 양호한 **7.93%**를 기록했습니다(Table 6).


But there are still open problems on such aggressively deep models. 
--->
그러나 이처럼 매우 깊은 모델에는 여전히 해결되지 않은 문제들이 존재합니다.


The testing result of this 1202-layer networkis worse than that of our 110-layer network, although both Table 7.
--->
1202층 네트워크의 테스트 성능은 110층 네트워크보다 나쁩니다(Table 7 참고).
이는 지나치게 깊은 네트워크가 항상 더 좋은 테스트 성능을 보장하지 않음을 시사합니다.



Object detection mAP (%) on the PASCAL VOC 2007/2012 test sets using baseline Faster R-CNN. See also appendix for better results.
--->
PASCAL VOC 2007/2012 테스트 세트에서 객체 탐지(Object Detection)의 mAP(Mean Average Precision, 평균 정밀도)를 기본 Faster R-CNN 모델을 사용하여 평가했습니다.
mAP는 객체 탐지에서 주로 사용되는 성능 지표로, 모델이 얼마나 정확하게 객체를 탐지했는지를 나타냅니다.



Table 8. Object detection mAP (%) on the COCO validation set using baseline Faster R-CNN. 
--->
Table 8은 COCO 검증 세트에서 기본 Faster R-CNN 모델을 사용하여 객체 탐지 mAP(Mean Average Precision, 평균 정밀도)를 보여줍니다.
COCO 데이터셋은 객체 탐지 성능 평가에서 널리 사용되는 대규모 데이터셋입니다.


See also appendix for better results. 
-->
더 나은 결과에 대한 세부 정보는 **부록(Appendix)**에서 확인할 수 있습니다.
부록에는 개선된 모델 설정이나 추가적인 실험 결과가 포함될 가능성이 높습니다.

have similar training error. We argue that this is because of overfitting. 
--->
비슷한 훈련 오류(training error)를 보이지만, 이는 과적합(overfitting) 때문이라고 주장합니다.
과적합은 네트워크가 훈련 데이터에는 잘 맞지만 테스트 데이터에 일반화되지 못하는 문제입니다.


The 1202-layer network may be unnecessarily large (19.4M) for this small dataset. 
--->
1202층 네트워크는 **19.4M(백만 개의 파라미터)**으로, 이처럼 작은 데이터셋에 대해 불필요하게 큰 모델일 수 있습니다.
지나치게 큰 모델은 작은 데이터셋에서 과적합을 유발할 가능성이 높습니다.


Strong regularization such as maxout [9] or dropout [13] is applied to obtain the best results ([9, 25, 24, 34]) on this dataset.
--->
Maxout [9] 또는 **Dropout [13]**과 같은 강력한 정규화(regularization)가 이 데이터셋에서 최적의 결과를 얻는 데 사용됩니다.
참고로, 관련 연구([9, 25, 24, 34])에서는 이러한 기법들을 사용하여 성능을 향상시켰습니다.


 In this paper, we use no maxout/dropout and just simply impose regularization via deep and thin architectures by design, without distracting from the focus on the difficulties of optimization.
--->
이 논문에서는 Maxout이나 Dropout을 사용하지 않았습니다.
대신, 네트워크 설계에서 **깊고 얇은 아키텍처(deep and thin architectures)**를 통해 간단히 정규화를 적용했습니다.
이는 **최적화 문제의 어려움(difficulties of optimization)**에 집중하기 위한 선택입니다.


But combining with stronger regularization may improve results, which we will study in the future.
--->
그러나 강력한 정규화 기법을 결합하면 결과가 개선될 가능성이 있습니다.
이러한 접근 방식은 향후 연구에서 다룰 예정입니다.







4.3. Object Detection on PASCAL and MS COCO
PASCAL VOC와 MS COCO 데이터셋에서의 객체 탐지(Object Detection) 실험

Our method has good generalization performance on other recognition tasks. 
--->
우리의 방법은 **다른 인식 작업(recognition tasks)**에서도 우수한 **일반화 성능(generalization performance)**을 보입니다.


Table 7 and 8 show the object detection baseline results on PASCAL VOC 2007 and 2012 [5] and COCO [26]. 
--->
Table 7과 Table 8은 PASCAL VOC 2007 및 2012와 COCO 데이터셋에서의 **객체 탐지 기준선 결과(baseline results)**를 보여줍니다.


We adopt Faster R-CNN [32] as the detection method. 
--->
**Faster R-CNN [32]**을 객체 탐지 방법으로 채택했습니다.


Here we are interested in the improvements of replacing VGG-16 [40] with ResNet-101. 
--->
여기에서 우리는 **VGG-16 [40]**을 ResNet-101로 교체했을 때의 성능 향상에 주목합니다.


The detection implementation (see appendix) of using both models is the same, so the gains can only be attributed to better networks.
---->
두 모델에서 사용하는 객체 탐지 구현 방법(부록 참조)은 동일하기 때문에, 성능 향상은 오직 **더 나은 네트워크(ResNet-101)**에 의한 것입니다.


Most remarkably, on the challenging COCO dataset we obtain a 6.0% increase in COCO’s standard metric (mAP@[.5,.95]), which is a 28% relative improvement. 
--->
특히, 도전적인 COCO 데이터셋에서, COCO의 표준 평가 지표인 **mAP@[.5, .95]**에서 6.0% 증가를 달성했습니다.
이는 상대적으로 28% 향상에 해당합니다.

This gain is solely due to the learned representations.
--->
이러한 성능 향상은 학습된 표현(learned representations) 덕분입니다.


Based on deep residual nets, we won the 1st places in several tracks in ILSVRC & COCO 2015 competitions: ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation. 
--->
**깊은 잔차 네트워크(Deep Residual Networks)**를 기반으로, 우리는 ILSVRC 및 COCO 2015 대회의 여러 트랙에서 1위를 차지했습니다.
트랙에는 ImageNet Detection, ImageNet Localization, COCO Detection, COCO Segmentation이 포함됩니다.


The details are in the appendix.
--->
세부 정보는 **부록(Appendix)**에 나와 있습니다.
























논문 요약본----------------

잔차 학습(Residual Learning):
잔차 학습은 깊은 신경망의 학습 문제를 해결하기 위해 제안된 프레임워크입니다.
잔차 네트워크는 입력과 출력 간의 차이(잔차)를 학습하며, 이를 통해 깊이가 깊은 네트워크의 최적화와 학습 용이성을 향상시킵니다.

성능 및 실험 결과:
잔차 네트워크는 ImageNet과 CIFAR-10 데이터셋에서 실험적으로 깊이가 증가할수록 성능이 향상됨을 보여주었습니다.
152 레이어 잔차 네트워크는 ILSVRC 2015 대회에서 3.57%의 오류율을 기록하며 1위를 차지했습니다.

효율성 및 구조:
잔차 네트워크는 기존의 평범한 네트워크보다 깊이가 깊어도 최적화 문제를 겪지 않으며, 낮은 계산 복잡도를 유지합니다.
"병목 구조(bottleneck architecture)"를 도입하여 계산 효율성을 더욱 높였습니다.

다른 분야에서의 활용:
잔차 네트워크는 이미지 분류 외에도 객체 탐지(Object Detection)와 같은 시각적 인식 작업에서 우수한 성능을 발휘했습니다.
COCO 데이터셋에서는 표준 mAP 성능 지표에서 28%의 상대적 성능 향상을 기록했습니다.

한계 및 미래 연구:
지나치게 깊은 네트워크(예: 1202 레이어)는 과적합 문제로 인해 테스트 데이터에서 성능이 떨어질 수 있음을 확인했습니다.
강력한 정규화 기법(Maxout, Dropout 등)을 결합하여 성능을 향상시키는 방안이 향후 연구 주제로 제안되었습니다.

이 논문은 잔차 학습이 딥러닝에서 깊은 신경망의 최적화 문제를 해결하는 데 중요한 돌파구를 제시했음을 보여줍니다.


 
 

728x90
LIST