본문 바로가기

Lecture AI/5장.컴퓨터 비전을 위한 딥러닝

2. 합성곱 연산의 방법

반응형

완전 연결 층과 합성곱 층 사이의 근본적인 차이는 다음과 같습니다. Dense층은 입력 특성 공간에 있는 전력 패턴(예를 들어 MNIST 숫자 이미지에서는 모든 픽셀에 걸친 패턴)을 학습하지만 합성곱 층은 지역 패턴을 학습합니다. 이미지일 경우 작은 2D 윈도우로 입력에서 패턴을 찾습니다.

 

이 핵심 특징은 컨브넷에 두 가지 흥미로운 성질을 제공합니다.

  • 학습된 패턴은 평행 이동 불변성을 가집니다. 컨브넷이 이미지의 오른쪽 아래 모서리에서 어떤 패턴을 학습했다면 다른 곳(예를 들어 왼쪽 위 모서리)에서도 이 패턴을 인식할 수 있습니다. 완전 연결 네트워크는 새로운 위치에 나타난 것은 새로운 패턴으로 학습해야 합니다. 이런 성질은 컨브넷이 이미지를 효율적으로 처리하게 만들어 줍니다.(근본적으로 우리가 보는 세상은 평행 이동으로 인해 다른게 인식되지 않습니다.) 적은 수의 훈련 샘플을 사용해서 일반화 능력을 가진 표현을 학습할 수 있습니다.
  • 컨브넷은 패턴의 공간적 계층 구조를 학습할 수 있습니다. 첫 번째 합성곱 층이 에지 같은 작은 지역 패턴을 학습합니다. 두 번째 합성곱 층은 첫 번째 층의 특성으로 구성된 더 큰 패턴을 학습하는 식입니다. 이런 방식을 사용하여 컨브넷은 매우 복잡하고 추상적인 시각적 개념을 효과적으로 학습할 수 있습니다. (근본적으로 우리가 보는 세상은 공간적 계층 구조를 가집니다.)

 

합성곱 연산은 특성 맵(feature map)이라고 부르는 3D텐서에 적용됩니다. 이 텐서는 2개의 공간축(높이와 너비)과 깊이 축(채널 축이라고도 합니다.)으로 구성됩니다. RGB이미지는 3개의 컬러 채널(빨간색, 녹색, 파란색)을 가지므로 깊이 축의 차원이 3이 됩니다. 흑백 이미지는 깊이 축의 차원이 1이 됩니다.

 

출력 특성 맵도 높이와 너비를 가진 3D텐서입니다. 출력 텐서의 깊이는 층의 매개변수로 결정되기 때문에 상황에 따라 다릅니다. 이렇게 되면 깊이 축의 채널은 더 이상 RGB입력처럼 특정 컬러를 의미하지 않습니다. 그 대신 일종의 필터(filter)를 의미합니다. 필터는 입력 데이터의 어떤 특성을 인코딩합니다. 예를 들어 고수준으로 보면 하나의 필터가 '입력에 얼굴이 있는지'를 인코딩할 수 있습니다.

 

합성곱은 핵심적인 2개의 파라미터로 정의됩니다.

  • 입력으로부터 뽑아낼 패치의 크기: 전형적으로 3x3또는 5x5크기를 사용합니다. 이 예에서는 일반적으로 많이 사용하는 3x3크기를 사용했습니다.
  • 특성 맵의 출력 깊이: 합성곱으로 계산할 필터의 수입니다. 이 예에서는 깊이 32로 시작해서 깊이 64로 끝났습니다.

 

케라스의 Conv2D층에서는 이 파라미터는 Conv2D(output_depth, (window_height, window_width))처럼 첫 번째와 두 번째 매개변수로 전달됩니다.

 

입력과 동일한 높이와 너비를 가진 출력 특성 맵을 얻고 싶다면 패딩(padding)을 사용할 수 있습니다. Con2D층에서 패딩은 padding 매개변수로 설정할 수 있습니다. 2개의 값이 가능합니다. "valid"는 패딩을 사용하지 않는다는 뜻입니다. "same"은 입력과 동일한 높이와 너비를 가진 출력을 만들기 위해 패딩한다"라는 뜻입니다. padding매개변수의 기본값은 "valid"입니다.

 

합성곱 스트라이드 이해하기

출력 크기에 영향을 미치는 다른 요소는 스트라이드입니다. 지금까지 합성곱에 대한 설명은 합성곱 윈도우의 중앙 타일이 연속적으로 지나간다고 가정한 것입니다. 두 번의 연속적인 윈도우 사이의 거리가 스트라이드라고 불리는 합성곱의 파라미터입니다. 스트라이드의 기본값은 1입니다. 스트라이드가 1보다 큰 스트라이드 합성곱도 가능합니다.

 

스트라이드 2를 사용했다는 것은 특성 맵의 너비와 높이가 2의 배수로 다운샘플링되었다는 뜻입니다.(경계 문제가 있다면 더 줄어듭니다.). 스트라이드 합성곱은 실전에서 드물게 사용됩니다. 하지만 어떤 모델에서는 유용하게 사용될 수 있으므로 잘 알아 둘 필요가 있습니다.

 

반응형