[DL] 합성곱 신경망을 사용한 컴퓨터 비전

CS/DL

sliver__ 2022. 7. 3. 12:46

728x90

[합성곱 층]

스트라이드 ( stride )
- 수용장 사이에 간격을 두어 큰 입력층을 훨씬 작은 층에 연결하는 것도 가능하다.
- 모델의 계산 복잡도를 크게 낮추어 준다

[필터]

[여러가지 특성 맵 쌓기]

$ z_{i, j, k}$는 합성곱 층의 k 특성 맵에서 i행, j열에 위치한 뉴런의 출력이다.
$ s_{h}, s_{w} $ 는 수직과 수평 스트라이드이고 $ f_{h}, f_{w} $ 는 수용장의 높이와 너비이다. 그리고 $ f_{n^{`}}는 이전 층 ( l - 1 ) 층에 있는 특성 맵의 수이다.

[메모리 요구사항]

[풀링 층]

목적은 계산량과 메모리 사용량, 파라미터수를 줄이기 위해 입력 이미지의 부표본( subsample ) 을 만드는 것이다.
풀링 뉴런은 가중치가 없다.
최대, 평균 같은 합산 함수를 사용해 입력값을 더하는 것이 전부이다.
Max pooling layer
- 각 수용장에서 가장 큰 입력값이 다음 층으로 전달되고 다른 값은 버려진다.
- Stride, padding 설정이 가능하다.
- 입력 채널에 독립적으로 적용되므로 출력의 깊이가 입력의 깊이와 동일하다.
- 불변성 ( invariance ) 를 제공한다.
- 회전, 확대, 축소에 약간의 invariance를 제공한다.
- 입력값의 대부분을 잃는다.
- 시맨틱 분할의 경우 입력 이미지가 이동하였다면 추척이 필요하므로 등변성 ( eqivariance ) 가 필요하다.
Average pooling layer
- 평균을 계산하여 다음 층으로 전달한다.
- Max pooling layer가 일반적으로 더 성능이 좋아서 대부분 Max pooling layer를 사용한다.
Global average pooling layer
- 각 특성 맵의 평균을 계산하는 것이다.

[CNN 구조]

전형적인 CNN 구조는 합성곱 층을 몇 개 쌓고 ( 각각 Relu 층을 그 뒤에 놓고 ), 그 다음에 풀링층을 쌓고를 반복한다.
맨 위층에는 몇 개의 완결 연결 층 ( + Relu ) 으로 구성된 일반적인 feedforward neural network 추가되고 마지막 층에서 예측을 출력한다.

[LeNet-5]

[AlexNet]

데이터 증식을 수행했다.
데이터 증식은 진짜 같은 훈련 샘플을 인공적으로 생성하여 훈련 세트의 크기를 늘린다.
데이터 증식은 과대 적합을 줄이므로 규제 기법으로 사용할 수 있다.
생성된 샘플은 진짜에 가까워야 한다.
훈련 세트의 이미지를 변경, 이동, 회전, 명암을 조정을 한다.
LRN ( Local response normalization )
- 가장 강하게 활성화된 뉴런이 다른 특성 맵에 있는 같은 위치의 뉴런을 억제한다.

[Google LeNet]

[ResNet]

[사전 훈련된 모델을 사용한 전이 학습]

[분류와 위치 추정]

사진에서 물체의 위치를 추정하는 것은 회귀 작업으로 나타낼 수 있다.
물체 주위의 바운딩 박스 ( bounding box ) 를 예측하는 방법은 물체 중심의 수평, 수직 좌표와 높이, 너비를 예측하는 것이다. 즉 네 개의 숫자를 예측해야 한다.
데이터 셋에 바운딩 박스를 추가하여야 한다..

[객체 탐지]

728x90