원래는 AI 중심으로 블로그를 운영하려고 했었는데 최근에 그렇게 하기보다는 책 리뷰를 많이 한 것 같다.
다시 본질로 돌아가서... SOTA 논문 리뷰 첫 글부터 작성해보겠다.
Edge detection 쪽을 공부할 일이 생겨서 Sota 에 들어가서 찾아보다가 LDC를 발견하게 되었다.
해당 논문에 대해 정리된 다른 블로그도 있지만 직접 읽어보고 글을 샅샅이 뜯어보고 싶어서 읽어보며 리뷰를 작성하게 되었다.
Abstract
본 논문에서는 에지 검출을 위한 LDC(Lightweight Dense Convolutional) 신경망을 제시한다. 제안된 모델은 두 가지 SOTA 방식을 적용한 것이지만 요구되는 것은 이보다 적다. 이러한 접근법들과 비교하여 4%의 파라미터들이 제안된 아키텍처는 얇은 에지 맵들을 생성한다. 제안된 LDC는 pretrained model을 사용하지 않으며 간단한 하이퍼 파라미터 설정이 필요하다.
1. Introduction
Edge detection 작업은 Medical Image Segmentation(의료 이미지 분할)[5] 및 Sketch Image retrieval[6]에 사용된다.
딥 러닝 방법의 급속한 발전으로 인해 최근 몇 년 동안 이미지 edge detection를 수행하기 위한 컨볼루션 신경망(CNN)
모델이 폭발적으로 확산되었다. 대부분 새로운 아키텍처를 설계하거나 새로운 Loss function을 도입하여 지속적으로 향상되었다. 상당한 발전이 있었지만 edge detection의 대부분의 작업은 매우 심층적인 네트워크 설계로 더 높은 메트릭(즉, ODS, OIS, AP)을 달성하기 위해 적용되었으며, 이는 계산 연산 수를 증가시켰다. 안타깝게도 이러한 에지 탐지 접근 방식은 실제 응용 분야에도, 저용량 장치에도 실용적이지 않다.
앞서 말한 단점을 고려하여, 본 논문에서는 LDC라는 새로운 경량 아키텍처를 제안한다. 여기서는 edge detection을 위한 경량 고밀도 CNN 모델이 제시된다. 고주파 정보에 초점을 맞춘 가장 가치 있는 feature(특징)을 적응적으로 학습하는 실제 응용 분야를 위한 실용적인 네트워크가 되도록 설계되었다. 제안된 아키텍처는 DexiNed[2]를 기반으로 하지만 성능과 적용성 사이의 더 나은 균형을 추구하기 위해 더 작은 필터 크기와 소형 모듈이 고려된다. 제안된 방법의 결과로 1M 미만의 매개 변수를 가진 모델이 얻어졌으며, 이는 [2]보다 50배 작고 대부분의 SOTA 모델들보다 가볍다.
제안된 네트워크는 DexiNed[2]와 비교하여 2% 미만의 파라미터로 더 깨끗한 edge map을 제공한다. 그림 1(4번째 열)의 LDC 결과를 보고 그림 1(3번째 열)의 DexiNed[2]의 결과와 비교한다. LDC는 BDCN[8]에 비해 매개 변수의 4%를 가지며, LDC와 BDCN(2번째 열)의 결과는 LDC가 BDCN보다 더 많은 에지를 감지함을 나타낸다. 다음 데이터 세트의 SOTA 방식과의 비교도 제공된다. 경계 검출을 위한 멀티큐 데이터 세트 – 에지 주석 부분—(MDB) [1], 지각 에지 검출을 위한 바르셀로나 이미지(BIPED) [2], [11] 및 Berkely Segmentation Dataset(BSDS) [3]는 [4]에서 다시 annotation을 달았는데, 이 제안에서 BRIND로 이름이 변경된 반사율, 조도, 정상 및 깊이 에지를 주의하여 강조해야 한다. 이렇게 적은 수의 매개변수를 가진 제안된 아키텍처가 이러한 에지 검출 데이터 세트의 대부분에 최고의 점수에 도달한다.
전체적으로 원고에 나타난 기여도는 다음과 같이 요약 가능하다:
- 경량 CNN 아키텍처는 DexiNed[2]으로부터 제안되었다. DexiNed[2]는 DexiNed의 35M에 비해 단지 674K개의 파라미터를 가지고 있다.
- Loss function은 CATS[9]에서 약간 수정되었다.
- 1M 미만의 매개변수를 가진 SOTA edge detector에 대한 광범위한 비교 연구가 제공된다.
- 제안된 robust LDC에 도달할 때까지 심층 절제 연구가 수행된다.
2. Related Work
생략
3. Propsed Approach
이 섹션에서는 edge detection을 위한 제안된 LDC(Lightweight Dense Convolutional Neural Network)를 소개한다.
아키텍처 및 다양한 모듈에 대한 세부 정보를 제공한다. 제1절에서 언급한 바와 같이 제안된 LDC 모델은 DexiNed[2] 및 CATS[9]를 기반으로 하므로 아래에서는 제안된 수정 사항에 대해 자세히 제시하고자 한다.
A. CNN Architecture
DexiNed 아키텍처 [2]는 Dexi와 USNet의 두 가지 서브넷으로 구성된다. 그리고 Dexi는 6개의 블록으로 구성된다.
세 번째 블록에서 각 블록은 두 가지 유형의 스킵 연결로 연결된다. 반면 USNet은 조건부 CNN으로 특징 맵을 Dexi 서브넷의 입력 이미지와 동일한 크기의 에지 맵에서 업스케일링하고 변환하는 데 사용된다. 이 아키텍처는 35M 개의 파라미터를 가진 모델을 생성한다. LDC 아키텍처를 생성하기 위해 DexiNed에 대한 다음과 같은 수정이 제안된다:
- DexiNed에서 LDC에 사용되는 블록은 4개뿐이다.
- LDC는 파라미터 수를 경량화할 목적으로 DexiNed와 동일한 필터 크기를 사용하는 대신 Dexi 필터의 크기를 대폭 줄인다.
- 그림 2와 같이 LDC에는 4개의 중간 에지맵 예측이 있으므로 이러한 예측의 융합을 통해 최종 결과가 도출된다. 이러한 에지맵의 융합을 위해 사용된 전략은 CATS[9]에서 영감을 받았으며, 이는 다음을 참조한다.
컨텍스트 인식 Fusion 블록 또는 그냥 CoFusion으로. 이 연산 집합도 견고성을 손상시키지 않으면서 매개 변수의 수를 줄이기 위해 약간 수정되었다. LDC에서 제안된 수정 사항은 다음과 같다.
커널 크기가 64인 3개의 컨벌루션 레이어와 2개의 정규화 그룹을 사용하는 대신, LDC는 CoFusion을 2개의 컨벌루션 레이어로 줄이고 커널 크기가 32인 정규화 그룹 1개. 나머지 구성은 CATS[9]와 같다. - LDC에서 중간 에지 맵 형성을 위해 USNet은 DexiNed와 동일한 구성으로 사용된다.
- 마지막으로 LDC를 훈련하기 위해 CATS[9]의 손실 함수도 섹션 III-B에 자세히 설명된 대로 약간 수정된다.
위에서 언급한 수정을 통해 LDC는 단지 674K개의 파라미터를 가진 모델이 된다. 이는 DexiNed의 약 35M개의 파라미터와 비교할 때 파라미터의 2% 미만이다. 제안된 모델의 효율적이고 강력한 훈련을 위해 다양한 하이퍼 파라미터가 설정되었다.
B. Loss Function
CATS의 손실함수는 LDLC를 훈련하기 위해 약간 수정되어왔다. 이 손실함수를 CASTloss2로 명명하겠다. 전반적으로, LDC는 edge-map predictions의 set을 리턴한다,(Y-hat은 보통 prediction을 의미함)
주어진 RGB image로부터의
GT인 Y에 의해 상호적으로 평가된다.(validated)
Y-hatˆp는 제안된 모델의 마지막 출력(즉, 다섯 번째 출력)을 나타내며, 이는 CoFusion 단계의 예측에 해당한다,
자세한 내용은 그림 2를 참조.
Y-hatˆp 출력은 현재 작업에서 정성적, 정량적 비교를 위해 고려된다.
CATSloss2는 모든 Y-hat_i에 적용된다. CATSloss2는 세 개의 loss로 구성된다,
tracing (cross-entropy) loss인 l_t, boundary tracing loss l_bt, texture suppression loss l_txs.
따라서 결과적인 CATS loss2(l)는 다음과 같이 계산된다:
여기서 α_bt는 경계 추적 손실을 정규화하기 위한 가중치이고 αtxs는 각 LDC 예측에 대한 텍스처 억제 손실이다.
최종 손실은 각각의 Y-hat_i들로부터 계산된 l loss들의 합이다 -- 5개의 예측이 있다. l_t 손실과 관련하여 다음과 같이 정의된다:
여기서 w는 tracing loss의 가중치이며 Y-와 Y+는 주어진 Y에서 각각 음의 에지 샘플과 양의 에지 샘플을 나타낸다. boundary tracing loss(lbt)과 관련하여 다음과 같이 정의된다:
E는 CATS의 loss에 나온 것처럼 주어진 Y의 edge points이다. R^e_p는 에지 조각을 포함하는 yˆj의 에지 맵 패치를 나타낸다. R^e_p의 중심은 p이다. R^e_p의 에지 포인트는 D_p로 표시된다. 마지막으로, 텍스처 손실(l_txs)은 다음과 같이 정의된다:
R^t_p는 non-edge point에 중심을 두는 에지 맵 패치다.
그리고 E-hat은 l_bt에 사용된 모든 간선과 그 confusion pixels을 포함하는 집합이다.
4. Experiments
A. 평가에 사용된 Datasets
제안된 LDC 아키텍처를 학습시키기 위해 MDBD[1], BIPED[2] 및 BRIIND[4]의 세 가지 데이터 세트가 사용되었으며 정량적 평가를 계산한다. 또한 이러한 데이터 세트는 edge detection을 위한 것이다.
주어진 이미지 세트로 학습된 LDC의 일반화를 평가하기 위해 앞서 언급한 세 가지 데이터 세트가 교차 검증에 사용되었다. 마지막으로 CID[30], NYUD[34] 및 CITYSCAPES[36] 데이터 세트를 포함하여 정성적 평가를 수행했다.
1) MDBD
The Multicue Dataset for Boundary Detection[1]는 고화질로 100개의 이미지 세트이다. 이 이미지들은 다음과 같다.
경계 및 에지 레벨에 대한 여러 주석. 본 원고에서는 MDBD의 에지 부분만 고려한다. 일반적으로 80%의 이미지를 교육용으로 선택하고 나머지 20%는 테스트용으로 고려한다. 공정한 평가를 위해 LDC는 DexiNed[2]와 동일한 구성을 사용한다.
2) BIPED
지각 에지 검출을 위한 Barcelona Images for Perceptual Edge Detection(마지막 버전) [2]에는 250개의 이미지가 고화질로 제공된다. 200개의 이미지는 학습용으로 고려되고 나머지 50개는 테스트용으로 고려된다. 이 데이터셋은 에지 레벨에서 주의 깊게 검증된 주석이 하나만 있다. LDC에서는 DexiNed에서 사용된 것과 동일한 증강 및 처리 작업이 적용된다.
3) BRIND
Berkeley Reflectance, Illuminance, Normal and Depth edge 데이터 세트는 [4]에 제시되어 있으며, 이는 에지 레벨에서 BSDS500 이미지 [3]를 다시 주석으로 달았다. 평가를 위해 모든 유형의 에지의 주석은 증강 프로세스를 구현하기 전에 혼합된다. BSDS500에서와 같이 300개의 이미지는 훈련용으로 고려되고 나머지는 테스트용으로 고려된다. BIPED에 적용된 증강 절차는 BIND에도 구현된다.
이외에 CID, NYUD, CITYSCAPES에 대한 설명도 있지만 유의미한 정보는 아닌 것 같아서 일단은 생략하겠다.
B. Implementation Details
- PyTorch[37] 사용
- TITAN X 12GB GPU
- optimizer: Adam optimizer
- weight decay 0.
- learning_rate = 5e - 5로 설정
- update: 6, 12, 18 epoch ( 25e − 4, 5e−4, 1e−5 learning rates)
- 약 10시간이 소요되는 17 epoch 의 안정적인 훈련에서의 배치 크기는 8이다.
- 대부분의 CNN 계층에서 Xavier 정규 초기화기가 적용되는데, USNet의 마지막 컨볼루션 계층과 디컨볼루션 계층은 각각 랜덤 정규 분포, 평균 0. 및 표준 편차 0.1로 설정된다.
정량적 평가를 위해 고려되는 메트릭은 ODS(Optimal Dataset Scale), OIS(Optimal Image Scale) 및 AP(Average Precision)dl다. BIPED 및 BIND의 GT는 0.2보다 큰 GT의 모든 값에 0.6을 더한 후 0과 1로 클리핑된다. MDBD GT의 경우 0.2를 0.1보다 큰 모든 값에 합산한 다음 클리핑한다.
C. 정량적 비교
이 섹션에서는 SOTA 방식과 LDC의 정량적 비교를 제시한다.
비교를 위한 경량 모델의 선택은 매개 변수의 수를 기반으로 하며, 매개 변수가 100만 개 미만인 모델만 고려된다: 268K 매개 변수가 있는 BDCN-B2(즉, BDCN[8]의 2개 블록), 244K 매개 변수가 있는 TIN[28], 710K 매개 변수가 있는 PiDiNet[29]. 모든 모델은 MDBD[1], BIPED[2] 및 BRIND[4] 데이터 세트에서 훈련 및 평가된다.
훈련된 경량 모델도 교차 검증되었으며, 즉, BIPED에서 훈련된 PiDiNet은 나머지 경량 모델과 동일한 BIPED, MDBD 및 BRIND 테스트 세트에서 평가된다. 공정한 비교를 위해 모든 모델은 LDC에서와 동일한 데이터 확대 절차로 훈련된다.
즉, MDBD는 표 1에서 비교한 전체 모델을 훈련하기 위해 동일한 80%의 이미지를 사용했으며, 비교 모델의 효과를 평가하기 위해 동일한 이미지가 고려된다.
평가에 고려된 모든 모델의 에지 맵 예측과 관련하여, 앞서 언급한 메트릭에서 평가하기 전에 non-maximum suppression 가 적용된다.
(섹션 IV-B 참조).
Table 1은 위에서 언급한 셋업(Lightweight Models 및 data)에 대한 ODS, OIS, AP를 제시하고 있다. 그 외에 위에서 언급한 경량 모델은 표 1에서도 각 데이터셋에 대한 SOTA 데이터셋의 최상의 결과를 참고로 보여준다. 이 결과는 헤비 모델(16.3M 및 35M 파라미터)에 해당하며 각 데이터셋 섹션의 첫 번째 행에 표시된다. Trained란 해당 열에 표시된 데이터셋에 대해 학습된 모델을 의미하며 Tested란 다음 열에 나오는 세 가지 메트릭을 평가하는 데 사용되는 데이터셋을 의미한다. 예를 들어 표 1의 마지막 행은 BIPED에 대해 학습되고 BIND, MDBD 및 BIPED에서 평가된 LDC의 결과에 해당한다,
순서대로. 마지막 열은 훈련 기간(Ep)을 보여준다. 각 모델의 파라미터 수(#P)는 두 번째 열에 제공된다.
표 1에서 알 수 있듯이, 제안된 모델은 동일한 데이터 세트(예: BIPED에서 훈련 및 테스트, ODS 점수 0.889점)에서 훈련 및 평가될 때 ODS에서 최상의 결과에 도달했다. 이것은 약 3,500만 개의 파라미터를 가진 가장 좋은 결과를 얻은 DexiNed에 비해 0.6% 정도가 낮다.
다른 말로 표현하자면, DexiNed의 2% 파라미터보다 적은 매개 변수를 가진 LDC는 SOTA와 거의 동일한 점수에 도달한다. BRIND를 고려하면, 우리의 접근 방식은 약 16M 매개 변수를 가진 BDCN보다 더 나은 점수를 받는다.
마지막으로, 제안된 교차 검증과 관련하여, 모델 일반화를 평가하기 위해, 대부분의 비교에서 LDC는 3개만 다른 모델들에 비해 성능에서 밀리지만 다른 것들은 다른 모델들에 비해 점점 더 좋아진다(즉, BRIND에서 교육 및 BIPED에서 테스트된 LDC; BIPED에서 교육 및 테스트된 LDC; BIPD에서 교육 및 테스트된 BIPD에서 테스트된 LDC; MDBD에서 교육 및 BIPED에서 테스트된 LDC). LDC가 최고의 결과에 도달하지 못한 경우에는 두 번째의 최고의 점수로 남아 있다.
제안된 접근법의 경량성을 평가하고, 이를 SOTA 경량 architecture와 비교하기 위해, 초당 프레임 수(Frame Per Second, FPS)는 BSDS500[3] 테스트 영상에서 계산된다. FPS 평가 절차가 고려된다. 이는 모든 BSDS500 테스트 영상을 평가하고 초당 처리된 영상의 양을 평균 계산하는 것으로 구성된다. 그림 3(a)는 LDC의 다른 버전과 모델 간의 비교를 보여준다.
FPS 기준 표 1 제안된 방법의 경량성을 강조하기 위해, i5-10210U 기반의 노트북 CPU 프로세서를 고려한다. 제안된 LDC 아키텍처(LDC-B6)의 전체 버전을 이해할 수 있으므로, 절차가 간단하기 때문에, TIN과 BDCN-B2 모델 중 일부 모델은 다음과 같은 것을 가지고 있지만, SOTA 방식에 비해 FPS 점수가 가장 높다.
LDC-B6의 파라미터는 절반에도 미치지 못한다. 이 결과는 제안된 접근법의 LDC-B4 버전을 고려할 때, 평균 4개 이상의 이미지에 도달할 때 더욱 우수하다. 마지막으로, 더 가벼운 버전인 LDC-B2는 초당 12개 이상의 이미지를 처리할 수 있다. 그림 3(b)에서 보는 바와 같이, LDC는 12 epoch부터 다른 모델들보다 적은 시간에 훈련을 "안정화"할 수 있다.
출처:
https://paperswithcode.com/paper/ldc-lightweight-dense-cnn-for-edge-detection
#Edgedetection #deeplearning #boundarydetection.
'SOTA 논문 리뷰' 카테고리의 다른 글
LRM: LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D 리뷰 (2) | 2024.02.24 |
---|---|
Structure from Motion 리뷰 (0) | 2024.01.31 |