| Home | Browse Archives | About | For Contributors |
Sorry.
You are not permitted to access the full text of articles.
If you have any questions about permissions,
please contact the Society.
죄송합니다.
회원님은 논문 이용 권한이 없습니다.
권한 관련 문의는 학회로 부탁 드립니다.
| [ Article ] | |
| Journal of the Korean Society of Manufacturing Technology Engineers - Vol. 35, No. 1, pp. 77-84 | |
| Abbreviation: J. Korean Soc. Manuf. Technol. Eng. | |
| ISSN: 2508-5107 (Print) | |
| Print publication date 15 Feb 2026 | |
| Received 26 Nov 2025 Accepted 02 Jan 2026 | |
| DOI: https://doi.org/10.7735/ksmte.2026.35.1.77 | |
| 이미지 전처리 및 시각화 기법이 머신러닝 기반 너트 불량 예측 알고리즘의 예측 정확도에 미치는 영향 분석 | |
Effect of Image Preprocessing and Visualization Techniques on the Prediction Accuracy of Machine-Learning-Based Nut Defect Detection Algorithms | |
| aDepartment of Future Automotive Engineering, Kongju National University | |
| bDepartment of Future Convergence Engineering, Kongju National University | |
| cInstitute of Green Car Technology | |
| Correspondence to : *Tel.: +82-41-521-9114 E-mail address: smhong@kongju.ac.kr (Seok Moo Hong). | |
Funding Information ▼ | |
Defect detection in fastening nuts is critical for ensuring product reliability in manufacturing. This paper proposes optimal combinations of image preprocessing and visualization techniques to enhance the reliability and interpretability of machine-learning-based nut defect prediction algorithms. Polarization images were preprocessed using methods, such as region-of-interest extraction, flattening, Canny edge detection, and binarization. A VGG16-based convolutional neural network was trained for prediction. To analyze the decision-making of the model, various visualization techniques, including Grad-CAM, Grad-CAM++, and Score-CAM, were employed. The results showed that the prediction performance was sensitive to preprocessing, yielding an improvement of up to 3.7% in accuracy. Furthermore, visualization facilitated a comparative analysis of the focus areas of the model, enabling the identification of the optimal preprocessing–visualization combination. These findings demonstrate that the proposed approach can significantly contribute toward developing reliable and explainable AI-based defect prediction algorithms applicable directly to manufacturing sites.
| Keywords: Defect detection, Image preprocessing, Machine learning, Nut, Visualization |
|
제조 분야에서 필수적인 체결 부품인 너트는 표면에 불량이 발생할 경우 부품 간의 결합력 및 밀착력이 저하되어 시스템의 기능적 결함을 초래할 수 있다. 이러한 표면 불량은 기계의 신뢰성과 성능을 저하시킬 뿐만 아니라, 불량 제품의 생산 및 수리로 인한 제조 비용을 증가시키는 주요 원인이다. 따라서 부품의 품질이 제품의 성능과 안전성에 직접적인 영향을 미치는 제조 산업에서는 표면 결함이나 형상 불량을 조기에 검출하는 정밀한 품질 관리 기술이 필수적이다[1]. 특히 체결용 너트는 체결부의 변형이나 손상이 체결력 감소와 구조적 불안정성을 초래하므로, 정밀한 표면 품질 평가가 더욱 요구된다[2].
기존 산업 현장에서 이루어진 불량 검출은 주로 숙련된 작업자의 육안 판별에 의존해왔다. 그러나 이러한 방식은 작업자의 컨디션, 숙련도 또는 피로도와 같은 주관적인 요인에 따라 결과의 일관성 및 객관성이 크게 떨어지는 문제가 있다. 이러한 휴먼 에러를 보완하고 생산 효율성을 높이기 위해 카메라와 조명 시스템을 활용한 머신비전(machine vision) 기반의 자동화 검사 시스템이 도입되었다. 하지만 금속 너트와 같은 부품은 표면의 높은 반사율과 미세한 표면 변화로 인해 검사 영상에서 불필요한 반사 노이즈가 발생하기 쉽다. 이러한 노이즈는 결함 영역과 정상 영역 간의 경계를 모호하게 만드는 영상 불균일성을 초래하며, 결국 시스템이 안정적인 특징을 추출하는 것을 방해하여 검출 정확도의 저하를 야기한다[3].
최근에는 복잡한 산업 환경에서 검사 정확도 문제를 해결하기 위해 데이터 기반의 딥러닝(deep learning) 불량 검출 기술이 주목받고 있다. 특히 CNN은 이미지 내에서 결함의 시각적 특징 계층을 자동으로 학습하고 인식 성능이 높아 기존 머신 비전 방식 대비 높은 성능을 보인다[4].
그러나 딥러닝 모델의 높은 성능에도 불구하고, 판단 근거를 알 수 없는 블랙박스 특성은 안전과 신뢰가 중요한 제조 산업 현장에 적용될 때 주요 장애물로 지적된다. 이에 따라 설명 가능한 인공지능 기술이 필수적으로 요구된다. 선행 연구들은 모델이 최종 결정을 내릴 때 이미지의 어느 영역에 집중했는지를 시각적으로 보여주는 Grad-CAM(Class Activation Mapping)기법을 적용하여 모델의 해석 가능성을 높이려 시도하였으며 이를 통해 모델의 신뢰성을 확보하고자 했다[5]. 더불어, 검사 환경의 난반사 문제를 해결하기 위해 편광 카메라를 사용하여 노이즈를 제거하고 결함 영역의 식별력을 향상시키는 연구도 진행되었다[6].
기존 연구들은 이미지 품질 개선과 모델 해석을 개별적으로 다루는데 초점을 맞추었다. 그러나 실제 산업 환경에서 이미지 전처리 과정의 다양한 조합은 최종 모델 예측 정확도뿐만 아니라 모델이 집중하는 영역을 시각화하는 결과에도 큰 영향을 미친다. 이러한 전처리와 시각화 결과가 어떻게 상호 작용하고 영향을 미치는 지에 대한 체계적인 연관성 분석은 미흡한 실정이다. 따라서 본 연구는 편광 카메라로 취득한 너트 이미지를 대상으로 이미지 전처리 기법과 설명 가능한 시각화 기법의 조합이 불량 예측의 정확도와 시각적 해석에 미치는 영향을 분석한다. 본 연구를 통해 제조 현장 적용을 위한 최적의 전처리-시각화 조합을 도출하고, 이를 바탕으로 신뢰성과 설명 가능성을 갖춘 AI 기반 불량 검출 시스템 개발에 적용 방안을 제시하고자 한다.
편광 카메라는 피사체에서 반사된 빛의 편광 상태를 이용해 표면의 반사 특성과 미세한 질감 변화를 분석하는 센서이다. 일반 RGB 카메라와 달리 편광 필터(0o, 45o, 90o, 135o)가 센서 위에 배열되어 있으며 한 번의 촬영으로 4가지 편광 이미지를 동시 획득한다. 획득된 이미지는 각도별 편광 이미지는 식 (1)을 통해 intensity 이미지(I)로 계산된다.
| (1) |
여기서 I0˚, I45˚, I90˚ 및 I135˚는 각각 편광 필터 각도별 이미지이다. 이 intensity 이미지는 전체 밝기 정보를 나타내며, 표면 반사광의 영향을 완화하여 물체의 실제 형상과 텍스처를 명확하게 표현한다. Fig. 1은 편광 영상으로부터 intensity 이미지를 계산하는 과정을 나타낸다. 이러한 처리는 금속 재질과 같은 고반사 물체의 반사 억제에 효과적이며, 결함 검출 시 노이즈를 줄여 모델의 안전성을 향상시킨다.
이미지 전처리는 고반사 소재의 불균일한 명암을 보정하고, 결함 형태를 명확히 인식하도록 하는 단계이다. 본 연구는 편광 합성으로 얻은 Fig. 1(b)의 intensity 이미지를 기본 입력으로 사용하며, 명암 대비 효과, 에지와 텍스처 보강 및 기하학 변형과 같이 3개 범주로 구분되는 총 10가지 전처리 기법을 적용했다[7]. 명암 대비 효과는 Fig. 2에 나타냈으며 각각 HE, CLAHE와 Gamma 보정을 사용해 밝기 영역 간의 세부 정보 보존 및 지역 대비를 향상시켜 결함과 배경 간의 구분 명확하게 한다. 에지 및 텍스처 보강은 Fig. 3에 차례대로 sharpen (unsharp), Sobel, Canny 및 Gabor 필터를 사용하여 경계부를 강화하거나 표면의 미세 패턴을 부각시켜 구조적 이상을 명확히 인식하도록 한다. Fig. 4는 기하학 변형 기법을 나타내며 BBox, ROI 및 Flatten 기법을 적용하였다. BBox는 최소 사각 영역, ROI는 국소 영역을 선택하여 학습 효율을 높인다. Flatten은 원형 단면을 평면 형태로 전개하여 이미지 간 형상 차이를 보정하고 비교를 쉽게 한다. 이러한 전처리 과정은 영상의 명암, 에지, 텍스처 및 기하 정보를 강화하여 딥러닝 기반 불량 판별의 학습 안정성과 해석 가능성 향상에 기여한다.
딥러닝 기반 분류 모델로 VGG-16을 사용하였다. VGG-16은 3 × 3 합성곱층과 2 × 2 풀링층이 반복되는 규칙적인 구조로 높은 수준의 특징을 추출한다[8]. 산업용 데이터셋의 한계를 고려하여 ImageNet으로 사전 학습된 가중치를 활용하는 전이 학습(transfer learning) 방식을 적용했으며, 최종 분류층만 OK/NG 이진 분류에 맞게 재학습하였다. 이는 저수준 특징을 유지하면서 학습 효율과 수렴 안정성을 높일 수 있다.
시각화 기법은 CNN의 내부 특징맵(feature map)과 예측 결과의 연관성을 시각적으로 표현하여, 모델의 결함 인식 과정을 해석으로 검증하는 방법이다[9]. 이는 딥러닝 모델의 블랙박스 특성을 보완하며, 모델이 실제로 어떤 영역을 근거로 불량을 판단하는지 분석한다. Grad-CAM은 특정 클래스 c에 대한 모델 출력 yc의 그래디언트(gradient)를 이용해 특징맵의 기여도를 가중합 형태로 계산한다. 이는 식 (2)와 (3)으로 정의 된다.
| (2) |
| (3) |
여기서 Ak는 합성곱 계층의 k번째 특징맵,
딥러닝 기반 불량 검출 모델의 성능은 학습 데이터의 품질과 일관성에 직접적인 영향을 받는다. 특히 금속과 같이 반사 특성이 강한 소재는 촬영 환경 요인에 따라 이미지의 밝기 분포와 질감 특성이 크게 달라질 수 있다. 이러한 환경 변화는 동일한 대상이라도 이미지 특징을 다르게 표현하게 하여 모델의 학습 안정성과 일반화 성능을 저하시킬 수 있다. 이에 본 연구에서는 조명, 촬영 거리 및 초점 등 외부 요인을 균일하게 조성하여 이미지 데이터셋을 생성하였다. 촬영 시스템은 Fig. 6과 같이 편광 카메라와 백색 LED 링 조명으로 구성하였으며, 카메라 사양은 Table 1에 나타내었다. 너트는 반사광의 간섭을 최소화하기 위해 무반사 흑색 지그 위에 고정하였으며, 렌즈와 조명 점등부 간 거리는 약 170 mm, 렌즈 전면에서 너트 단면까지의 거리는 240 mm로 유지하였다. 조명은 너트 전체가 균일한 밝기를 유지하도록 조정하였으며, 내・외부 광원을 차단하여 외부 요인에 대한 영향을 최소화하였다. 사용한 카메라의 최대 해상도는 2448 × 2048 픽셀이며, 학습 시에는 ROI를 적용하여 800 × 800 픽셀 영역만을 사용하였다.
| Camera | CREVIS MG-A500P-22 |
|---|---|
| Sensor | Sony IMX264MZR CMOS (polarized 0º, 45º, 90º, 135º) |
| Sensor size [inch] | 2/3 |
| Maximum resolution | 2448 × 2048 |
| ROI region | 800 × 800(center) |
| pixel size [μm] | 3.45 × 3.45 |
| Frame rate [fps] | 22 |
본 연구는 다양한 촬영 환경에 대한 일반화 성능을 평가하기보다는, 촬영 환경 변수를 통제한 조건에서 이미지 전처리 및 시각화 기법의 영향을 분석하는 데 초점을 두었다. 조명, 거리, 초점과 같은 환경 요인은 전처리 효과와 상호작용하여 결과 해석에 영향을 줄 수 있으므로, 동일한 촬영 조건을 유지하여 전처리 기법 간 성능 차이를 명확히 비교하고자 하였다. 본 연구의 결과는 고정된 카메라와 조명 조건 하에서 운용되는 제조 현장을 기준으로 해석된다.
편광 카메라로 획득한 intensity 이미지를 입력 데이터로 사용하였으며, 앞서 제시한 10가지 전처리 기법을 각각 적용하였다. 이미지 전처리 과정은 python 3.9 환경에서 OpenCV와 Numpy를 이용하여 구현하였다. 앞서 언급된 전처리 방법 중 CLAHE는 clipLimit = 2.0, tileGridSize = (8, 8)이며 Gamma 보정은 1.5로 설정하였다. Unsharp masking은 가우시안 블러(σ=3)를, Sobel 필터는 3 × 3 커널을 적용하였으며 Canny edge는 임계값을 100~200으로 설정하였다. Gabor 필터는 커널 크기 21, σ=4.0, λ=10.0, γ=0.5, θ=0.5로 적용하였다. BBox는 마스크 기반 컨투어 탐색으로 너트를 포함하는 최소 사각형을 자동 추출하였고, ROI는 너트의 결함 검사부인 원형을 탐색하고 RANSAC 보정을 통해 너트의 내외경을 추정하여 검사 외부 영역을 제거하였다. Flatten은 극좌표-직교좌표 변환을 통해 너트 검사부인 원형 단면을 평면으로 전개하였다.
VGG16 모델을 기반으로 전처리 기법별 학습을 수행하였다. 데이터셋은 클래스별 동일한 비율을 가진 NG/OK 이미지 약 370장의 원본 이미지를 좌우 및 상하 반전을 통해 약 1500장으로 증강하였으며, 훈련 및 시험 데이터의 비율은 8:2로 설정하였다. 학습에는 PyTorch 기반 VGG16 전이 학습 모델과 ImageNet으로 사전 학습된 가중치를 활용하였고, 입력 크기 224 × 224, 배치 크기 32, 학습 epoch 100, Adam 최적화 기법을 적용하였다.
본 연구에서는 전처리–시각화 조합에 대해 각각 모델을 학습한 것이 아니라, 전처리 기법별로 독립적인 모델을 학습하고 시각화 기법은 학습 이후 판별 근거 분석을 위한 사후 적용으로 활용하였다. 또한 OK/NG 이진 분류 문제로 설정하고 전이 학습을 적용함으로써 제한된 수의 원본 이미지에서도 비교적 안정적인 학습 수렴이 가능하도록 설계하였다.
학습된 모델의 판별 근거를 검증 및 시각화를 위해 앞서 설명한 Grad-CAM 계열 10종을 적용했다. 시각화에는 전처리별 학습 모델에 대해 NG 이미지 60장을 테스트 이미지로 사용했다. 모든 기법은 VGG16의 마지막 합성곱층을 대상 레이어로 하여 NG 클래스에 대한 CAM을 계산했다. 결과는 heatmap과 원본 중첩 이미지로 저장되었으며, Fig. 7은 ROI 전처리 이미지에 대한 CAM 결과 예시를 보여준다. Grad-CAM 계열 시각화 결과의 정량적 비교를 위해, 이미지상에서 실제 불량 위치와 시각화 결과의 피크점의 거리를 사용하였다. Fig. 8(a)와 같이 heatmap 피크점과 실제 불량 위치의 중심점 간의 거리를 측정하여 식 (4)에 의해 평균값을 산출하였으며 피크 탐지는 heatmap 최대값 기준 상위 20% 영역에서 수행되었다.
| (4) |
여기서 N은 피크점 개수, dn은 실제 불량 위치의 중심과 CAM 피크점 사이의 거리이며 S는 CAM 크기를 나타낸다. 일관성 평가를 위해 원본, 좌우, 상하, 상하좌우 반전 이미지에 대해 각각 피크 좌표를 계산하고 이를 원본 좌표계로 복원했다. 복원된 피크 위치는 클러스터링을 통해 군집화하였으며, 각 군집의 평균 거리를 식 (5)와 같이 계산하여 변형 간 일관성 지표로 사용했다. Fig. 8(b)는 flatten 이미지 위에 좌우, 상하, 상하좌우 변형에서 복원된 피크 위치를 표시한 예시이다.
| (5) |
전처리 기법에 따른 VGG16 학습 결과를 Table 2에 정리하였다. 정확도는 전처리 기법에 따라 약 5.8%의 차이를 보였으며, ROI와 Gamma 보정이 각각 99.3%로 가장 높은 정확도를 나타냈다. 이는 기본 intensity 이미지(95.6%) 대비 약 3.7% 향상된 결과이다. 또한 Sobel과 ROI 전처리는 NG 정밀도가 1.0으로 나타나 불량 판별의 안정성이 높았으며, Flatten 전처리는 상대적으로 낮은 정확도를 보였다.
| Method | Accuracy | Precision(NG) |
|---|---|---|
| Intensity | 0.956 | 0.938 |
| HE | 0.986 | 0.993 |
| CLAHE | 0.990 | 0.986 |
| Gamma | 0.993 | 0.972 |
| Sharpen | 0.990 | 0.980 |
| Sobel edge | 0.986 | 1.000 |
| Canny edge | 0.986 | 0.973 |
| Gabor edge | 0.986 | 0.972 |
| BBox | 0.990 | 0.973 |
| ROI | 0.993 | 1.000 |
| Flatten | 0.936 | 0.908 |
이미지 전처리 기법별로 시각화 성능을 비교하기 위해 실제 불량 위치와 heatmap 피크점 간의 평균 거리가 가장 낮은 조합을 기준으로 Table 3에 정리하였다. 각 전처리에서 높은 성능을 보인 전처리–시각화 기법 조합은 Sharpen과 EigenCAM, Gamma와 XGradCAM, ROI와 GradCAM, Intensity와 AblationCAM 순으로 나타났으며, 전반적으로 Sharpen 전처리가 가장 우수한 결과를 보였다. Sharpen 전처리는 불량 주변의 국소적인 에지 및 텍스처 대비를 강화하면서 영상의 전반적인 구조를 유지하는 특성을 가지며, 이로 인해 CNN이 불량 중심부의 특징을 보다 명확하게 학습할 수 있도록 한다. 또한 EigenCAM은 그래디언트에 의존하지 않고 특징맵 자체의 활성 분포를 기반으로 지배적인 공간 구조를 추출하는 기법으로, Sharpen 전처리를 통해 강화된 결함 관련 활성 패턴을 효과적으로 시각화할 수 있어 두 기법 간의 시너지 효과가 나타난 것으로 해석된다.
| Preprocessing | CAM | Mean distance [%] | Rank |
|---|---|---|---|
| Sharpen | Eigen | 1.98 | 1 |
| Gamma | XGrad | 2.35 | 2 |
| Intensity | Ablation | 2.65 | 3 |
| ROI | Grad | 3.09 | 4 |
| CLAHE | Eigen | 3.23 | 5 |
| BBox | Grad | 3.51 | 6 |
| Sobel | XGrad | 3.85 | 7 |
| Canny | Ablation | 4.28 | 8 |
| Gabor | Eigen | 4.86 | 9 |
| Flatten | Score | 4.88 | 10 |
| HE | XGrad | 8.42 | 11 |
Table 4의 이미지 전처리 간 평균 거리를 비교한 결과, Sharpen 전처리는 전체 평균 거리가 3% 이하로 가장 우수한 성능을 보였으며, Gamma와 ROI 전처리가 그 뒤를 이었다. 반면 HE 전처리는 평균 거리가 약 13% 수준으로 가장 낮은 성능을 나타냈다. HE 전처리는 영상 전체의 명암 분포를 전역적으로 재분포시키는 과정에서 금속 표면의 반사 성분, 배경 텍스처 및 미세 노이즈까지 함께 증폭시키는 경향이 있다. 이로 인해 결함과 비결함 영역 간의 상대적 명암 대비가 왜곡되며, CNN이 실제 불량과 무관한 영역까지 활성화되는 현상이 발생하여 시각화 결과에서 활성 영역이 분산된 것으로 판단된다. 전처리 기법별 평균 성능 경향은 각 전처리가 결함의 상대적 대비와 공간적 위치 정보를 어떻게 보존 또는 변형하는지에 따라 달라지는 것으로 해석된다. Sharpen과 Gamma 전처리는 결함 주변의 국소적 대비를 강화하면서 영상의 전반적인 구조를 유지하여, 모델이 결함 중심부의 특징을 안정적으로 학습할 수 있도록 한다. ROI 전처리는 검사 대상 영역 외의 배경 정보를 제거함으로써 불필요한 활성화를 억제하고, 시각화 결과에서 결함 영역과의 일치도를 향상시킨다. 반면 HE 전처리는 전역적인 명암 재분포로 인해 결함 대비가 왜곡되는 경향을 보였으며, Flatten 전처리는 본 연구 대상 너트의 단면부가 완전한 원형이 아닌 뭉뚝한 육각형 형태를 포함함에 따라 전개 과정에서 공간적 위치 왜곡이 발생하여 평균 성능이 상대적으로 낮게 나타난 것으로 판단된다.
| Preprocessing | Mean distance [%] | Rank |
|---|---|---|
| Gamma | 3.04 | 1 |
| Sharpen | 3.06 | 2 |
| CLAHE | 4.00 | 3 |
| ROI | 4.20 | 4 |
| Intensity | 4.42 | 5 |
| Gabor | 5.28 | 6 |
| BBox | 5.65 | 7 |
| Sobel | 5.96 | 8 |
| Canny | 6.00 | 9 |
| Flatten | 6.32 | 10 |
| HE | 12.9 | 11 |
시각화 기법 간의 기하학적 안정성을 비교하기 위해 동일 이미지의 좌우, 상하, 좌우・상하 반전 결과를 이용하여 일관성 지표를 평가하였다. 평균 거리가 작을수록 반전 전후 활성화 위치가 안정적으로 유지됨을 의미한다. Table 5는 시각화 기법별 평균 일관성(%)을 나타낸 결과로, Ablation-CAM이 9.39%로 가장 높은 일관성을 보였고 Grad-CAM(9.45%), Grad-CAM ElementWise (10.13%), Layer-CAM(10.13%)이 그 뒤를 이었다. 반면 Grad-CAM++과 EigenCAM은 각각 11.26%와 11.09%로 상대적으로 낮은 일관성을 보였다. 이러한 시각화 기법별 일관성 차이는 활성 영역의 중요도를 산출하는 방식에 따른 차이로 해석된다. Ablation-CAM은 특징맵을 개별적으로 비활성화했을 때의 실제 예측 점수 감소량을 기반으로 활성 영역을 도출하므로, 그래디언트 기반 기법에 비해 기하학적 변환에 대한 민감도가 낮아 가장 안정적인 결과를 보였다. 반면 Grad-CAM과 Grad-CAM ElementWise는 출력 점수의 그래디언트를 활용하는 특성으로 인해 Ablation-CAM보다는 다소 민감하지만, 전반적으로 유사한 수준의 안정성을 나타냈다. Table 6에서 전처리별 평균 일관성을 비교한 결과, Sharpen 전처리가 1.0%로 가장 안정적이었으며 ROI(2.9%), Gamma(2.3%), Intensity(2.7%) 순으로 높게 나타났다. 반면 Flatten과 HE 전처리는 각각 약 25% 수준으로 가장 낮은 일관성을 보였다. Sharpen, Gamma, ROI 전처리는 반전된 영상에서도 피크 위치가 비교적 일정하게 유지된 반면, Flatten과 HE는 명암 분포 변화로 인해 활성 위치 변동이 크게 나타났다. 특히 Sharpen 전처리는 영상의 기하학적 구조를 유지한 상태에서 결함 주변의 국소 에지 대비만을 강화하므로, 반전 이후에도 결함 형상이 비교적 잘 보존되어 활성화 위치의 일관성이 가장 높게 나타난 것으로 판단된다.
| Rank | CAM | Mean shift [%] |
|---|---|---|
| 1 | Ablation | 9.39 |
| 2 | Grad | 9.45 |
| 3 | Gard EW | 10.1 |
| 4 | Layer | 10.1 |
| 5 | Score | 10.2 |
| 6 | XGrad | 10.2 |
| 7 | HiRes | 10.3 |
| 8 | EigenGrad | 10.5 |
| 9 | Eigen | 11.1 |
| 10 | Grad ++ | 11.3 |
| Rank | Preprocessing | Mean shift [%] |
|---|---|---|
| 1 | Sharpen | 1.00 |
| 2 | Gamma | 2.32 |
| 3 | ROI | 2.86 |
| 4 | Intensity | 2.70 |
| 5 | BBox | 3.95 |
| 6 | CLAHE | 4.03 |
| 7 | Gabor | 5.96 |
| 8 | Sobel | 6.34 |
| 9 | Canny | 6.89 |
| 10 | HE | 24.2 |
| 11 | Flatten | 25.3 |
본 연구에서는 머신러닝 기반 너트 불량 예측 알고리즘에서 성능과 설명 가능성을 동시에 확보하기 위해 다양한 이미지 전처리와 시각화 기법의 조합을 분석하였으며, 다음과 같은 결론을 도출하였다.
(1) 11종의 이미지 전처리 기법과 10종의 Grad-CAM 계열 시각화 기법을 조합하여 모델의 불량 인식 특성을 정량적으로 비교한 결과, Sharpen 전처리와 EigenCAM 조합이 가장 높은 정확도를 보였으며, HE 계열 전처리는 상대적으로 낮은 성능을 나타냈다.
(2) 전처리별 평균 성능 비교에서 Sharpen, Gamma, ROI 순으로 높은 일치도를 보였으며, HE와 Flatten은 전체적으로 낮은 수준을 보였다.
(3) 상하/좌우 변환 이미지 기반 일관성 평가에서는 Ablation-CAM이 가장 안정적인 결과를 보였고, Grad-CAM과 Grad-CAM ElementWise가 그 뒤를 이었다. 전처리 중에서는 Sharpen이 가장 높은 일관성을 보였다.
이를 통해 이미지 전처리와 시각화 기법의 조합에 따라 불량 위치 인식 및 시각화 안정성이 변하는 것을 확인하였다. 본 연구는 향후 불량 검출 모델의 해석 신뢰도를 향상시키기 위한 기초 자료로 활용될 수 있을 것으로 기대된다.
이 연구는 2025년도 중소벤처기업부의 기술개발사업 지원에 의한 연구임[RS-2022-00140872].
| 1. | Tang, B., Chen, L., Sun, W., Lin, Z., 2023, Review of surface defect detection of steel products based on machine vision, IET Image Processing, 17:2, 303-322.![]() |
| 2. | Gong, H., Ding, X., Liu, J., Feng, H., 2021, Review of research on loosening of threaded fasteners, Friction, 10, 335-359![]() |
| 3. | Hong, S. M., Joo, J. W., 2019, Analysis of Long Exposure Noise and High Sensitivity Noise Patterns of Digital Cameras, Journal of Digital Contents Society, 20:9 1745-1754.![]() |
| 4. | Choi, H. Y., Seo, K S.., 2017, CNN Based Detection of Surface Defects for Electronic Parts, Journal of Korean Institute of Intelligent Systems, 27:3, 195-200.![]() |
| 5. | Noh, E. S., Yi, S. L., Kim, M. S., Hong, S. M., 2020, Identification of Bolt Coating Defects Using CNN and Grad-CAM, Trans. Korean Soc. Mech. Eng. A, 44:11 835-842.![]() |
| 6. | Yoon, J. L., Yi, S. L., Hong, S. M., 2024, Development of Nut Defect Detection Algorithm Using Polarized Camera and Preprocessing Methods, Journal of the Korea Academia-Industrial Cooperation Society, 25:9 620-628.![]() |
| 7. | Gonzalez, R. C., Woods, R. E., 2018, Digital Image Processing 4th Edition, Pearson, London. |
| 8. | Simonyan, K., Zisserman, A., 2014, Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv preprint, arXiv:1409.1556.![]() |
| 9. | Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A., 2016, Learning Deep Features for Discriminative Localization, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2921-2929.![]() |
| 10. | Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D., 2017, Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, Proceedings of the IEEE International Conference on Computer Vision (ICCV), 618-626.![]() |
| 11. | Chattopadhyay, A., Sarkar, A., Howlader, P., Balasubramanian, V. N., 2018, Grad-CAM++: Generalized Gradient-Based Visual Explanations for Deep Convolutional Networks, Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), 839-847.![]() |
| 12. | Wang, H., Wang, Z., Du, M., Yang, F., Zhang, Z., Ding, S., Mardziel, P., Hu, X., 2020, Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks, IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).![]() |
| 13. | Desai, S., Ramaswamy, H. G.,2020, Ablation-CAM: Visual Explanations for Deep Convolutional Network via Gradient-free Localization, IEEE Winter Conference on Applications of Computer Vision (WACV), 972-980.![]() |
| 14. | Fu, R., Hu, Q., Dong, X., Guo, Y., Gao, Y., Li, B., 2020, Axiom-based Grad-CAM: Towards Accurate Visualization and Explanation of CNNs (XGrad-CAM), British Machine Vision Conference (BMVC).![]() |
| 15. | Jiang, P.-T., Zhang, C.-B., Hou, Q., Cheng, M.-M., Wei, Y., 2021, LayerCAM: Exploring Hierarchical Class Activation Maps for Localization, IEEE Transactions on Image Processing, 30 5875-5888.![]() |
| 16. | Muhammad, M. B., Yeasin, M., 2021, Eigen-CAM: Visual Explanations for Deep Convolutional Neural Networks, SN Comput, Sci, 2 47.![]() |
| 17. | Gil, J., 2024, pytorch-grad-cam: Class Activation Map methods for PyTorch, GitHub Repository Documentation, <https://github.com/jacobgil/pytorch-grad-cam>. |
| 18. | Draelos, R. L., Carin, L., 2020, Use HiResCAM instead of Grad-CAM for Faithful Explanations of Convolutional Neural Networks, arXiv preprint, arXiv:2011.0889.![]() |
| 19. | Kim, J. W., Kim, N. G., 2021, Adversarial Learning-Based Image Correction Methodology for Deep Learning Analysis of Heterogeneous Images, KIPS Transactions on Software and Data Engineering, 10:11 457-464.![]() |
B.Sc. candidate in the Department of Future Automotive Engineering, Kongju National University. His research interests include machine learning and computer vision.
E-mail: gdswaaa@smail.kongju.ac.kr
Ph.D. candidate in the Department of Future Convergence Engineering, Kongju National University. Her research interests include artificial intelligence.
E-mail: olluv@smail.kongju.ac.kr
Professor in the Department of Future Automotive Engineering, and Institute of Green Car Technology, Kongju National University. His research interests include metal sheet forming and forging, finite element analysis, and optimal design.
E-mail: smhong@kongju.ac.kr