Subscript
1. 서 론
2. 실험 방법
2.1 데이터셋(dataset) 개요
2.2 YOLO_v11n 구조
2.3 하이퍼파라미터(Hyperparameter)
2.4 학습 환경
3. 결과 및 토의
3.1 사전 설정
3.2 평가 지표
3.3 mixup
3.4 mosaic
3.5 copy_paste
3.6 close_mosaic
3.7 비교・분석
4. 결 론
Subscript
IEA : international energy agency
O&M : operation and maintenance
PID : potential-induced degradation
PR : performance ratio
YOLO : you only look once
R-CNN : regions with convolutional neural network feature
mAP : mean average precision
FLOPS : floating point operation per second
GFLOPS : giga-flops
IoU : intersection over union
1. 서 론
제한된 자원(limited resource)과 지구온난화(Global warming)로 인해 지속가능한 신재생 에너지원이 강조됨에 따라 태양광 발전 기술에 대한 관심이 급격하게 증가하고 있다1, 2, 3).
특히 태양광 발전의 경우, 태양으로부터 조사되는 광자를 반도체 소자를 통해 전자로 변환하여 에너지를 생산하는 시스템이기 때문에 친환경적일 뿐만 아니라 별도의 에너지 자원을 저장하는 공간을 요구하지 않아 설치 및 가동이 쉽고, 최대 35년 이상의 기간 동안 에너지를 생산할 수 있는 긴 수명을 보유하고 있다. 이러한 장점으로 인해 국제 에너지 기구 IEA는 전세계 재생 에너지 생산 시스템의 규모가 2030년까지 현재보다 약 4,600 GW 이상 증가할 계획이며, 그중 약 80%가 태양광 발전 시스템(Solar photovoltaic system)일 것이라고 전망했다4).
국내에서는 2025년 2월 대한민국 산업통상자원부에서 2038년까지 태양광 에너지 정격 용량 77.2 GW 보급을 전망하는 “제11차 전력수급기본계획”을 통해 태양광 발전소를 별도의 토지에 설치하는 것을 넘어 바다, 저수지와 같은 수면에 설치하는 수상 태양광 시스템, 고층 건물의 옥상이나 유리창 및 외벽에 설치하는 건물 일체형 태양광 발전 시스템으로의 확장을 도모하여 협소한 국토의 제약을 극복하고, 국내 총에너지 수요를 상회할 수 있는 비전을 제시한 바 있다5).
이러한 태양광 발전 시스템이 장기간 높은 효율로 에너지를 생산하기 위해서는 지속적인 유지 및 보수(O&M) 기술이 매우 중요하다6). 태양광 패널은 무수히 많은 태양 전지가 직병렬로 연결되어 있으며, 하나의 태양 전지에서 결함이 발생하면 전체 시스템의 에너지 생산 효율에 심각한 저하를 초래하게 된다. 이러한 태양광 패널의 결함을 통상 핫스팟(Hot spot)이라고 부르며, 이는 태양 전지 간 접촉 결함, 외부 환경 요인에 따른 부분 음영, 불균일한 태양 전지 효율에 의해 발생하게 된다7, 8, 9, 10, 11). 따라서 핫스팟이 태양광 패널 내에 발생하게 될 경우, 전하 불균형이 발생하게 되면서 국소적인 영역의 온도를 상승시켜 패널의 영구적인 손상 및 이로 인한 수명 감소, 효율 감소를 초래한다. 잠재 유도 열화(PID) 실험에 따르면 핫스팟이 발생한 태양광 패널의 표면은 25℃에서 45℃까지 증가했고, 평균 전력 손실은 25%, 평균 PR은 71.16%로 나타났다. 또한, 태양광 패널내 핫스팟이 3개, 4개, 5개로 증가할 경우, 각각 2.7%, 4.0%, 11%의 급격한 전력 손실의 증가가 발생하고, 다중 핫스팟 결함이 있는 패널은 더 빠른 성능 저하를 나타낸다고 보고함으로써 즉각적인 관리의 중요성을 강조한 바 있다12, 13, 14). 태양광 발전 시스템의 지속적인 관리를 위해서는 태양광 발전 O&M 기술을 보유한 전문 인력의 현장 투입이 반드시 필요하다. 하지만 이는 인력이 투입되기 어려운 환경에 설치된 태양광 패널의 유지보수 과정에서 발생하게 될 사고 위험성 및 제한된 유지보수 시간으로 인하여 큰 인적 비용을 동반한다. 그 결과, 지상형 태양광 발전 3 MW 기준 연간 약 7,000 만원, 20 MW 기준 연간 약 30,000 만원, 수상형 태양광 발전 3 MW 기준 연간 약 8,000 만원의 운영 및 유지보수 비용이 발생하며, 이 중 50% 이상의 비용이 인적 자원을 투입하는 데 활용된다15). 이러한 높은 유지 비용은 공공 및 민간 주체들로 하여금 대규모 재생 에너지 생산 인프라를 확보하는 데 치명적인 장애물로써 대두되고 있다.
이에 최근 적외선(IR) 센서를 활용하여 핫스팟에서 발생하는 국부적인 열을 감지하고, 이를 인공지능(AI) 모델과 결합함으로써 태양광 패널의 결함을 정밀하게 분석하여 인적 자원의 활용을 최소화하는 무인 유지보수 시스템을 개발하는 연구가 활발히 진행되고 있다16, 17, 18). 적외선 센서를 통해 확보한 데이터를 바탕으로 태양광 패널의 핫스팟을 감지할 수 있는 대표적인 딥러닝 알고리즘으로는 Faster R-CNN 모델과 YOLO 모델이 있다. Faster R-CNN 모델은 2단계(Two-stage) 객체 감지 모델로써 이미지에 객체가 있을 확률이 높은 후보 영역을 생성하는 첫 번째 단계와 생성한 후보 영역에서 객체의 클래스를 분류하고 실제 객체 위치를 표시한 바운딩 박스와 모델이 예측한 바운딩 박스의 오차를 줄이는 박스 회귀 분석을 통해 객체를 정밀하게 판정한다. 하지만 Faster R-CNN 모델의 경우, 데이터가 2단계를 거쳐 핫스팟을 감지함에 따라 연산 속도가 느려 실시간 감지와 조치가 필요한 무인 핫스팟 감지 시스템에 적용하기에 한계가 있다. 반면에 YOLO 모델은 1단계(One-stage) 객체 감지 모델로써 이미지를 격자화하여 구역을 나누고, 한번에 바운딩 박스를 예측하고 클래스를 분류한다. 그에 따라, 기존의 Faster R-CNN 모델 대비 연산 속도가 2배 이상 빠를 뿐만 아니라, 평균 정밀도(mAP) 또한 동일한 이미지 대비 YOLO 모델이 약 6% 높은 평균 정밀도를 보이며, 배경 오류(Background errors)와 모델 훈련 시간 또한 절반 이하로 감소하여 효율적인 무인 O&M 시스템에 적용할 수 있는 객체 감지 모델로 보고되고 있다19, 20, 21).
YOLO (You only look once) 객체 탐지 모델은 2015년 YOLO_v1이 처음으로 제안된 이후, 꾸준히 개발되어 현재 YOLO_v11이 정밀 객체 인식에 활용되고 있다. YOLO는 사용자의 환경에 맞게 적용할 수 있도록 매개변수의 수를 조절하여 제공하는데, 매개변수의 수가 많을수록 평균 정밀도가 높아지지만, 연산량이 많아지고 연산 속도가 느려진다. 이러한 매개변수의 경우, 그 수에 따라 각각 n/s/m/l/x 모델로 구분되며, 매개변수의 수가 2.6백만개인 n (nano) 모델, 9.4백만개인 s (small) 모델, 20.1백만개인 m (medium) 모델, 25.3백만개인 l (large) 모델, 56.9백만개인 x (extra-large) 모델을 의미한다. 모델에 따라 가장 특징적으로 드러나는 지표는 평균 정밀도, 연산량(GFLOPs), 추론 시간(Inference time)이다. 객체 감지 모델 벤치마크를 위해 55개 클래스, 3,253개의 훈련 이미지, 1,128개의 검증 이미지를 포함한 데이터셋으로 학습한 n 모델의 평균 정밀도는 75.7%, 연산량은 6.4 GFLOPS, 추론 시간은 0.6 ms로 나타났고, x 모델의 평균 정밀도는 88.5%, 연산량은 194.8 GFLOPS, 추론 시간은 6.1 ms로 나타났다. 따라서 YOLO의 n 모델은 매우 적은 연산량과 빠른 추론 시간에 특장점을 가져 실시간으로 태양광 패널에서 발생한 핫스팟을 감지하기 적합할 뿐만 아니라, 적은 연산량에 비해 높은 평균 정밀도를 유지하여 충분한 감지 성능을 확보할 수 있으므로 실시간 무인 감지 모델로써 많은 연구자들의 주목을 받고 있다22, 23).
초기 YOLO_v8 기반 태양광 패널 표면의 조류 배설물, 균열, 먼지 결함을 감지할 수 있는 모델의 경우, 86.9% 정밀도, 89.9% 재현율, 92.3% 평균 정밀도를 보고한 바 있으며, 이후 지속적인 발전을 통해 현재 YOLO_v11 모델에서는 87.6% 정밀도, 89.0% 재현율, 93.4% 평균 정밀도로 우수한 결함 분석 능력을 보여주고 있다. 하지만 기존에 구현된 YOLO_v11 모델의 경우, 패널 결함에 대해 우수한 정밀도를 보이는 것과 달리 핫스팟과 같은 소형 객체의 감지에 특화되지 않아 정밀도가 크게 떨어지고, m 모델을 사용하여 많은 연산량으로 실시간 핫스팟 감지에 한계가 있다24).
따라서 모델의 연산량을 유지하며 태양광 패널의 결함을 탐지하기 위해 최근 YOLO_v11n의 알고리즘 구조를 설계하여 소형 객체 감지 정밀도를 향상시키는 연구가 진행되고 있다. 특히, 저해상도 및 고해상도 특징을 추출하는 C3k2 모듈의 추출 성능을 강화한 EHMSB (Enhanced hybrid multi-scale block) 모델 및 추출된 특징을 다중 경로로 처리하여 특징을 강화하는 ESMSAB (Enhanced spatial multi-scale attention block) 모델을 추가한 딥러닝 구조를 설계함으로써 기존 YOLO_v11n의 평균 정밀도 90.2% 대비 93.1%까지 향상시킨 결과를 보고한 바 있다25).
최근 미국의 한 연구진은 에너지 케이블 생산 라인에서 실시간으로 결함을 감지 및 분류하기 위해 유전적 진화 과정과 흡사한 유전 알고리즘을 기반으로 학습률, 손실 가중치, 데이터 증강 등의 하이퍼파라미터를 최적화한 YOLO_v11n 모델을 개발하여 에너지 케이블과 같은 소형 객체의 결함 감지 성능에 대해 94.4%의 평균 정밀도에서 94.7%까지 평균 정밀도 향상을 보고하며 하이퍼파라미터의 최적화를 강조하였다26).
관련된 다른 연구 결과에서는 YOLO의 주요 하이퍼파라미터 중 copy_paste와 mixup을 강조한 바 있다. 이 두 파라미터의 조절은 YOLO 모델이 학습 데이터만 과도하게 학습하여 새로운 데이터에 대한 객체 감지 성능이 떨어지는 과적합(Overfitting) 현상과 훈련 데이터의 특징을 충분히 학습하지 못해 학습 데이터는 물론 새로운 데이터에 대한 객체 감지 성능이 떨어지는 과소적합(Underfitting) 현상을 억제할 수 있으며, 그 결과 다변적 환경에서도 높은 재현성 및 평균 정밀도를 확보할 수 있고 보고된 바는 있으나 현재 태양광 O&M 기술에 적용된 바가 미미하다27, 28).
이에 본 연구에서는 YOLO_v11n 모델 기반의 태양광 패널 핫스팟과 같은 소형 객체 탐지에 최적화된 딥러닝 알고리즘을 개발하고자 한다. 이를 위해 본 연구진은 YOLO_v11n 모델 내 개별 하이퍼파라미터의 변화가 핫스팟 탐지 정확도에 미치는 영향을 분석하였다. 특히 모델내 증강 하이퍼파라미터인 mixup은 핫스팟이 포함된 2장의 이미지가 중첩 결합하고, mosaic는 4장의 이미지를 나열하듯 결합하여 딥러닝 모델이 태양광 패널과 관련한 복잡하고 많은 이미지를 학습시킬 수 있게 함으로써 각각의 파라미터에서 약 4%의 평균 정밀도, 약 1%의 평균 정밀도 향상을 달성했다.
그 결과, 본 연구진은 딥러닝 모델내 학습 지도를 사전에 설정해 주는 하이퍼파라미터에 따른 영향을 분석함으로써 기존의 낮은 연산량 6.3 GFLOPs과 2.6 ms의 빠른 추론 시간을 유지함과 동시에 95.2%의 높은 평균 정밀도를 달성할 수 있는 태양광 패널 핫스팟 분석용 딥러닝 알고리즘을 개발했다.
이러한 모델의 하이퍼파라미터 조정을 통한 학습 방향성 설계 전략은 기존 시스템의 즉각적인 연동 가능성을 보장함과 동시에 높은 정밀도를 확보할 수 있어, 딥러닝 모델의 알고리즘 구조를 설계하는 선행 연구 전략과 대비하여 비용적, 시간적 한계를 효과적으로 극복할 수 있을 것으로 기대된다. 나아가 선행 연구에서 새롭게 개발된 알고리즘 내부에 하이퍼파라미터 설계 전략을 연계함으로써 시너지 효과를 창출 및 응용 연구 범위의 확장이 기대된다29).
2. 실험 방법
2.1 데이터셋(dataset) 개요
본 연구에서는 태양광 패널내 핫스팟과 같은 크기가 다른 소형 객체 정보를 YOLO_v11n 모델에 학습시키고자 roboflow 플랫폼에서 제공하는 태양광 패널 적외선 촬영 이미지 데이터셋(dataset)을 활용했다. 해당 데이터셋의 경우, 640 × 640 픽셀(pixel)의 해상도를 갖는 3,633개의 적외선 열화상 이미지로 구성되어 있으며, 학습간 용도에 따라 훈련(Train) 세트 3,052개(84%), 검증(Validation) 세트 363개(10%), 실험(test) 세트 218개(6%)의 적절한 비율로 분배되어 있다. 해당 데이터셋을 분석해 핫스팟의 위치를 표시한 바운딩 박스 면적 대비 전체 이미지 면적에 대한 비율을 계산한 결과, 약 7,000개 이상의 바운딩 박스가 1% 이하의 비율을 가짐을 확인했다(Fig. 1). 이는 본 연구진이 감지하고자 하는 핫스팟이 소형 객체로 인식됨을 의미하며, 따라서 태양광 O&M 기술에 활용되기 위해서는 소형 객체 탐지에 특화된 고정밀 딥러닝 모델의 개발이 반드시 필요함을 시사한다.
또한, 본 데이터셋의 바운딩 박스는 가장 밝은 핫스팟을 기준으로 설정되었는데, 추가적인 바운딩 박스의 설정으로 핫스팟의 밝기에 따른 탐지가 가능하며, O&M 시스템에서 중요한 부분 중 하나인 발전량 저하 분석과 연관 지을 수 있다.
2.2 YOLO_v11n 구조
YOLO_v11은 이전 객체 감지에 주로 사용하던 YOLO_v8 대비 개선된 학습 모델 구조를 보유하고 있어, 22% 이상의 적은 파라미터 수로 더 높은 평균 정밀도를 달성할 수 있다. 본 연구에서 활용한 YOLO_v11n의 구조는 백본(Backbone), 넥(Neck), 헤드(Head) 세 가지 요소로 구성된다.
백본은 학습을 위해 주어진 원본 열화상 이미지로부터 해상도를 절반으로 줄이고, 패턴, 색상, 명도 등 특징의 추출을 담당하는 채널 수를 2배로 증가시켜 단계별로 특징맵(feature map) P1, P2, P3, P4, P5를 생성한다. 각 특징맵은 Conv 블록을 통해 필터의 크기, 필터의 이동 폭을 결정하는 stride, 출력 채널 수를 설정하여 해상도와 채널 수를 조정할 수 있다. 3 × 3 필터가 이동 폭을 결정하는 stride = 2에 의해 해상도가 절반으로 감소하도록 하고, 출력 채널은 설정한 값만큼 증가시키거나 감소시킬 수 있다. C3k2 블록은 입력을 둘로 나누어 하나의 입력은 정보를 보존하고, 다른 하나의 입력은 특징의 표현을 강화하며, 같은 해상도의 특징맵을 하나의 채널로 연결하는 Concat 블록으로 두 입력을 하나로 합친 후 1 × 1 Conv 블록으로 필요한 채널만큼 보존한다. 이렇게 생성된 특징맵은 작은 객체의 위치 및 경계를 포함한 세밀한 고해상도 특징부터 큰 객체의 윤곽, 이미지의 문맥과 같은 추상적인 저해상도 특징까지 학습에 필요한 주요 정보를 추출하고, 넥으로 전달한다(Fig. 2).
넥은 단계에 따른 특징맵의 해상도와 채널 수에 의한 특징을 정리하고, 이를 멀티스케일(multiscale)로 처리함으로써 특징을 강화하는 역할을 한다. 이를 위해 저해상도 특징맵의 채널 수를 유지하면서 해상도를 높이는 업샘플링(upsampling)을 진행하여 고해상도의 특징맵과 결합하고, 고해상도 또한 채널 수를 유지하면서도 해상도를 낮출 수 있는 다운샘플링(downsampling)을 진행하여 저해상도 특징맵과 결합하는 과정을 거치게 된다. 우선 백본의 P5에서 SPPF 블록을 거쳐 작은 객체의 세밀한 정보와 큰 객체의 전체 정보를 결합하는 멀티스멀티스케일 특징을 학습하고, 배경(background)과 잡음(noise)을 억제하는 C2PSA 블록을 거쳐 특징맵 P5_neck을 생성한다. 이렇게 생성된 특징맵은 P4와 결합하기 위해 해상도를 P4와 동일하도록 2배 증가시키는 Upsample 블록을 사용하고 Concat 블록으로 결합 및 C3k2 블록으로 특징을 강화하여 P4_neck을 생성하며, P4_neck도 업샘플링하여 P3와 결합하고 P3_neck을 생성한다. 다시 P3_neck은 P4_neck과 결합하기 위해 백본과 동일하게 Conv 블록으로 해상도를 절반으로 감소시키지만, 출력 채널 수는 동일하게 유지하도록 다운샘플링하고 Concat 블록과 C3k2 블록으로 결합 및 강화하여 특징맵 P4_out을 생성한다. P4_out은 이어서 다운샘플링 후 P5_neck과 결합하여 P5_out을 생성한다.
헤드는 넥에서 생성된 특징맵 P3_neck, P4_out, P5_out을 전달받아 객체의 위치를 예측하고 정답 바운딩 박스와 예측 바운딩 박스가 얼마나 겹치는지 측정하는 지표인 IoU를 기반으로 객체를 올바르게 감지했는지 판정한다.
2.3 하이퍼파라미터(Hyperparameter)
핫스팟과 같은 소형 객체를 정밀하게 탐지하기 위해서는 딥러닝 모델의 학습 과정 및 규칙을 사전에 정의하는 매개변수인 하이퍼파라미터(Hyperparameter)를 최적화하는 과정이 매우 중요하다. 따라서 본 연구진은 실시간 태양광 패널 핫스팟 감지에 특화된 YOLO_v11n 모델을 개발하기 위해 소형 객체의 정밀 인식에 영향을 미칠 것으로 예상되는 주요 하이퍼파라미터인 batch, epochs, lr0, lrf, box, cls, dfl, imgsz, mosaic, close_mosaic, copy_paste, mixup을 선정하여 개별 파라미터의 변화가 정밀도에 미치는 영향을 분석하고자 하였다.
모델은 학습 중 안정성 및 효율을 위해 이미지를 병렬 처리하여 출력값을 평균으로 완충하는데, 이때 사용하는 이미지 묶음의 크기를 정하는 하이퍼파라미터가 batch이며, 클수록 처리하는 양이 많아져 학습 시간이 감소하지만, GPU의 메모리 사용량이 증가하여 높은 비용을 요구한다. epochs는 학습의 반복 횟수를 결정하는 하이퍼파라미터로, 학습이 부족하면 학습 도중에 상승하는 평균 정밀도가 중지되어 최적점을 확인할 수 없는 과소적합 현상이 나타나고, 학습이 과하면 새로운 데이터에서 정밀도가 떨어지는 과적합 현상이 나타난다. 학습간 모델은 각 특징 및 패턴별 가중치를 선정하며, 이러한 가중치는 이후 학습에 적용되어 학습을 반복한다. 따라서 적용할 가중치의 정량화된 기준은 학습률을 통해 결정한다. 학습률과 관련한 하이퍼파라미터는 초기 학습률 lr0와 초기 학습률에 따른 최종 학습률의 비율 lrf이며, 최종 학습률은 lr0 × lrf로 결정된다. 초기 학습률 lr0로부터 lrf에 의해 결정된 최종 학습률까지 초기에는 강한 가중치 적용하여 거시적인 관점에서 패턴을 빠르게 학습하고, 학습이 진행됨에 따라 최종 학습률에 도달하는 경로 및 속도를 완화하여, 학습간 평균 정밀도의 최적점에 안정적으로 수렴할 수 있게 한다.
또한, 객체를 정밀하게 감지하기 위해 박스의 위치 및 경계, 클래스의 분류에 대해 예측과 정답이 다른 정도를 손실 함수로 계산하는데, 이때 모델이 어떤 항목을 중점적으로 개선할지 결정하는 손실 가중치 하이퍼파라미터 box, cls, dfl을 설정한다. box는 실제 바운딩 박스와 예측 바운딩 박스의 정렬(IoU) 손실 가중치, cls는 클래스 분류 손실 가중치, dfl은 박스 경계 정밀도 손실 가중치이며, 손실 함수는 각 손실에 대해 손실 가중치를 곱한 뒤 모두 더하는 가중합 방식으로 계산되므로 손실 가중치가 커질수록 해당 손실이 강조되어 모델이 더 강하게 학습한다.
학습에 사용되는 이미지의 입력과 증강에 적용되는 하이퍼파라미터는 imgsz, mosaic, close_mosaic, copy_paste, mixup로 구성된다.
imgsz는 설정한 값에 따라 입력 이미지의 해상도를 조정하며, 설정한 imgsz의 값으로 해상도를 맞추기 위해 픽셀 수를 늘리거나 줄여 입력으로 사용한다. 정사각형의 이미지만을 입력받기 때문에 직사각형의 이미지를 입력하는 경우는 가중치가 0인 이미지를 덧대는 패딩(padding) 과정이 적용되어 정사각형 이미지로 변환한다. mixup은 두 개의 이미지에 투명도를 적용한 후 하나의 이미지로 겹친다(Fig. 3 (a)). mosaic는 4개의 이미지를 2 × 2로 결합하여 하나의 이미지로 생성하고, 임의의 중심을 선택하여 설정한 imgsz만큼 잘라내어 사용한다(Fig. 3 (b)). copy_paste는 하나의 이미지에서 추출한 바운딩 박스 크기의 이미지를 복사하고, 이를 다른 이미지에 삽입한 후 학습을 진행함으로써 예측 정밀도 향상을 모색한다(Fig. 3 (c)).
mixup, mosaic, copy_paste는 설정한 값에 따라 증강이 적용된 이미지가 생성될 확률이 결정된다. 예를 들어, 0일 때 기능이 꺼지고, 0.5일 때 50% 확률로, 1일 때 모든 이미지에 증강이 적용된다. mosaic는 강한 증강 특성을 보유하고 있어, 학습 초기의 일반화 성능은 탁월하지만, 학습 후반으로 진행될수록 평균 정밀도 수렴을 방해하여 close_mosaic를 사용하여 최종 학습으로부터 mosaic 적용이 해제되는 시점을 설정하여 안정적인 수렴을 도모한다(Fig. 3 (d)). 증강 하이퍼파라미터의 적용은 과적합 현상을 줄여 일반화 성능을 향상하는 데 목적이 있다.
2.4 학습 환경
본 연구의 모델은 Windows 11 Pro (64-bit), Python 3.13.7 PyTorch-2.8.0 (+cu219) 기반으로 AMD Ryzen 7 9700X CPU, 32GB RAM, NVIDIA GeForce RTX 5060Ti 16GB GPU 하드웨어를 사용하여 생성되었다. 해당 환경을 소형 객체 감지용 YOLO_v11n 개발 당시 최신 Python 버전과 GPU의 cuda 버전에 적합한 Pytorch 버전을 사용하였고, 하드웨어 측면에서 충분한 batch 크기, 증강, 연산 성능 및 속도를 확보하도록 8코어 CPU, 충분한 용량의 RAM과 VRAM을 가진 GPU를 사용하여 안정적인 학습 환경을 구축했다.
3. 결과 및 토의
3.1 사전 설정
본 연구에서 데이터셋과 학습 환경 및 정밀한 소형 객체 탐지라는 목표를 고려하여 일부 하이퍼파라미터를 사전에 설정하였다. 3,633개의 열화상 이미지 데이터셋을 학습하기 위해 epochs를 1,000으로, 원활한 소형 객체 감지를 위해 imgsz를 1,024로 설정하여 해상도를 증가시켰고, GPU 하드웨어의 메모리 한계로 인해 batch를 16으로 설정하였다. 증강 하이퍼파라미터의 사용으로 인한 불안정한 수렴과 큰 epochs를 고려하여 초기 lr0를 0.0003으로, lrf를 0.3으로 설정하여 학습 초기의 불안정을 줄이고 학습 후반의 비교적 강한 학습을 유도했다. 또한, 단일 클래스 데이터셋이므로 손실 가중치에 대해서 cls는 초기값인 0.5로, 소형 객체 감지를 학습에서 강조하기 위해 box는 8.0, dfl은 2.0으로 설정했다. 본 연구진은 해당 하이퍼파라미터를 사전에 설정한 학습 모델을 바탕으로 증강 하이퍼파라미터의 변화에 따른 소형 객체 탐지 정밀도를 정량화한 평가 지표를 규명하고자 한다.
3.2 평가 지표
평가 지표는 소형 객체에 대한 보편적인 성능을 확인할 수 있도록 예측 바운딩 박스가 정답 바운딩 박스와 50% 이상 겹칠 때 정답이라고 판정하는 지표, 즉 IoU 임계값이 50% 이상인 평균 정밀도 mAP@50을 사용하였다. mAP@50은 정밀도(Precision)-재현율(Recall) 곡선이 그리는 면적을 계산하여 도출된다. 정밀도와 재현율은 TP, FP, FN에 의하여 계산되며, 그 식이 (1), (2)에 나타나 있다.
TP (True Positive)는 존재하는 객체를 올바르게 감지한 경우, FP (False Positive)는 존재하지 않는 객체를 감지하거나 잘못된 객체를 감지한 경우, FN (False Negative)은 존재하는 객체를 감지하지 못한 경우를 누적한 횟수를 의미하며, 따라서 정밀도는 예측한 객체 중 실제로 존재하는 객체를 감지한 경우, 재현율은 실제 존재하는 객체를 올바르게 감지한 경우를 의미한다.
본 연구진은 YOLO_v11n 모델의 하이퍼파라미터를 기존에 보고된 소형 객체 탐지 모델을 참고하여 초기값을 설정하였으며, 사전 설정값으로만 설정하고 모델을 생성했을 때의 mAP@50을 기준으로 증강 하이퍼파라미터의 변화에 따른 소형 객체에 대한 감지 정밀도를 평가했다. 이러한 하이퍼파라미터의 초기값은 Table 1에 요약해 두었으며, 생성한 핫스팟 감지 모델의 경우, 91.2%의 높은 평균 정밀도를 보이고 있으나, 태양광 발전의 무인 O&M 기술에 활용되기 위해서는 성능 향상이 반드시 요구된다.
Table 1
Primary hyperparameters of YOLO_v11
3.3 mixup
증강 하이퍼파라미터 mixup은 [0, 1] 범위로 적용되며, 적용 값에 따라 2장의 이미지가 겹쳐져 생성될 확률을 결정한다. mixup 단독의 변화에 따른 평균 정밀도 mAP@50을 확인하기 위해 나머지 증강 하이퍼파라미터들은 적정값으로 고정했다. 고정한 증강 하이퍼파라미터는 mosaic = 0.8, close_mosaic = 100, copy_paste = 0.5이다. 실험 결과, mixup이 0.1일 때 mAP@50은 93.8%, 0.2일 때 mAP@50은 94.6%, 0.3일 때 mAP@50은 93.4%, 0.4일 때 mAP@50은 93.0%, 0.5일 때 mAP@50은 93.5%, 0.6일 때 mAP@50은 93%, 0.7일 때 mAP@50은 93.3%, 0.8일 때 mAP@50은 91.2%, 0.9일 때 mAP@50은 91.8%로 결과가 나타났다 (Fig. 3 (e)). 해당 실험의 결과에서 mixup의 최적점은 0.2이며, 이외의 값들은 오히려 사전 설정값 모델과 비교하여 평균 정밀도가 떨어졌고, 값의 변화에 따라 평균 정밀도가 비례해서 증감하지는 않지만, 가장 높은 값에서 평균 정밀도가 가장 낮았다. mixup이 동작할 경우, 2장의 이미지에 투명도가 적용되어 겹쳐지기 때문에 객체가 흐려진다. 소형 객체가 대부분 분포되어 있는 데이터셋에서는 이러한 증강 변화가 객체의 경계를 흐리게 하여 인식을 저해할 가능성이 높아, mixup 수치의 지나친 증가는 오히려 성능 열화를 유발할 수 있다. 하지만 mixup은 복잡한 배경에서 패널의 핫스팟을 학습할 수 있는 다수의 이미지를 제공하여 모델의 일반화 성능 및 평균 정밀도를 향상할 수 있기에 0.2가량의 mixup 증강을 통해 최적의 정밀도 향상을 달성했다.
3.4 mosaic
증강 하이퍼파라미터 mosaic는 [0, 1] 범위로 조절할 수 있으며, 적용 값에 따라 4장의 이미지가 2×2 형태로 결합되어 하나의 이미지를 생성할 확률이 결정된다. mosaic의 단일 파라미터 변화에 따른 평균 정밀도 mAP@50을 확인하기 위해 close_mosaic = 100, mixup = 0.2, copy_paste = 0.5로 고정한 후 계산을 진행했다. 실험 결과, mosaic의 수치가 0.2일 때 94%의 mAP@50을 달성했고, 0.4일 때 mAP@50은 94.8%, 0.6일 때 mAP@50은 94.1%, 0.8일 때 mAP@50은 94.6%, 1일 때 mAP@50은 93.7%로 나타났다 (Fig. 3(f)). 따라서 소형 객체 탐지를 위한 mosaic의 최적값은 0.4로 확인할 수 있다. 나아가, mosaic 값의 변화에 따라 평균 정밀도는 특정한 경향성을 보이지 않으며, 초기 설정값으로 생성한 모델과 비교하여 평균 정밀도가 감소하는 경우가 발견되지 않음을 학습 결과로부터 확인할 수 있다. mosaic는 4개의 이미지를 합친 후, 해상도에 맞춰 사용하기 위해 이미지의 중심을 무작위로 설정하게 되는데, 이는 다수의 소형 객체가 포함된 데이터셋에서 고강도의 증강이 적용될 경우, 증강된 이미지상에 소형 객체가 존재하지 않아 탐지되지 않을 가능성을 높여 평균 정밀도의 변화가 일정하지 않음을 확인할 수 있다. 그럼에도 적절한 강도의 mosaic 증강은 다양한 배경이 합쳐진 이미지에 대한 핫스팟을 학습하도록 유도하기 때문에 평균 정밀도가 향상된다.
3.5 copy_paste
증강 하이퍼파라미터 copy_paste는 [0, 1] 범위로 적용되며, 하나의 이미지에서 객체를 복사하여 다른 이미지에 삽입한다. copy_paste의 단독 변화에 따른 평균 정밀도 mAP@50을 확인하기 위해 mosaic = 0.8, close_mosaic = 100, mixup = 0.2로 고정했다. 학습 결과, copy_paste의 값이 0일 때부터 0.8일 때까지 모든 경우에서 평균 정밀도 mAP@50이 94.6%로 동일한 것을 확인할 수 있다(Fig. 3 (g)). copy_paste는 객체를 복사한 뒤 삽입함으로써 해당 객체의 클래스가 존재하는 경우의 수를 늘려주는 증강 파라미터인데, 본 연구에서 사용된 데이터셋은 다수의 핫스팟이 존재하는 이미지로 구성된 단일 클래스이므로, 학습이 충분히 진행되어 해당 객체를 더 많이 등장시키는 증강의 영향이 미미하다는 것을 평균 정밀도의 결과로 확인할 수 있다. 하지만 이는 데이터셋 상에서 소형 객체가 매우 적은 수로 존재하여 학습이 미흡한 희귀 클래스의 경우, 낮은 감지 정밀도가 향상될 가능성이 있음을 시사한다.
3.6 close_mosaic
증강 하이퍼파라미터 close_mosaic는 0 이상의 범위로 적용되며, 다른 증강 하이퍼파라미터와 달리 직접적으로 이미지에 증강을 적용하지 않고, mosaic 증강의 비활성 시점을 설정하는 역할을 한다. 본 연구진은 close_mosaic의 변화를 확인하기 위해 mosaic = 0.4, mixup = 0.2로 다른 증강 파라미터를 고정하고 학습을 진행했다. close_mosaic = 40일 경우, mAP@50은 94.3%, 60일 경우 mAP@50은 93.7%, 80, 100, 120일 경우 mAP@50은 94.8%, 140일 때 mAP@50은 94.4%로 나타났다. close_mosaic의 변화에 따른 mAP@50의 일정한 경향성을 보이지는 않으나, epochs가 1,000인 점을 고려하면 epochs의 약 10% 부근에서 mosaic를 비활성하는 것이 최적점이라는 것을 확인했다. 이는 mosaic를 통해 4가지 이미지가 혼재된 비현실적인 이미지를 학습함으로써 일반화 성능 및 데이터 다양성이 향상되지만, 실제 단일 이미지의 소형 객체에 대한 학습량이 감소하게 되면서 모델이 객체의 위치를 특정하는 성능이 떨어질 수 있음을 의미하며, 학습량의 10%만 적용하는 것이 최적의 성능을 확보할 수 있음을 시사한다. 이러한 영향은 close_mosaic를 적용한 최적화 모델의 바운딩 박스 위치의 손실 수치가 학습 진행도가 90% 이상인 시점으로부터 매우 낮게 수렴하는 모습을 통해 검증할 수 있다(Fig. 4 (a)).

Fig. 4
Comparison of the performances between conventional model (blue circle) and optimized model (red circle). (a) train/box_loss, (b) train/cls_loss, (c) train/dfl_loss, (d) precision of model, (e) recall of model, (f) val/box_loss, (g) val/cls_loss, (h) val/dfl_loss, (i) mAP@50 of model, (j) mAP@50-95 of model, (k) mAP@50 of the tested model
3.7 비교・분석
본 연구진은 계산한 결과를 바탕으로 태양광 패널내 핫스팟 탐지에 최적화된 YOLO_v11n 기반 딥러닝 모델을 개발하였으며, 최적 하이퍼파라미터는 epochs = 1,000, imgsz = 1,024, batch = 16, lr0 = 0.0003, lrf = 0.3, box = 8.0, cls = 0.5, dfl = 2.0, mosaic = 0.4, close_mosaic = 100, copy_paste = 0.5, mixup = 0.2이다. YOLO와 같은 딥러닝 모델은 훈련, 검증 단계를 거쳐 모델을 생성하고, 테스트 단계에서 모델의 성능을 평가한다.
훈련 단계(Train)에서는 증강 하이퍼파라미터가 적용된 이미지를 학습하며 발생한 손실에 대해 손실이 감소하도록 가중치를 적용하며 학습한다. 바운딩 박스의 위치에 대한 손실 그래프(train/box_loss)에서 최적화 모델이 기존 모델에 비해 낮은 손실 수치로 수렴한다(Fig. 4 (a)). 클래스의 분류에 대한 손실(train/cls_loss) 또한 최적화 모델이 더 낮은 손실 수치로 수렴한다(Fig. 4 (b)). 각 최적화 모델의 손실 그래프에서 나타나는 경향의 원인은 증강 하이퍼파라미터의 영향이며, 복잡하고 예측하기 힘든 이미지를 학습하기 때문에 초반 손실 수치가 높지만, 후반으로 갈수록 안정적으로 수렴하여 하이퍼파라미터의 적용 목적인 일반화 성능 향상의 경향을 보인다. 반면, 바운딩 박스 경계의 정밀도에 대한 손실(train/dfl_loss)은 최적화 모델이 높은 손실 수치로 수렴하는 것을 확인했다 (Fig. 4 (c)). 이는 증강의 영향으로 객체가 희미해지고 가려지는 현상이 발생하여 객체간 경계가 모호해짐으로 인한 결과이다. 또한, 기존 모델과 비교하여 최적화 모델의 손실 그래프에서는 학습 후반(> 90%) 급격하게 수렴하는 경향이 동일하게 나타나고 있는데, 이는 close_mosaic의 영향으로 학습 후반에 mosaic 증강을 중단하고 일반적인 원본 데이터를 학습함에 따라 단순한 이미지를 학습함으로써 수렴이 가속화됨을 의미한다.
한 번의 epoch에서 훈련이 끝나면 검증(Validation) 단계가 시작된다. 검증 단계는 훈련 단계에서 사용하지 않은 이미지를 사용하여 일반화 성능을 검증한다. 이 단계에서 손실 수치를 계산하여 학습 단계의 손실 수치와 비교하여 모델의 학습 과정을 분석하는 근거를 제시한다. 최적화 모델의 valid/box_ loss는 학습 초반부터 train/box_loss와 비교하여 더 낮게 수렴된다. 이는 증강 이미지를 사용하여 학습이 어려운 훈련 단계에 비해 일반적인 원본 이미지를 사용하여 손실 수치의 수렴이 원활하기 때문이다. 기존 모델은 훈련 단계에서도 원본 이미지를 사용하기 때문에 valid/box_loss와 train/box_loss의 차이가 거의 없이 수렴하게 된다(Fig. 4 (f)). 최적화 모델의 valid/cls_loss와 train/cls_loss를 비교했을 때 유사한 경향을 보이고 있으며, 이는 본 연구에서 사용한 데이터셋이 단일 클래스의 특징을 가지기 때문이다. 따라서 기존 모델 또한 동일한 경향을 보이지만, 최적 모델에서는 증강 파라미터의 적용으로 우수한 손실 수치를 보이고 있음을 의미한다(Fig. 4 (g)). valid/dfl_loss는 train/dfl_loss와 동일하게 최적화 모델이 기존 모델보다 높은 손실 수치로 수렴하는 경향이 나타나며, 이는 훈련 단계에서 원본 이미지를 학습한 기존 모델과 달리 증강된 이미지를 학습한 최적화 모델이 세밀한 경계보다 포괄적인 경계를 맞추도록 학습되어 검증 단계의 원본 이미지상에서도 dfl_loss를 낮추도록 세밀하게 동작하지 않아 발생한다(Fig. 4 (h)).
또한, 본 연구진은 검증 단계에서 해당 모델의 핫스팟 탐지 성능을 정량화하기 위해, 정밀도, 재현율, mAP@50, mAP@ 50-95를 도출하였다. 본 연구진이 개발한 최적 모델의 경우, 기존 모델과 대비하여 더 높은 정밀도로 수렴함을 보이고 있으며 이는 소형 객체에 대한 탐지 오류가 적음을 의미한다(Fig. 4 (d)). 마찬가지로 재현율의 경우, 기존 모델 대비 최적 모델이 더 높은 수치로 수렴함으로써 존재하는 낮은 객체 미검출 특성을 확보할 수 있었다(Fig. 4 (e)). 도출된 정밀도와 재현율의 데이터를 바탕으로 확보한 정밀도-재현율 곡선에서 IoU의 임계값이 50% 이상의 정밀도 평균을 mAP@50으로 추출할 수 있으며, 기존 모델과 대비하여 높은 mAP@50 성능을 달성함을 확인할 수 있다(Fig. 4 (i)). IoU의 임계값을 50%부터 95%까지 5% 단위로 분할하고, 각 임계값의 평균 정밀도를 계산하고, 이들의 평균값을 mAP@50-95로 추출할 수 있으며, 최적화 모델의 정밀도 및 재현율이 IoU의 전 영역에서 기존 모델 대비 향상된 성능을 달성하기 때문에 높은 mAP@50-95를 달성함을 확인할 수 있다(Fig. 4 (j)).
본 연구진은 학습이 종료된 뒤, 학습 중 가장 높은 mAP@50 및 mAP@50-95를 기록했던 학습 회차를 최적 모델로 생성하였으며, 이 모델을 테스트 단계에 사용하였다. 테스트 단계에서 훈련 및 검증 단계에 사용되지 않은 이미지를 사용해 일반화 성능을 시험한 결과, 본 연구진이 개발한 최적 모델이 기존 모델과 대비하여 4.39%의 mAP@50 성능 향상을 달성하였다(Fig. 4 (k)).
최종적으로, 본 연구진은 기존의 YOLO_v11n 모델내 증강 하이퍼파라미터를 적용하고, 최적 수치를 설계함으로써 95.5%의 정밀도, 93%의 재현율, 95.2%의 평균 정밀도 mAP@50을 달성함으로써 핫스팟과 같은 소형 객체를 정밀하게 탐지할 수 있는 딥러닝 모델을 개발하였다(Table 2).
Table 2
Comparison of augmentation hyperparameters in the conventional and optimized models
| conventional | optimized | |
| mixup | 0 | 0.2 |
| mosaic | 1 | 0.4 |
| copy_paste | 0 | 0.5 |
| close_mosaic | 0 | 100 |
| precision | 84.4% | 95.5% |
| recall | 88% | 93% |
| mAP@50 | 91.2% | 95.2% |
이렇게 개발된 딥러닝 모델은 기존 모델과 별도의 호환성 검증 없이 대체 가능하므로 즉각적으로 태양광 발전소의 핫스팟 감지용 무인 플랫폼에 활용할 수 있을 것으로 기대하며, 향후 추가적인 하이퍼파라미터 연구를 통한 정밀도 향상을 모색함으로써 완전한 의미의 태양광 발전 진단용 무인 플랫폼을 실현할 수 있을 것으로 기대된다.
4. 결 론
본 연구에서는 태양광 패널의 핫스팟을 높은 정밀도로 분석할 수 있는 소형 객체 탐지용 딥러닝 모델을 개발하였다. 본 연구진은 하이퍼파라미터 mixup, mosaic, copy_paste, close_ mosaic를 적용 및 변화에 따른 소형 객체 탐지 성능에 미치는 영향을 분석하였다. 그 결과, mixup의 변화가 정밀도에 핵심적인 영향을 미침을 확인할 수 있었으며, mixup = 0.2의 조건에서 94.6%의 높은 mAP@50을 확보할 수 있었다. 이는 이미지에 투명도를 부여하는 mixup이 복잡한 이미지의 학습을 통해 평균 정밀도의 향상을 달성할 수 있으나, 소형 객체간 경계 조건을 완화함에 따라 지나친 mixup 증강의 적용은 정밀도를 크게 저해함을 확인할 수 있었다. 또한, copy_paste의 경우, 하나의 이미지에서 객체를 복사하여 다른 이미지에 삽입하여 학습시키는 파라미터로써 충분한 이미지 데이터를 바탕으로 학습이 진행되면 정밀도에 영향을 주지 않음을 확인할 수 있었다. mosaic의 경우, 4개의 이미지를 조합하여 하나의 이미지를 생성하는 증강 파라미터로 복잡한 이미지를 학습시킴에 따라, 평균 정밀도의 향상을 모색할 수 있으나, 무작위로 이미지가 혼합되는 과정에서 소형 객체가 소실되는 경우가 발생하여 증강의 변화에 따라 일정한 경향성을 보이지 않음을 확인할 수 있었다. 또한 mosaic 증강의 중지 시점을 지정하는 close_ mosaic의 경우, 실제 이미지에서의 객체 학습량과 가상의 복잡한 이미지에서의 객체 학습량을 조절함으로써 모델에서 정확한 소형 객체에 대한 정보와 데이터 다양성을 동시 학습을 모색할 수 있으며, 전체 학습량의 약 10% 지점을 선정하는 것이 최적임을 확인할 수 있었다. 결과적으로 본 연구진이 제안하는 핫스팟 탐지에 최적화된 YOLO_v11n 기반 딥러닝 모델은 mixup = 0.2, mosaic = 0.4, copy_paste = 0.5, close_mosaic = 100의 하이퍼파라미터에서 약 95.2%의 높은 평균 정밀도 mAP@50을 달성할 수 있었다.
해당 연구 결과는 향후 이미지 내 핫스팟의 명암 차이 및 형태(선형, 응집, 띠, 다면 구조)에 따른 분석으로 확장 가능하며, 이는 단순히 핫스팟의 존재 유무 검출을 넘어 핫스팟의 발생 원인, 시작점 및 그에 따른 출력 저하율을 실시간으로 분석할 수 있는 인공지능 모델을 개발하여 태양광 발전소 O&M용 무인 플랫폼 구축의 실효성을 향상시켜 줄 수 있을 것으로 기대된다.





