객체 감지는 신경망이 이미지의 항목을 예상하고 그 주위에 경계 상자를 그리는 이미지 분류 유형입니다. 사전 설정된 클래스 세트를 준수하는 이미지에서 사물을 감지하고 위치를 파악하는 것을 객체 감지라고 합니다.
객체 감지(객체 인식이라고도 함)는 감지, 식별 및 지역화와 같은 작업이 실제 상황에서 광범위하게 적용되기 때문에 Computer Vision의 특히 중요한 하위 도메인입니다.
YOLO 접근 방식은 이러한 작업을 수행하는 데 도움이 될 수 있습니다. 이 에세이에서는 YOLO가 무엇인지, 어떻게 작동하는지, 다양한 변형 등을 포함하여 YOLO에 대해 자세히 살펴보겠습니다.
그렇다면 욜로란 무엇일까요?
YOLO는 사진에서 실시간 개체 식별 및 인식을 위한 방법입니다. You Only Look Once의 줄임말입니다. Redmondet al. 컴퓨터 비전 및 패턴 인식(CVPR)에 관한 IEEE/CVF 회의에서 2015년에 처음 발표된 논문에서 접근 방식을 제안했습니다.
OpenCV People's Choice Award는 논문에 수여되었습니다. 탐지를 위해 분류기의 용도를 변경한 이전 객체 식별 방법과 달리 YOLO는 엔드 투 엔드의 사용을 제안합니다. 신경망 경계 상자와 클래스 확률을 동시에 예측합니다.
YOLO는 객체 인식에 대한 근본적으로 새로운 접근 방식을 취하여 이전의 실시간 객체 감지 방법을 쉽게 능가하는 최첨단 결과를 생성합니다.
욜로 작업
YOLO 방법은 그림을 각각 동일한 크기의 SxS 차원 섹터가 있는 N개의 그리드로 나눕니다. 이 N개의 그리드 각각은 포함된 개체를 감지하고 찾는 일을 담당합니다.
이러한 그리드는 차례로 셀 좌표에 상대적인 B 경계 상자 좌표와 항목 이름 및 셀에 있는 개체의 가능성을 예측합니다. 다양한 바운딩 박스 예측으로 동일한 항목을 예측하는 많은 셀로 인해 이 기술은 감지와 인식이 모두 그림의 셀에서 처리되기 때문에 계산을 상당히 줄입니다.
그러나 많은 중복 예측을 생성합니다. 이 문제를 해결하기 위해 YOLO는 Non-Maximal Suppression을 사용합니다. YOLO는 Non-Maximal Suppression에서 확률 점수가 낮은 모든 경계 상자를 억제합니다.
YOLO는 각 옵션과 연결된 확률 점수를 조사하고 가장 높은 점수를 가진 항목을 선택하여 이를 수행합니다. 그런 다음 현재 확률이 높은 경계 상자와 합집합보다 가장 큰 교차가 있는 경계 상자가 억제됩니다.
이 프로세스는 경계 상자가 완료될 때까지 계속됩니다.
YOLO의 다양한 변형
가장 일반적인 YOLO 버전을 살펴보겠습니다. 시작하자.
1. 욜로v1
초기 YOLO 버전은 2015년 출판물 "You Only Look Once: 통합된 실시간 개체 감지” Joseph Redmon, Santosh Divvala, Ross Girshick 및 Ali Farhadi 작성.
속도, 정확성 및 학습 능력으로 인해 YOLO는 물체 식별 영역을 빠르게 지배했으며 가장 널리 사용되는 알고리즘이 되었습니다. 객체 감지를 분류 문제로 다루기보다 작성자는 지리적으로 분리된 경계 상자와 관련 클래스 확률이 있는 회귀 문제로 접근하여 단일 방법을 사용하여 해결했습니다. 신경망.
YOLOv1은 실시간으로 초당 45프레임으로 사진을 처리하는 반면, 더 작은 변형인 Fast YOLO는 초당 155프레임으로 처리되고 여전히 다른 실시간 감지기보다 두 배의 mAP를 얻었습니다.
2. 욜로v2
2016년 후인 2년에 Joseph Redmon과 Ali Farhadi는 "YOLO9000으로도 알려진 YOLOvXNUMX를 발표했습니다.YOLO9000: 더 나은, 더 빠른, 더 강력한. "
실시간으로 실행하면서 9000개의 개별 항목 범주도 예측할 수 있는 모델의 용량은 9000이라는 명칭을 얻었습니다. 새 모델 버전은 물체 감지 및 분류 데이터 세트에 대해 동시에 훈련되었을 뿐만 아니라 Darknet-19를 새로운 기준으로 얻었습니다. 모델.
YOLOv2도 큰 성공을 거두었고 빠르게 차세대 객체 인식 모델이 되었기 때문에 다른 엔지니어들이 알고리즘을 실험하고 고유한 YOLO 버전을 생성하기 시작했습니다. 그들 중 일부는 논문의 여러 지점에서 논의될 것입니다.
3. 욜로v3
논문에서 "YOLOv3: 점진적 개선,” Joseph Redmon과 Ali Farhadi는 2018년에 새로운 버전의 알고리즘을 발표했습니다. 그것은 Darknet-53 아키텍처를 기반으로 구축되었습니다. 독립적인 로지스틱 분류기는 YOLOv3에서 softmax 활성화 메커니즘을 대체했습니다.
이진 교차 엔트로피 손실은 훈련 중에 사용되었습니다. Darknet-19는 향상되었으며 Darknet-53으로 이름이 변경되었으며 이제 53개의 컨볼루션 레이어가 있습니다. 그 외에도 YOLOv3가 작은 것을 예측하는 정확도를 높이는 데 도움이 되는 세 가지 다른 척도로 예측이 수행되었습니다.
YOLOv3는 Joseph Redmon의 최종 YOLO 버전이었습니다. 그는 자신의 작업이 세상에 해로운 영향을 미치는 것을 피하기 위해 더 이상의 YOLO 개선(또는 컴퓨터 비전 영역) 작업을 하지 않기로 선택했기 때문입니다. 이제 고유한 개체 감지 아키텍처를 구성하기 위한 시작점으로 주로 사용됩니다.
4. 욜로프4
Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao는 “YOLOv4: 객체 감지의 최적 속도 및 정확도2020년 XNUMX월, YOLO 알고리즘의 네 번째 반복이었습니다.
Weighted Residual Connections, Cross-Stage-Partial Connections, cross mini-batch normalization, self-adversarial training, mish activation, drop block, CIoU loss는 모두 SPDarknet53 아키텍처의 일부로 도입되었습니다.
YOLOv4는 YOLO 제품군의 후손이지만 별도의 과학자(Joseph Redmon 및 Ali Farhadi가 아님)가 개발했습니다. SPDarknet53 백본, 공간 피라미드 풀링, 목으로서의 PANet 경로 집계 및 YOLOv3 헤드가 아키텍처를 구성합니다.
결과적으로 부모인 YOLOv3와 비교할 때 YOLOv4는 10% 더 높은 평균 정밀도와 12% 더 나은 초당 프레임 메트릭을 달성합니다.
5. 욜로v5
OLO 로브 5 COCO 데이터 세트에서 사전 훈련된 YOLO 모델을 기반으로 다양한 객체 식별 모델 및 알고리즘을 포함하는 오픈 소스 프로젝트입니다.
YOLOv5는 복합 스케일 개체 식별 모델 모음입니다. TTA, 모델 조립, 하이퍼파라미터 개발 및 ONNX, CoreML 및 TFLite로 내보내기를 위한 손쉬운 기능을 통해 COCO 데이터 세트에 대해 교육을 받았습니다. YOLOv5는 고유한 접근 방식을 구현하거나 개발하지 않기 때문에 공식 문서를 발표할 수 없었습니다. 단순히 YOLOv3의 PyTorch 확장입니다.
Ultranytics는 이 시나리오를 활용하여 후원하에 "새로운 YOLO" 버전을 홍보했습니다. 또한 5개의 사전 훈련된 모델에 액세스할 수 있기 때문에 YOLOv5 홈페이지는 매우 간단하고 전문적으로 구성되고 작성되었으며 YOLOvXNUMX 모델 훈련 및 활용에 대한 많은 교훈과 제안이 있습니다.
욜로의 한계
YOLO가 해결을 위한 최고의 기술인 것처럼 보이지만 물체 감지 문제, 여러 가지 단점이 있습니다. 각 그리드는 하나의 항목만 식별할 수 있기 때문에 YOLO는 그룹으로 나타나는 사진에서 작은 것을 감지하고 분리하는 데 어려움이 있습니다. 개미 떼와 같이 떼에 있는 작은 것들은 YOLO가 식별하고 위치를 찾기가 어렵습니다.
Fast RCNN과 같은 상당히 느린 개체 식별 방법과 비교할 때 YOLO는 마찬가지로 정확도가 떨어지는 특징이 있습니다.
YOLOv5 사용 시작
YOLOv5가 작동하는 것을 보고 싶다면 다음을 확인하십시오. 공식 GitHub 및 PyTorch의 YOLOv5.
결론
YOLOv5의 초기 버전은 매우 빠르고 성능이 뛰어나며 사용이 간편합니다. YOLOv5는 YOLO 제품군에 새로운 모델 아키텍처를 추가하지 않지만 객체 감지기의 최신 기술을 향상시키는 새로운 PyTorch 교육 및 배포 프레임워크를 제공합니다.
또한 YOLOv5는 매우 사용자 친화적이며 맞춤형 개체에 사용할 준비가 된 "즉시" 제공됩니다.
댓글을 남겨주세요.