합성 데이터 설명 - AI, ML 및 DL의 차세대 혁신

고급 분석 및 기계 학습 프로그램은 데이터에 의해 추진되지만 개인 정보 보호 및 비즈니스 절차 문제로 인해 학계에서 해당 데이터에 대한 액세스가 어려울 수 있습니다.

실제 데이터가 할 수 없는 방식으로 공유하고 활용할 수 있는 합성 데이터는 잠재적으로 추구해야 할 새로운 방향입니다. 그러나 이 새로운 전략에 위험이나 단점이 없는 것은 아니므로 기업이 자원을 어디에 어떻게 사용하는지 신중하게 고려하는 것이 중요합니다.

AI의 현 시대에 우리는 데이터가 새로운 석유라고 말할 수도 있지만, 선택받은 소수만이 분수령에 앉아 있습니다. 따라서 많은 사람들이 저렴하고 효율적인 자체 연료를 생산하고 있습니다. 합성 데이터라고 합니다.

이 게시물에서는 합성 데이터에 대해 자세히 살펴보겠습니다. 왜 사용해야 하는지, 어떻게 생성하는지, 실제 데이터와 어떻게 다른지, 어떤 사용 사례를 제공할 수 있는지 등입니다.

그렇다면 합성 데이터는 무엇입니까?

실제 데이터 세트가 품질, 수 또는 다양성 면에서 부적절할 때 합성 데이터를 사용하여 실제 과거 데이터 대신 AI 모델을 훈련할 수 있습니다.

기존 데이터가 비즈니스 요구 사항을 충족하지 않거나 개발에 활용 시 개인 정보 위험이 있는 경우 기계 학습 모델, 테스트 소프트웨어 등 합성 데이터는 기업 AI 노력에 중요한 도구가 될 수 있습니다.

간단히 말해서 실제 데이터 대신 합성 데이터가 자주 활용됩니다. 보다 정확하게는 시뮬레이션이나 컴퓨터 알고리즘에 의해 인위적으로 태그가 지정되고 생성된 데이터입니다.

합성 데이터

합성 데이터는 실제 발생한 결과가 아니라 컴퓨터 프로그램에 의해 인위적으로 생성된 정보입니다. 회사는 훈련 데이터에 합성 데이터를 추가하여 모든 사용 및 엣지 상황을 처리하고 데이터 수집 비용을 줄이거나 개인 정보 보호 규정을 충족할 수 있습니다.

처리 능력과 클라우드와 같은 데이터 저장 방식의 개선 덕분에 인공 데이터에 더 쉽게 접근할 수 있게 되었습니다. 합성 데이터는 모든 최종 사용자에게 더 유익한 AI 솔루션 생성을 개선하며 이는 의심할 여지 없이 좋은 개발입니다.

합성 데이터가 얼마나 중요하며 왜 사용해야 합니까?

AI 모델을 훈련할 때 개발자는 종종 정확한 레이블이 지정된 거대한 데이터 세트가 필요합니다. 더 다양한 데이터로 가르칠 때, 신경망 더 정확하게 수행합니다.

그러나 수백 또는 수백만 개의 항목이 포함된 이러한 방대한 데이터 세트를 수집하고 레이블을 지정하는 것은 시간과 비용이 지나치게 많이 소요될 수 있습니다. 합성 데이터를 사용하면 훈련 데이터 생성 비용을 크게 줄일 수 있습니다. 예를 들어 인위적으로 생성된 트레이닝 이미지는 구매 시 $5의 비용이 듭니다. 데이터 라벨링 제공자 비용은 $0.05에 불과합니다.

합성 데이터는 실제 세계에서 생성된 잠재적으로 민감한 데이터와 관련된 개인 정보 보호 문제를 완화하는 동시에 비용을 절감할 수 있습니다.

현실 세계에 대한 사실의 전체 스펙트럼을 정확하게 반영할 수 없는 실제 데이터와 비교하여 편견을 줄이는 데 도움이 될 수 있습니다. 그럴듯한 가능성을 나타내지만 합법적인 데이터에서 얻기 어려울 수 있는 비정상적인 발생을 제공함으로써 합성 데이터는 더 큰 다양성을 제공할 수 있습니다.

합성 데이터는 아래 나열된 이유로 프로젝트에 매우 적합할 수 있습니다.

1. 모델의 견고성

획득하지 않고도 모델에 대한 보다 다양한 데이터에 액세스할 수 있습니다. 합성 데이터를 사용하면 피부색, 민족적 특성, 뼈 구조, 주근깨 및 기타 특성뿐만 아니라 다양한 이발, 수염, 안경, 머리 포즈 등을 가진 동일인의 변형을 사용하여 모델을 훈련하여 고유한 생성을 생성할 수 있습니다. 직면하고 그것을 강화하십시오.

2. 엣지 케이스 고려

균형 잡힌 데이터 세트는 머신 러닝에 의해 선호됩니다. 알고리즘. 얼굴 인식의 예를 다시 생각해 보십시오. 모델의 정확도는 향상되었을 것이며(사실 일부 비즈니스는 이 작업을 수행했습니다), 데이터 격차를 채우기 위해 어두운 피부의 얼굴에 대한 합성 데이터를 생성했다면 더 도덕적인 모델을 생성했을 것입니다. 팀은 합성 데이터의 도움으로 데이터가 부족하거나 존재하지 않는 엣지 케이스를 포함하여 모든 사용 케이스를 다룰 수 있습니다.

3. "실제" 데이터보다 더 빨리 얻을 수 있습니다.

팀은 방대한 양의 합성 데이터를 빠르게 생성할 수 있습니다. 이는 실제 데이터가 산발적인 이벤트에 의존할 때 특히 유용합니다. 팀은 예를 들어 희소성으로 인해 자율 주행 자동차에 대한 데이터를 수집하는 동안 가혹한 도로 조건에 대한 충분한 실제 데이터를 얻는 것이 어려울 수 있습니다. 힘든 주석 프로세스의 속도를 높이기 위해 데이터 과학자는 합성 데이터가 생성될 때 자동으로 레이블을 지정하는 알고리즘을 설정할 수 있습니다.

4. 이용자의 개인정보를 보호합니다.

기업은 비즈니스 및 데이터의 종류에 따라 민감한 데이터를 취급하는 동안 보안상의 어려움을 겪을 수 있습니다. 예를 들어 개인 건강 정보(PHI)는 의료 산업의 입원 환자 데이터에 자주 포함되며 최대한의 보안을 유지해야 합니다.

합성 데이터에는 실제 사람에 대한 정보가 포함되지 않기 때문에 개인 정보 문제가 줄어듭니다. 팀이 특정 데이터 개인 정보 보호법을 준수해야 하는 경우 대안으로 합성 데이터를 사용하는 것을 고려하십시오.

실제 데이터 대 합성 데이터

현실 세계에서 실제 데이터를 얻거나 측정합니다. 누군가가 스마트폰, 노트북, 컴퓨터를 사용하거나, 손목시계를 차거나, 웹사이트에 접속하거나, 온라인 거래를 하면 이러한 유형의 데이터가 즉시 생성됩니다.

또한 설문조사를 사용하여 실제 데이터(온라인 및 오프라인)를 제공할 수 있습니다. 디지털 설정은 합성 데이터를 생성합니다. 실제 사건에서 파생되지 않은 부분을 제외하고 합성 데이터는 근본적인 품질 측면에서 실제 데이터를 성공적으로 모방하는 방식으로 생성됩니다.

실제 데이터 대신 합성 데이터를 사용한다는 아이디어는 매우 유망합니다. 머신 러닝이 수행하는 훈련 데이터 모델이 필요합니다. 그러나 그것은 확실하지 않다 인공 지능 현실 세계에서 발생하는 모든 문제를 해결할 수 있습니다.

사용 사례

합성 데이터는 모델 교육, 모델 검증, 신제품 테스트를 비롯한 다양한 상업적 목적에 유용합니다. 머신 러닝에 적용하는 데 앞장서고 있는 몇 가지 분야를 나열해 보겠습니다.

1. 건강

데이터의 민감성을 감안할 때 의료 부문은 합성 데이터 사용에 적합합니다. 팀은 합성 데이터를 사용하여 존재할 수 있는 모든 종류의 환자의 생리를 기록할 수 있으므로 질병을 보다 빠르고 정확하게 진단하는 데 도움이 됩니다.

Google의 흑색종 감지 모델은 모든 피부 종류에 대해 효과적으로 기능할 수 있는 능력을 제공하기 위해 더 어두운 피부색을 가진 사람들의 합성 데이터(유감스럽게도 과소 대표되는 임상 데이터 영역)를 통합하기 때문에 이에 대한 흥미로운 설명입니다.

2. 자동차

시뮬레이터는 자율주행 자동차를 만드는 회사에서 성능을 평가하기 위해 자주 사용합니다. 예를 들어 날씨가 궂을 때 실제 도로 데이터를 수집하는 것은 위험하거나 어려울 수 있습니다.

자가 운전 자동차

도로에서 실제 자동차로 실시간 테스트에 의존하는 것은 일반적으로 다른 모든 운전 상황에서 고려해야 할 변수가 너무 많기 때문에 좋은 생각이 아닙니다.

3. 데이터의 이동성

교육 데이터를 다른 사람과 공유할 수 있으려면 조직에서 신뢰할 수 있고 안전한 방법이 필요합니다. 데이터 세트를 공개하기 전에 개인 식별 정보(PII)를 숨기는 것은 합성 데이터에 대한 또 다른 흥미로운 응용 프로그램입니다. 과학 연구 데이터 세트, 의료 데이터, 사회학적 데이터 및 PII를 포함할 수 있는 기타 분야를 교환하는 것을 개인 정보 보호 합성 데이터라고 합니다.

4. 보안

합성 데이터 덕분에 조직이 더 안전합니다. 다시 얼굴 인식 사례를 보면 조작된 사진이나 동영상을 설명하는 "딥 페이크"라는 문구가 익숙할 것입니다. 기업은 자체 안면 인식 및 보안 시스템을 테스트하기 위해 딥 페이크를 생성할 수 있습니다. 합성 데이터는 비디오 감시에도 사용되어 모델을 보다 빠르고 저렴한 비용으로 훈련할 수 있습니다.

합성 데이터 및 기계 학습

견고하고 신뢰할 수 있는 모델을 구축하려면 기계 학습 알고리즘이 처리할 상당한 양의 데이터가 필요합니다. 합성 데이터가 없는 경우 이러한 대량의 데이터를 생성하는 것은 어려울 것입니다.

모델 개발이 초기 합성 데이터의 개발에 의해 촉진되는 컴퓨터 비전 또는 이미지 처리와 같은 영역에서는 매우 중요할 수 있습니다. 사진 인식 분야의 새로운 발전은 GAN(Generative Adversarial Networks)의 사용입니다. 일반적으로 생성기와 판별기의 두 네트워크로 구성됩니다.

Discriminator 네트워크는 실제 사진과 가짜 사진을 구분하는 것을 목표로 하는 반면, Generator 네트워크는 실제 이미지와 훨씬 더 유사한 합성 이미지를 생성하는 기능을 합니다.

기계 학습에서 GAN은 신경망 제품군의 하위 집합이며 두 네트워크 모두 새로운 노드와 계층을 추가하여 지속적으로 학습하고 개발합니다.

합성 데이터를 생성할 때 필요에 따라 환경과 데이터 유형을 변경하여 모델의 성능을 향상시킬 수 있는 옵션이 있습니다. 합성 데이터의 정확도는 높은 점수로 쉽게 얻을 수 있지만 레이블이 지정된 실시간 데이터의 정확도는 때때로 매우 비쌀 수 있습니다.

어떻게 합성 데이터를 생성할 수 있습니까?

합성 데이터 수집을 생성하는 데 사용되는 접근 방식은 다음과 같습니다.

통계적 분포를 바탕으로

이 경우에 사용되는 전략은 유사하게 보이는 거짓 데이터를 생성하기 위해 분포에서 숫자를 가져오거나 실제 통계 분포를 보는 것입니다. 실제 데이터는 상황에 따라 완전히 없을 수 있습니다.

데이터 과학자는 실제 데이터의 통계적 분포에 대한 깊은 이해가 있는 경우 임의의 분포에 대한 무작위 샘플을 포함하는 데이터 세트를 생성할 수 있습니다. 정규 분포, 지수 분포, 카이제곱 분포, 로그 정규 분포 등은 이를 수행하는 데 사용할 수 있는 통계적 확률 분포의 몇 가지 예에 불과합니다.

상황에 대한 데이터 과학자의 경험 수준은 훈련된 모델의 정확도에 상당한 영향을 미칩니다.

모델에 따라

이 기술은 임의의 데이터를 생성하기 위해 해당 모델을 사용하기 전에 관찰된 행동을 설명하는 모델을 구축합니다. 본질적으로 여기에는 실제 데이터를 알려진 분포의 데이터에 맞추는 작업이 포함됩니다. 그러면 기업에서 Monte Carlo 접근 방식을 사용하여 가짜 데이터를 만들 수 있습니다.

또한 분포는 다음을 사용하여 적합할 수도 있습니다. 기계 학습 모델 의사결정나무처럼. 데이터 과학자 그러나 의사 결정 트리는 단순성과 깊이 확장으로 인해 일반적으로 과적합되므로 예측에 주의를 기울여야 합니다.

딥러닝으로

깊은 학습 VAE(Variational Autoencoder) 또는 GAN(Generative Adversarial Network) 모델을 사용하는 모델은 합성 데이터를 생성하는 두 가지 방법입니다. 비지도 머신 러닝 모델에는 VAE가 포함됩니다.

원본 데이터를 축소하고 압축하는 인코더와 실제 데이터의 표현을 제공하기 위해 이 데이터를 면밀히 조사하는 디코더로 구성됩니다. 입력 및 출력 데이터를 가능한 한 동일하게 유지하는 것이 VAE의 기본 목표입니다. 두 개의 반대되는 신경망은 GAN 모델과 적대적 네트워크입니다.

제너레이터 네트워크로 알려진 첫 번째 네트워크는 가짜 데이터 생성을 담당합니다. 두 번째 네트워크인 Discriminator 네트워크는 생성된 합성 데이터를 실제 데이터와 비교하여 데이터 세트가 사기인지 여부를 식별하는 방식으로 작동합니다. 판별자는 가짜 데이터 세트를 발견하면 생성기에 경고합니다.

판별자에 제공된 다음 데이터 배치는 이후에 생성자에 의해 수정됩니다. 결과적으로 판별자는 가짜 데이터 세트를 발견할 때 시간이 지남에 따라 더 좋아집니다. 이러한 종류의 모델은 사기 탐지를 위한 금융 부문과 의료 영상의 의료 부문에서 자주 사용됩니다.

데이터 증강은 데이터 과학자가 더 많은 데이터를 생성하기 위해 사용하는 다른 방법입니다. 하지만 가짜 데이터로 착각해서는 안 됩니다. 간단히 말해서 데이터 증강은 이미 존재하는 실제 데이터 세트에 새로운 데이터를 추가하는 행위입니다.

예를 들어 방향, 밝기, 배율 등을 조정하여 단일 이미지에서 여러 장의 사진을 만듭니다. 때로는 실제 데이터 세트가 개인 정보만 남은 상태로 사용됩니다. 데이터 익명화가 바로 이것이고 그러한 데이터 세트도 마찬가지로 합성 데이터로 간주되어서는 안 됩니다.

합성 데이터의 도전과 한계

합성 데이터에는 기업의 데이터 과학 활동을 지원할 수 있는 다양한 이점이 있지만 다음과 같은 몇 가지 제한 사항도 있습니다.

데이터의 신뢰성: 모든 기계 학습/딥 러닝 모델은 제공된 데이터만큼만 우수하다는 것은 일반적인 지식입니다. 이 맥락에서 합성 데이터의 품질은 입력 데이터의 품질 및 데이터 생성에 사용된 모델과 밀접한 관련이 있습니다. 합성 데이터에 매우 명확하게 반영될 수 있으므로 원본 데이터에 편향이 없는지 확인하는 것이 중요합니다. 또한 예측을 하기 전에 데이터 품질을 확인하고 검증해야 합니다.
지식, 노력 및 시간이 필요합니다: 합성 데이터를 생성하는 것이 정품 데이터를 생성하는 것보다 간단하고 저렴할 수 있지만 약간의 지식, 시간 및 노력이 필요합니다.
이상 현상 복제: 실제 데이터의 완벽한 복제는 불가능합니다. 합성 데이터는 대략적으로만 계산할 수 있습니다. 따라서 실제 데이터에 존재하는 일부 이상치는 합성 데이터에 포함되지 않을 수 있습니다. 데이터 이상은 일반적인 데이터보다 더 중요합니다.
생산 관리 및 품질 보장: 합성 데이터는 실제 데이터를 복제하기 위한 것입니다. 데이터 수동 검증이 필수가 되었습니다. 알고리즘을 활용하여 자동으로 생성되는 복잡한 데이터 세트에 대해 머신 러닝/딥 러닝 모델에 통합하기 전에 데이터의 정확성을 검증하는 것이 필수적입니다.
사용자 피드백: 합성 데이터는 새로운 개념이므로 모든 사람이 합성 데이터로 만들어진 예측을 믿을 준비가 되지는 않을 것입니다. 이는 사용자 수용도를 높이려면 먼저 합성 데이터의 유용성에 대한 지식을 높이는 것이 필요하다는 것을 나타냅니다.

미래

합성 데이터의 사용은 지난 XNUMX년 동안 극적으로 증가했습니다. 회사의 시간과 비용을 절약할 수 있지만 단점이 없는 것은 아닙니다. 실제 데이터에서 자연스럽게 발생하고 일부 모델의 정확도에 중요한 이상값이 없습니다.

합성 데이터의 품질이 생성에 사용되는 입력 데이터에 자주 의존한다는 점도 주목할 가치가 있습니다. 입력 데이터의 편향은 합성 데이터로 빠르게 확산될 수 있으므로 고품질 데이터를 시작점으로 선택하는 것이 과장되어서는 안 됩니다.

마지막으로, 불일치가 발생하지 않았는지 확인하기 위해 합성 데이터를 사람이 주석을 추가한 실제 데이터와 비교하는 것을 포함하여 추가 출력 제어가 필요합니다. 이러한 장애물에도 불구하고 합성 데이터는 여전히 유망한 분야입니다.

실제 데이터를 사용할 수 없는 경우에도 새로운 AI 솔루션을 만드는 데 도움이 됩니다. 가장 중요한 것은 기업이 최종 소비자의 다양성을 보다 포괄적이고 나타내는 제품을 만들 수 있다는 점입니다.

그러나 데이터 중심의 미래에서 합성 데이터는 데이터 과학자가 실제 데이터만으로는 완료하기 어려운 새롭고 창의적인 작업을 수행하는 데 도움이 될 것입니다.

결론

어떤 경우에는 합성 데이터가 비즈니스 또는 조직 내부의 데이터 부족 또는 관련 데이터 부족을 완화할 수 있습니다. 우리는 또한 어떤 전략이 합성 데이터 생성에 도움이 될 수 있고 누가 이를 통해 이익을 얻을 수 있는지 살펴보았습니다.

우리는 또한 합성 데이터를 다룰 때 발생하는 몇 가지 어려움에 대해서도 이야기했습니다. 상업적 의사 결정을 위해서는 항상 실제 데이터가 우선시됩니다. 그러나 실제 원시 데이터를 분석에 액세스할 수 없는 경우 현실적인 데이터가 차선책입니다.

그러나 합성 데이터를 생성하기 위해서는 데이터 모델링에 대한 확실한 이해를 갖춘 데이터 과학자가 필요하다는 점을 기억해야 합니다. 실제 데이터와 그 주변 환경에 대한 철저한 이해도 필수적입니다. 이는 가능한 경우 생성된 데이터가 가능한 한 정확한지 확인하는 데 필수적입니다.

합성 데이터 설명 – AI, ML 및 DL의 차세대 혁신

그렇다면 합성 데이터는 무엇입니까?