연구원과 데이터 과학자는 종종 실제 데이터가 없거나 기밀성 또는 개인 정보 보호 고려 사항으로 인해 데이터를 사용할 수 없는 상황에 직면합니다.
이 문제를 해결하기 위해 합성 데이터 생성을 사용하여 정품 데이터를 대체합니다.
알고리즘이 제대로 수행되려면 실제 데이터를 적절하게 교체해야 하며 이는 또한 현실적이어야 합니다. 개인 정보를 유지 관리하거나 시스템을 테스트하거나 기계 학습 알고리즘에 대한 교육 데이터를 생성하는 데 이러한 데이터를 사용할 수 있습니다.
합성 데이터 생성을 자세히 살펴보고 AI 시대에 이것이 왜 중요한지 알아보겠습니다.
합성 데이터란 무엇입니까?
합성 데이터는 실제 데이터를 대체하기 위해 컴퓨터 시뮬레이션이나 알고리즘에 의해 생성된 주석이 달린 데이터입니다. 인공 지능이 생성한 실제 데이터의 복제본입니다.
고급 AI 알고리즘을 사용하여 데이터 패턴과 차원을 사용할 수 있습니다. 그들은 일단 훈련되면 원래 훈련 데이터를 통계적으로 나타내는 무한한 양의 합성 데이터를 생성할 수 있습니다.
합성 데이터를 생성하는 데 도움이 되는 다양한 접근 방식과 기술이 있으며 다양한 애플리케이션에서 사용할 수 있습니다.
데이터 생성 소프트웨어에는 종종 다음이 필요합니다.
- 합성 데이터를 생성해야 하는 데이터 리포지토리의 메타데이터입니다.
- 그럴듯하지만 가상의 가치를 생성하는 기술. 예에는 값 목록 및 정규식이 포함됩니다.
- 모든 데이터 관계, 데이터베이스 수준에서 선언된 관계 및 애플리케이션 코드 수준에서 제어되는 관계에 대한 포괄적인 인식.
모델을 검증하고 실제 데이터의 행동 측면을 모델에서 생성된 것과 비교하는 것도 똑같이 필요합니다.
이러한 가상의 데이터 세트에는 실제의 모든 가치가 있지만 민감한 데이터는 없습니다. 그것은 맛있고 칼로리가 없는 케이크와 같습니다. 실제 세계를 정확하게 묘사합니다.
결과적으로 실제 데이터를 대체하는 데 사용할 수 있습니다.
합성 데이터의 중요성
합성 데이터는 실제 데이터에서는 사용할 수 없는 특정 요구 사항이나 상황에 맞는 특성을 가지고 있습니다. 테스트할 데이터가 부족하거나 개인 정보가 가장 중요한 고려 사항일 때 구출됩니다.
AI 생성 데이터 세트는 적응 가능하고 안전하며 저장, 교환 및 폐기하기 쉽습니다. 데이터 합성 기법은 원본 데이터의 부분 집합화 및 개선에 적합합니다.
따라서 테스트 데이터 및 AI 교육 데이터로 사용하기에 이상적입니다.
- ML 기반 Uber를 가르치고 테슬라 자율주행 자동차.
- 의료 및 의료 산업에서 실제 데이터가 존재하지 않는 특정 질병 및 상황을 평가합니다.
- 사기 탐지 및 보호는 금융 부문에서 매우 중요합니다. 이를 사용하여 새로운 사기 사례를 조사할 수 있습니다.
- Amazon은 합성 데이터를 사용하여 Alexa의 언어 시스템을 훈련하고 있습니다.
- American Express는 사기 탐지를 개선하기 위해 합성 금융 데이터를 사용하고 있습니다.
합성 데이터의 유형
합성 데이터는 원본 데이터의 특성에 대한 통계 정보를 유지하면서 민감한 개인 정보를 숨길 의도로 무작위로 생성됩니다.
주로 세 가지 유형이 있습니다.
- 완전 합성 데이터
- 부분 합성 데이터
- 하이브리드 합성 데이터
1. 완전 합성 데이터
이 데이터는 완전히 생성되었으며 원본 데이터가 포함되어 있지 않습니다.
일반적으로 이러한 종류의 데이터 생성기는 실제 데이터에서 기능의 밀도 함수를 식별하고 해당 매개변수를 추정합니다. 나중에 예측된 밀도 함수에서 개인 정보 보호 시리즈가 각 기능에 대해 무작위로 생성됩니다.
실제 데이터의 몇 가지 특성만 선택하여 대체하면 이러한 기능의 보호된 계열이 실제 데이터의 나머지 기능에 매핑되어 보호된 계열과 실제 계열의 순위를 같은 순서로 지정합니다.
부트스트랩 기술과 다중 전가는 완전히 합성 데이터를 생성하는 두 가지 전통적인 방법입니다.
데이터가 완전히 합성되고 실제 데이터가 존재하지 않기 때문에 이 전략은 데이터의 진실성에 의존하여 탁월한 개인 정보 보호를 제공합니다.
2. 부분적으로 합성된 데이터
이 데이터는 몇 가지 민감한 기능의 값을 대체하기 위해 합성 값만 사용합니다.
이 상황에서 실제 값은 상당한 노출 위험이 있는 경우에만 변경됩니다. 이 변경은 새로 생성된 데이터의 개인 정보를 보호하기 위해 수행됩니다.
다중 대치 및 모델 기반 접근 방식은 부분적으로 합성 데이터를 생성하는 데 사용됩니다. 이러한 방법은 실제 데이터의 결측값을 채우는 데에도 사용할 수 있습니다.
3. 하이브리드 합성 데이터
하이브리드 합성 데이터에는 실제 데이터와 가짜 데이터가 모두 포함됩니다.
실제 데이터의 각 무작위 레코드에 대해 거의 레코드가 선택되고 두 개를 결합하여 하이브리드 데이터를 생성합니다. 완전히 합성된 데이터와 부분적으로 합성된 데이터의 이점이 있습니다.
따라서 다른 두 제품과 비교할 때 높은 유틸리티로 강력한 개인 정보 보호 기능을 제공하지만 더 많은 메모리와 처리 시간이 필요합니다.
합성 데이터 생성 기술
수년 동안 기계 제작 데이터의 개념이 인기를 얻었습니다. 이제 성숙해지고 있습니다.
다음은 합성 데이터를 생성하는 데 사용되는 몇 가지 기술입니다.
1. 분포 기준
실제 데이터가 존재하지 않지만 데이터 분석가가 데이터 세트 분포가 어떻게 나타날지에 대한 철저한 아이디어가 있는 경우 Normal, Exponential, Chi-square, t, lognormal, Uniform을 포함한 모든 분포의 무작위 표본을 생성할 수 있습니다.
이 방법에서 합성 데이터의 가치는 특정 데이터 환경에 대한 분석가의 이해 수준에 따라 달라집니다.
2. 알려진 분포로의 실제 데이터
기업은 실제 데이터가 있는 경우 주어진 실제 데이터에 가장 적합한 분포를 식별하여 이를 생성할 수 있습니다.
기업은 실제 데이터를 알려진 분포에 맞추고 분포 매개변수를 알고자 할 경우 Monte Carlo 접근 방식을 사용하여 이를 생성할 수 있습니다.
Monte Carlo 접근 방식은 기업이 가장 잘 일치하는 항목을 찾는 데 도움이 될 수 있지만 가장 적합한 방법은 회사의 종합 데이터 요구 사항에 충분하지 않을 수 있습니다.
기업은 이러한 상황에서 배포에 적합하도록 기계 학습 모델을 사용하는 방법을 모색할 수 있습니다.
의사 결정 트리와 같은 기계 학습 기술을 사용하면 조직에서 다중 모드일 수 있고 인식된 분포의 공통 속성이 부족한 비고전 분포를 모델링할 수 있습니다.
기업은 이 기계 학습 적합 분포를 사용하여 실제 데이터에 연결하는 합성 데이터를 생성할 수 있습니다.
그러나, 기계 학습 모델 과적합에 취약하여 새로운 데이터와 일치하지 않거나 향후 관측치를 예측하지 못합니다.
3. 딥 러닝
VAE(Variational Autoencoder) 및 GAN(Generative Adversarial Network)과 같은 심층 생성 모델은 합성 데이터를 생성할 수 있습니다.
변이 형 자동 인코더
VAE는 인코더가 원본 데이터 세트를 압축하고 데이터를 디코더로 보내는 비지도 접근 방식입니다.
그런 다음 디코더는 원본 데이터 세트를 나타내는 출력을 생성합니다.
시스템을 가르치는 것은 입력 데이터와 출력 데이터 사이의 상관관계를 최대화하는 것을 포함합니다.
생식 적대적 네트워크
GAN 모델은 생성기와 판별기라는 두 개의 네트워크를 사용하여 모델을 반복적으로 훈련합니다.
생성기는 무작위 샘플 데이터 세트에서 합성 데이터 세트를 생성합니다.
Discriminator는 사전 정의된 조건을 사용하여 합성적으로 생성된 데이터를 실제 데이터 세트와 비교합니다.
합성 데이터 공급자
구조화 된 데이터
아래에 언급된 플랫폼은 표 형식 데이터에서 파생된 합성 데이터를 제공합니다.
테이블에 보관된 실제 데이터를 복제하고 행동, 예측 또는 트랜잭션 분석에 사용할 수 있습니다.
- AI 주입: Generative Adversarial Networks 및 Differential Privacy를 사용하는 합성 데이터 생성 시스템 제공업체입니다.
- 더 나은 데이터: AI, 데이터 공유 및 제품 개발을 위한 개인 정보 보호 합성 데이터 솔루션 제공업체입니다.
- 다이브페일: 원본 데이터와 동일한 통계적 특징을 가진 '쌍둥이' 데이터셋을 생성하는 시스템인 Geminai의 제공자입니다.
비정형 데이터
아래에 언급된 플랫폼은 비정형 데이터로 작동하여 비전 및 정찰 알고리즘 교육을 위한 합성 데이터 상품 및 서비스를 제공합니다.
- 데이터젠: Visual AI 학습 및 개발을 위한 3D 모의 훈련 데이터를 제공합니다.
- 신경연구소: Neurolabs는 컴퓨터 비전 합성 데이터 플랫폼 제공업체입니다.
- 병렬 도메인: 자율 시스템 교육 및 테스트 사용 사례를 위한 합성 데이터 플랫폼 제공업체입니다.
- 코그나타: ADAS 및 자율주행차 개발자를 위한 시뮬레이션 공급업체입니다.
- 비프 로스트: 3D 환경 생성을 위한 합성 데이터 API를 제공합니다.
도전
에 오랜 역사를 가지고 있다. 인공 지능, 많은 장점이 있지만 합성 데이터로 작업하는 동안 해결해야 하는 중요한 단점도 있습니다.
여기에 그들 중 일부는 다음과 같습니다
- 실제 데이터에서 합성 데이터로 복잡성을 복사하는 동안 많은 오류가 있을 수 있습니다.
- 그것의 가단성 성격은 행동에 편향을 가져옵니다.
- 실제 데이터를 처리하는 동안 최근에 나타난 합성 데이터의 단순화된 표현을 사용하여 훈련된 알고리즘의 성능에는 숨겨진 결함이 있을 수 있습니다.
- 실제 데이터에서 모든 관련 속성을 복제하는 것은 복잡해질 수 있습니다. 이 작업을 통해 몇 가지 필수 측면을 간과할 수도 있습니다.
결론
합성 데이터의 생산은 분명히 사람들의 관심을 끌고 있습니다.
이 방법은 모든 데이터 생성 사례에 대한 획일적인 대답이 아닐 수 있습니다.
게다가, 이 기술은 AI/ML을 통한 지능이 필요할 수 있으며 상호 관련된 데이터, 이상적으로는 특정 도메인에 적합한 데이터를 생성하는 실제 세계의 복잡한 상황을 처리할 수 있습니다.
그럼에도 불구하고 다른 개인 정보 보호 기술이 부족한 부분을 채우는 혁신적인 기술입니다.
오늘은 합성 데이터 생산에는 데이터 마스킹의 공존이 필요할 수 있습니다..
미래에는 둘 사이에 더 큰 수렴이 일어나 더 포괄적인 데이터 생성 솔루션이 탄생할 수 있습니다.
의견에 의견을 공유하십시오!
댓글을 남겨주세요.