Spis treści[Ukryć][Pokazać]
Badacze i analitycy danych często spotykają się z okolicznościami, w których albo nie mają rzeczywistych danych, albo nie mogą ich wykorzystać ze względu na kwestie poufności lub prywatności.
Aby rozwiązać ten problem, wykorzystuje się produkcję danych syntetycznych w celu zastąpienia prawdziwych danych.
Poprawne działanie algorytmu wymaga odpowiedniej wymiany danych autentycznych, która powinna mieć również realistyczny charakter. Możesz użyć takich danych do zachowania prywatności, testowania systemów lub tworzenia danych szkoleniowych dla algorytmów uczenia maszynowego.
Przyjrzyjmy się szczegółowo generowaniu danych syntetycznych i zobaczmy, dlaczego są one niezbędne w dobie sztucznej inteligencji.
Co to są dane syntetyczne?
Dane syntetyczne to dane z adnotacjami generowane przez symulacje komputerowe lub algorytmy jako substytut danych rzeczywistych. Jest to wygenerowana przez sztuczną inteligencję replika rzeczywistych danych.
Można wykorzystać wzorce i wymiary danych za pomocą zaawansowanych algorytmów AI. Po przeszkoleniu mogą tworzyć nieograniczoną ilość danych syntetycznych, które są statystycznie reprezentatywne dla oryginalnych danych treningowych.
Istnieje wiele podejść i technologii, które mogą nam pomóc w tworzeniu danych syntetycznych, które można wykorzystać w różnych zastosowaniach.
Oprogramowanie do generowania danych często wymaga:
- Metadane repozytorium danych, dla których muszą zostać utworzone dane syntetyczne.
- Technika generowania wiarygodnych, ale fikcyjnych wartości. Przykłady obejmują listy wartości i wyrażenia regularne.
- Kompleksowa świadomość wszystkich relacji danych, zarówno tych zadeklarowanych na poziomie bazy danych, jak i kontrolowanych na poziomie kodu aplikacji.
Równie konieczna jest walidacja modelu i porównanie behawioralnych aspektów rzeczywistych danych z tymi generowanymi przez model.
Te fikcyjne zestawy danych mają całą wartość prawdziwych danych, ale nie zawierają danych wrażliwych. To jak soczyste, bezkaloryczne ciasto. Dokładnie przedstawia rzeczywisty świat.
W rezultacie możesz go użyć do zastąpienia rzeczywistych danych.
Znaczenie danych syntetycznych
Dane syntetyczne mają cechy odpowiadające określonym wymaganiom lub sytuacjom, które w innym przypadku byłyby niedostępne w danych rzeczywistych. Gdy brakuje danych do testowania lub gdy najważniejsza jest prywatność, przychodzi na ratunek.
Zbiory danych generowane przez sztuczną inteligencję można dostosowywać, są bezpieczne i łatwe do przechowywania, wymiany i odrzucania. Technika syntezy danych jest odpowiednia do tworzenia podzbiorów i ulepszania oryginalnych danych.
W rezultacie idealnie nadaje się do wykorzystania jako dane testowe i dane szkoleniowe AI.
- Aby uczyć Ubera opartego na ML i Autonomiczne samochody Tesli.
- W branży medycznej i opieki zdrowotnej do oceny konkretnych chorób i okoliczności, dla których nie istnieją prawdziwe dane.
- Wykrywanie oszustw i ochrona mają kluczowe znaczenie w sektorze finansowym. Korzystając z niej, możesz badać nowe przypadki oszustw.
- Amazon trenuje system językowy Alexy przy użyciu danych syntetycznych.
- American Express wykorzystuje syntetyczne dane finansowe, aby usprawnić wykrywanie oszustw.
Rodzaje danych syntetycznych
Dane syntetyczne są tworzone losowo z zamiarem ukrycia wrażliwych informacji prywatnych przy jednoczesnym zachowaniu informacji statystycznych o cechach w oryginalnych danych.
Składa się głównie z trzech rodzajów:
- W pełni syntetyczne dane
- Dane częściowo syntetyczne
- Hybrydowe dane syntetyczne
1. W pełni syntetyczne dane
Te dane są w całości generowane i nie zawierają żadnych oryginalnych danych.
Zazwyczaj tego rodzaju generator danych będzie identyfikował funkcje gęstości cech w danych rzeczywistych i oszacowywał ich parametry. Później, na podstawie przewidywanych funkcji gęstości, tworzone są losowe serie chronione prywatnością dla każdej cechy.
Jeśli tylko kilka cech rzeczywistych danych zostanie wybranych do zastąpienia nimi, chronione serie tych cech są odwzorowywane na pozostałe cechy rzeczywistych danych, aby uszeregować chronione i rzeczywiste serie w tej samej kolejności.
Techniki ładowania początkowego i wielokrotne imputacje to dwie tradycyjne metody tworzenia całkowicie syntetycznych danych.
Ponieważ dane są całkowicie syntetyczne i nie istnieją żadne prawdziwe dane, strategia ta zapewnia doskonałą ochronę prywatności z poleganiem na prawdziwości danych.
2. Dane częściowo syntetyczne
Te dane wykorzystują tylko wartości syntetyczne, aby zastąpić wartości kilku wrażliwych funkcji.
W tej sytuacji oryginalne wartości są zmieniane tylko wtedy, gdy istnieje poważne niebezpieczeństwo narażenia. Ta zmiana ma na celu ochronę prywatności nowo utworzonych danych.
W celu uzyskania częściowo syntetycznych danych stosuje się wiele imputacji i podejść opartych na modelach. Tych metod można również używać do uzupełniania brakujących wartości w rzeczywistych danych.
3. Hybrydowe dane syntetyczne
Hybrydowe dane syntetyczne obejmują zarówno dane rzeczywiste, jak i fałszywe.
Dla każdego losowego zapisu rzeczywistych danych wybierany jest niemal rekord, a następnie oba są łączone w celu wygenerowania danych hybrydowych. Ma zalety zarówno całkowicie syntetycznych, jak i częściowo syntetycznych danych.
Dlatego zapewnia silną ochronę prywatności i wysoką użyteczność w porównaniu z pozostałymi dwoma, ale kosztem większej ilości pamięci i czasu przetwarzania.
Techniki generowania danych syntetycznych
Od wielu lat popularna jest koncepcja danych tworzonych maszynowo. Teraz dojrzewa.
Oto niektóre techniki wykorzystywane do generowania danych syntetycznych:
1. Na podstawie dystrybucji
W przypadku, gdy nie istnieją żadne rzeczywiste dane, ale analityk danych ma dokładne wyobrażenie o tym, jak wyglądałaby dystrybucja zbioru danych; mogą stworzyć losową próbkę dowolnego rozkładu, w tym normalnego, wykładniczego, chi-kwadrat, t, lognormalnego i jednolitego.
Wartość danych syntetycznych w tej metodzie różni się w zależności od poziomu zrozumienia przez analityka określonego środowiska danych.
2. Rzeczywiste dane do znanej dystrybucji
Firmy mogą je wytworzyć, identyfikując najlepiej dopasowane rozkłady dla danych rzeczywistych, jeśli istnieją rzeczywiste dane.
Firmy mogą wykorzystać metodę Monte Carlo do jej wytworzenia, jeśli chcą dopasować rzeczywiste dane do znanego rozkładu i znać parametry rozkładu.
Chociaż podejście Monte Carlo może pomóc firmom w zlokalizowaniu najlepszego dopasowania, najlepsze dopasowanie może nie być wystarczająco przydatne dla potrzeb firmy w zakresie danych syntetycznych.
Firmy mogą rozważyć zastosowanie modeli uczenia maszynowego, aby dopasować je do dystrybucji w takich okolicznościach.
Techniki uczenia maszynowego, takie jak drzewa decyzyjne, umożliwiają organizacjom modelowanie nieklasycznych rozkładów, które mogą być multimodalne i nie mieć wspólnych właściwości uznanych rozkładów.
Firmy mogą tworzyć dane syntetyczne, które łączą się z prawdziwymi danymi, korzystając z tej dopasowanej dystrybucji opartej na uczeniu maszynowym.
Jednakże, modele uczenia maszynowego są podatne na nadmierne dopasowanie, co powoduje, że nie pasują do świeżych danych lub nie przewidują przyszłych obserwacji.
3. Głębokie uczenie
Głębokie modele generatywne, takie jak Variational Autoencoder (VAE) i Generative Adversarial Network (GAN), mogą generować dane syntetyczne.
Autoenkoder wariacyjny
VAE to podejście bez nadzoru, w którym koder kompresuje oryginalny zestaw danych i wysyła dane do dekodera.
Następnie dekoder generuje dane wyjściowe, które są reprezentacją oryginalnego zestawu danych.
Uczenie systemu polega na maksymalizacji korelacji między danymi wejściowymi i wyjściowymi.
Generatywna sieć przeciwników
Model GAN iteracyjnie trenuje model przy użyciu dwóch sieci, generatora i dyskryminatora.
Generator tworzy syntetyczny zestaw danych z zestawu losowych przykładowych danych.
Dyskryminator porównuje syntetycznie utworzone dane z rzeczywistym zbiorem danych przy użyciu predefiniowanych warunków.
Dostawcy danych syntetycznych
Dane strukturalne
Wymienione poniżej platformy udostępniają dane syntetyczne pochodzące z danych tabelarycznych.
Replikuje rzeczywiste dane przechowywane w tabelach i może być używany do analizy behawioralnej, predykcyjnej lub transakcyjnej.
- Zaszczep sztuczną inteligencję: Jest dostawcą systemu tworzenia syntetycznych danych, który wykorzystuje generatywne sieci kontradyktoryjne i różnicową prywatność.
- Lepsze dane: Jest dostawcą rozwiązania w zakresie danych syntetycznych chroniącego prywatność na potrzeby sztucznej inteligencji, udostępniania danych i rozwoju produktów.
- Jasnoblady: Jest dostawcą Geminai, systemu do tworzenia „bliźniaczych” zestawów danych z takimi samymi cechami statystycznymi jak oryginalne dane.
Dane nieustrukturyzowane
Wspomniane poniżej platformy działają na nieustrukturyzowanych danych, dostarczając syntetyczne dane i usługi do szkolenia algorytmów wizyjnych i rozpoznawczych.
- Gen danych: Zapewnia symulowane dane szkoleniowe 3D do nauki i rozwoju wizualnej sztucznej inteligencji.
- Neurolaby: Neurolabs jest dostawcą platformy syntetycznych danych wizyjnych.
- Domena równoległa: Jest dostawcą syntetycznej platformy danych do uczenia autonomicznych systemów i testowania przypadków użycia.
- Cognata: Jest dostawcą symulacji dla ADAS i twórców pojazdów autonomicznych.
- Bifrost: Zapewnia interfejsy API danych syntetycznych do tworzenia środowisk 3D.
Wyzwania
Ma długą historię w Artificial Intelligence, i chociaż ma wiele zalet, ma też istotne wady, które należy wyeliminować podczas pracy z danymi syntetycznymi.
Tutaj jest kilka z nich:
- Podczas kopiowania złożoności danych rzeczywistych do danych syntetycznych może wystąpić wiele błędów.
- Plastyczny charakter prowadzi do uprzedzeń w jego zachowaniu.
- Mogą istnieć pewne ukryte wady w działaniu algorytmów wyszkolonych przy użyciu uproszczonych reprezentacji danych syntetycznych, które niedawno ujawniły się podczas pracy z rzeczywistymi danymi.
- Replikowanie wszystkich istotnych atrybutów z rzeczywistych danych może być skomplikowane. Możliwe jest również, że niektóre istotne aspekty mogą zostać przeoczone podczas tej operacji.
Wnioski
Wytwarzanie danych syntetycznych wyraźnie przyciąga uwagę ludzi.
Ta metoda może nie być uniwersalną odpowiedzią dla wszystkich przypadków generujących dane.
Poza tym technika ta może wymagać inteligencji za pośrednictwem AI/ML i być w stanie poradzić sobie w rzeczywistych skomplikowanych sytuacjach tworzenia powiązanych ze sobą danych, najlepiej odpowiednich dla określonej dziedziny.
Niemniej jednak jest to innowacyjna technologia, która wypełnia lukę tam, gdzie inne technologie umożliwiające ochronę prywatności są niewystarczające.
Dziś syntetyk produkcja danych może wymagać współistnienia maskowania danych.
W przyszłości może dojść do większej konwergencji między tymi dwoma rozwiązaniami, co zaowocuje bardziej wszechstronnym rozwiązaniem do generowania danych.
Podziel się swoimi opiniami w komentarzach!
Dodaj komentarz