Synthetische Daten erklärt – Das nächste große Ding in KI, ML und DL

Fortgeschrittene Analyse- und maschinelle Lernprogramme werden durch Daten vorangetrieben, aber der Zugriff auf diese Daten kann für Akademiker aufgrund von Herausforderungen in Bezug auf Datenschutz und Geschäftsverfahren schwierig sein.

Synthetische Daten, die auf eine Weise geteilt und genutzt werden können, die tatsächliche Daten nicht können, sind eine potenzielle neue Richtung, die es zu verfolgen gilt. Diese neue Strategie ist jedoch nicht ohne Gefahren oder Nachteile, daher ist es wichtig, dass Unternehmen sorgfältig überlegen, wo und wie sie ihre Ressourcen einsetzen.

In der aktuellen Ära der KI können wir auch sagen, dass Daten das neue Öl sind, aber nur wenige Auserwählte sitzen auf einem Schwall. Daher produzieren viele Menschen ihren eigenen Kraftstoff, der sowohl erschwinglich als auch effizient ist. Sie werden als synthetische Daten bezeichnet.

In diesem Beitrag werfen wir einen detaillierten Blick auf synthetische Daten – warum Sie sie verwenden sollten, wie sie erstellt werden, was sie von tatsächlichen Daten unterscheidet, welchen Anwendungsfällen sie dienen können und vieles mehr.

Also, was sind synthetische Daten?

Wenn echte Datensätze in Bezug auf Qualität, Anzahl oder Vielfalt unzureichend sind, können anstelle echter historischer Daten synthetische Daten verwendet werden, um KI-Modelle zu trainieren.

Wenn vorhandene Daten die geschäftlichen Anforderungen nicht erfüllen oder Datenschutzrisiken bei der Verwendung für die Entwicklung bestehen Maschinelles Lernen Modellen, Testsoftware oder Ähnlichem können synthetische Daten ein wichtiges Werkzeug für die KI-Bemühungen von Unternehmen sein.

Einfach gesagt werden synthetische Daten häufig anstelle von tatsächlichen Daten verwendet. Genauer gesagt handelt es sich um Daten, die künstlich markiert und durch Simulationen oder Computeralgorithmen erzeugt wurden.

Synthetische Daten

Synthetische Daten sind Informationen, die von einem Computerprogramm künstlich und nicht als Ergebnis tatsächlicher Ereignisse erstellt wurden. Unternehmen können ihren Trainingsdaten synthetische Daten hinzufügen, um alle Nutzungs- und Edge-Situationen abzudecken, die Kosten für die Datenerfassung zu senken oder Datenschutzbestimmungen zu erfüllen.

Künstliche Daten sind heute dank verbesserter Rechenleistung und Datenspeichermethoden wie der Cloud zugänglicher denn je. Synthetische Daten verbessern die Erstellung von KI-Lösungen, die für alle Endbenutzer vorteilhafter sind, und das ist zweifellos eine gute Entwicklung.

Wie wichtig sind synthetische Daten und warum sollten Sie sie verwenden?

Beim Training von KI-Modellen benötigen Entwickler häufig riesige Datensätze mit präziser Kennzeichnung. Wenn mit vielfältigeren Daten gelehrt wird, Neuronale Netze genauer durchführen.

Das Sammeln und Kennzeichnen dieser riesigen Datensätze mit Hunderten oder sogar Millionen von Elementen kann jedoch unangemessen zeit- und kostenintensiv sein. Der Preis für die Erstellung von Trainingsdaten kann durch die Verwendung synthetischer Daten erheblich gesenkt werden. Beispielsweise kostet ein künstlich erstelltes Schulungsbild 5 $, wenn es bei a Datenkennzeichnungsanbieter könnte nur 0.05 $ kosten.

Synthetische Daten können Datenschutzbedenken im Zusammenhang mit potenziell sensiblen Daten, die aus der realen Welt generiert werden, ausräumen und gleichzeitig die Kosten senken.

Im Vergleich zu echten Daten, die nicht das gesamte Spektrum der Fakten über die reale Welt genau wiedergeben könnten, könnten sie dazu beitragen, Vorurteile abzubauen. Durch die Bereitstellung ungewöhnlicher Vorkommnisse, die plausible Möglichkeiten darstellen, deren Gewinnung aus legitimen Daten schwierig sein kann, können synthetische Daten eine größere Vielfalt bieten.

Synthetische Daten könnten aus den unten aufgeführten Gründen hervorragend zu Ihrem Projekt passen:

1. Die Robustheit des Modells

Greifen Sie auf vielfältigere Daten für Ihre Modelle zu, ohne sie erwerben zu müssen. Mit synthetischen Daten können Sie Ihr Modell anhand von Varianten derselben Person mit verschiedenen Haarschnitten, Gesichtsbehaarung, Brillen, Kopfhaltungen usw. sowie Hautfarbe, ethnischen Merkmalen, Knochenstruktur, Sommersprossen und anderen Merkmalen trainieren, um ein Unikat zu erzeugen Gesichter und stärken sie.

2. Grenzfälle werden berücksichtigt

Ein ausgeglichenes Dataset wird vom maschinellen Lernen bevorzugt Algorithmen. Denken Sie an unser Beispiel der Gesichtserkennung zurück. Die Genauigkeit ihrer Modelle hätte sich verbessert (und tatsächlich haben einige dieser Unternehmen genau das getan), und sie hätten ein moralischeres Modell erstellt, wenn sie synthetische Daten von dunkelhäutigen Gesichtern erstellt hätten, um ihre Datenlücken zu füllen. Mithilfe synthetischer Daten können Teams alle Anwendungsfälle abdecken, einschließlich Grenzfälle, in denen Daten knapp oder nicht vorhanden sind.

3. Sie sind schneller erhältlich als „eigentliche“ Daten

Teams sind in der Lage, schnell große Mengen an synthetischen Daten zu generieren. Dies ist besonders nützlich, wenn die realen Daten von sporadischen Ereignissen abhängen. Teams können es aufgrund ihrer Seltenheit schwierig finden, genügend reale Daten über schwierige Straßenbedingungen zu erhalten, während sie beispielsweise Daten für ein selbstfahrendes Auto sammeln. Um den mühsamen Annotationsprozess zu beschleunigen, können Data Scientists Algorithmen entwickeln, um die synthetischen Daten bei ihrer Generierung automatisch zu kennzeichnen.

4. Es sichert die Datenschutzinformationen der Benutzer

Unternehmen können Sicherheitsprobleme beim Umgang mit sensiblen Daten haben, je nach Geschäft und Art der Daten. Persönliche Gesundheitsinformationen (PHI) sind beispielsweise häufig Bestandteil von stationären Patientendaten im Gesundheitswesen und müssen mit äußerster Sicherheit behandelt werden.

Da synthetische Daten keine Informationen über tatsächliche Personen enthalten, werden Datenschutzprobleme verringert. Erwägen Sie die Verwendung synthetischer Daten als Alternative, wenn Ihr Team bestimmte Datenschutzgesetze einhalten muss.

Echte Daten vs. synthetische Daten

In der realen Welt werden reale Daten gewonnen oder gemessen. Wenn jemand ein Smartphone, einen Laptop oder einen Computer verwendet, eine Armbanduhr trägt, auf eine Website zugreift oder eine Online-Transaktion durchführt, werden diese Art von Daten sofort generiert.

Darüber hinaus können Umfragen verwendet werden, um echte Daten (online und offline) bereitzustellen. Digitale Einstellungen erzeugen synthetische Daten. Mit Ausnahme des Teils, der nicht aus realen Ereignissen stammt, werden synthetische Daten so erstellt, dass sie die tatsächlichen Daten in Bezug auf grundlegende Eigenschaften erfolgreich nachahmen.

Die Idee, synthetische Daten als Ersatz für tatsächliche Daten zu verwenden, ist sehr vielversprechend, da sie zur Bereitstellung von verwendet werden können Trainingsdaten, die maschinelles Lernen Modelle erfordern. Aber sicher ist das nicht künstliche Intelligenz kann jedes Problem lösen, das in der realen Welt auftritt.

Anwendungsszenarien

Synthetische Daten sind für eine Vielzahl von kommerziellen Zwecken nützlich, einschließlich Modelltraining, Modellvalidierung und Testen neuer Produkte. Wir werden einige der Sektoren auflisten, die bei der Anwendung auf maschinelles Lernen führend waren:

1. Gesundheitspflege

Aufgrund der Sensibilität seiner Daten eignet sich der Gesundheitssektor gut für die Nutzung synthetischer Daten. Synthetische Daten können von Teams verwendet werden, um die Physiologie aller möglichen Arten von Patienten aufzuzeichnen und so zu einer schnelleren und genaueren Diagnose von Krankheiten beizutragen.

Gesundheitswesen

Das Melanom-Erkennungsmodell von Google ist ein faszinierendes Beispiel dafür, da es synthetische Daten von Menschen mit dunkleren Hauttönen (ein Bereich klinischer Daten, der leider unterrepräsentiert ist) einbezieht, um dem Modell die Fähigkeit zu verleihen, für alle Hauttypen effektiv zu funktionieren.

2. Automobile

Simulatoren werden häufig von Unternehmen eingesetzt, die selbstfahrende Autos entwickeln, um die Leistung zu bewerten. Wenn das Wetter beispielsweise rau ist, kann das Sammeln echter Straßendaten riskant oder schwierig sein.

Selbstfahrendes Auto

Sich auf Live-Tests mit realen Autos auf der Straße zu verlassen, ist generell keine gute Idee, da es einfach zu viele Variablen gibt, die in den unterschiedlichen Fahrsituationen berücksichtigt werden müssen.

3. Übertragbarkeit von Daten

Um ihre Trainingsdaten mit anderen teilen zu können, benötigen Organisationen vertrauenswürdige und sichere Methoden. Das Ausblenden von personenbezogenen Daten (PII) vor der Veröffentlichung des Datensatzes ist eine weitere faszinierende Anwendung für synthetische Daten. Der Austausch wissenschaftlicher Forschungsdatensätze, medizinischer Daten, soziologischer Daten und anderer Felder, die personenbezogene Daten enthalten könnten, wird als datenschutzbewahrende synthetische Daten bezeichnet.

4. Sicherheit

Organisationen sind dank synthetischer Daten sicherer. Bezüglich unseres Beispiels zur Gesichtserkennung ist Ihnen vielleicht der Ausdruck „Deep Fakes“ bekannt, der gefälschte Fotos oder Videos beschreibt. Deepfakes können von Unternehmen produziert werden, um ihre eigenen Gesichtserkennungs- und Sicherheitssysteme zu testen. Synthetische Daten werden auch in der Videoüberwachung verwendet, um Modelle schneller und kostengünstiger zu trainieren.

Synthetische Daten und maschinelles Lernen

Um ein solides und vertrauenswürdiges Modell zu erstellen, benötigen maschinelle Lernalgorithmen eine erhebliche Datenmenge, die verarbeitet werden muss. In Ermangelung synthetischer Daten wäre die Erstellung einer so großen Datenmenge eine Herausforderung.

In Bereichen wie Computer Vision oder Bildverarbeitung, wo die Entwicklung von Modellen durch die Entwicklung früher synthetischer Daten erleichtert wird, kann dies von großer Bedeutung sein. Eine neue Entwicklung im Bereich der Bilderkennung ist der Einsatz von Generative Adversarial Networks (GANs). Besteht normalerweise aus zwei Netzwerken: einem Generator und einem Diskriminator.

Während das Diskriminator-Netzwerk darauf abzielt, die echten Fotos von den gefälschten zu trennen, dient das Generator-Netzwerk dazu, synthetische Bilder zu erzeugen, die realen Bildern wesentlich ähnlicher sind.

Beim maschinellen Lernen sind GANs eine Untergruppe der neuronalen Netzwerkfamilie, bei der beide Netzwerke kontinuierlich lernen und sich weiterentwickeln, indem sie neue Knoten und Schichten hinzufügen.

Beim Erstellen synthetischer Daten haben Sie die Möglichkeit, die Umgebung und den Datentyp nach Bedarf zu ändern, um die Leistung des Modells zu verbessern. Während die Genauigkeit für synthetische Daten leicht mit einer starken Punktzahl erreicht werden kann, kann die Genauigkeit für beschriftete Echtzeitdaten gelegentlich extrem teuer werden.

Wie können Sie synthetische Daten generieren?

Die Ansätze zur Erstellung einer synthetischen Datensammlung sind wie folgt:

Basierend auf der statistischen Verteilung

Die in diesem Fall verwendete Strategie besteht darin, Zahlen aus der Verteilung zu nehmen oder tatsächliche statistische Verteilungen zu betrachten, um falsche Daten zu erstellen, die vergleichbar aussehen. Echte Daten können unter Umständen vollständig fehlen.

Ein Datenwissenschaftler kann einen Datensatz generieren, der eine Zufallsstichprobe einer beliebigen Verteilung enthält, wenn er die statistische Verteilung in tatsächlichen Daten genau versteht. Die Normalverteilung, Exponentialverteilung, Chi-Quadrat-Verteilung, Lognormalverteilung und mehr sind nur einige Beispiele für statistische Wahrscheinlichkeitsverteilungen, die dazu verwendet werden können.

Die Erfahrung des Datenwissenschaftlers mit der Situation hat einen erheblichen Einfluss auf die Genauigkeit des trainierten Modells.

Je nach Modell

Diese Technik erstellt ein Modell, das das beobachtete Verhalten berücksichtigt, bevor dieses Modell verwendet wird, um Zufallsdaten zu generieren. Im Wesentlichen beinhaltet dies das Anpassen echter Daten an Daten aus einer bekannten Verteilung. Der Monte-Carlo-Ansatz kann dann von Unternehmen verwendet werden, um gefälschte Daten zu erstellen.

Darüber hinaus können auch Verteilungen mit eingebaut werden Modelle des maschinellen Lernens wie Entscheidungsbäume. Datenwissenschaftler Allerdings muss auf die Prognose geachtet werden, da Entscheidungsbäume aufgrund ihrer Einfachheit und Tiefenausdehnung typischerweise überangepasst sind.

Mit tiefem Lernen

Tiefes Lernen Modelle, die einen Variational Autoencoder (VAE) oder Generative Adversarial Network (GAN)-Modelle verwenden, sind zwei Möglichkeiten, synthetische Daten zu erstellen. Modelle für unüberwachtes maschinelles Lernen umfassen VAEs.

Sie bestehen aus Encodern, die die Originaldaten schrumpfen und komprimieren, und Decodern, die diese Daten untersuchen, um eine Darstellung der echten Daten bereitzustellen. Eingangs- und Ausgangsdaten so identisch wie möglich zu halten, ist das grundlegende Ziel einer VAE. Zwei gegensätzliche neuronale Netze sind GAN-Modelle und gegnerische Netze.

Das erste Netzwerk, das als Generatornetzwerk bekannt ist, ist dafür verantwortlich, gefälschte Daten zu produzieren. Das Diskriminatornetzwerk, das zweite Netzwerk, vergleicht erstellte synthetische Daten mit tatsächlichen Daten, um festzustellen, ob der Datensatz betrügerisch ist. Der Diskriminator warnt den Generator, wenn er einen gefälschten Datensatz entdeckt.

Der folgende Datenstapel, der dem Diskriminator zugeführt wird, wird anschließend durch den Generator modifiziert. Infolgedessen wird der Diskriminator im Laufe der Zeit besser darin, gefälschte Datensätze zu erkennen. Diese Art von Modell wird häufig im Finanzsektor zur Betrugserkennung sowie im Gesundheitswesen für die medizinische Bildgebung verwendet.

Data Augmentation ist eine andere Methode, die Data Scientists anwenden, um mehr Daten zu produzieren. Es sollte jedoch nicht mit gefälschten Daten verwechselt werden. Einfach gesagt ist die Datenerweiterung das Hinzufügen neuer Daten zu einem bereits vorhandenen echten Datensatz.

Erstellen Sie mehrere Bilder aus einem einzigen Bild, indem Sie beispielsweise Ausrichtung, Helligkeit, Vergrößerung und mehr anpassen. Manchmal wird der eigentliche Datensatz verwendet, wobei nur die persönlichen Informationen verbleiben. Das ist Datenanonymisierung, und ein Satz solcher Daten ist ebenfalls nicht als synthetische Daten anzusehen.

Herausforderungen und Grenzen synthetischer Daten

Obwohl synthetische Daten verschiedene Vorteile haben, die Unternehmen bei datenwissenschaftlichen Aktivitäten unterstützen können, gibt es auch gewisse Einschränkungen:

Die Zuverlässigkeit der Daten: Es ist allgemein bekannt, dass jedes Machine-Learning-/Deep-Learning-Modell nur so gut ist wie die Daten, mit denen es gefüttert wird. Die Qualität der synthetischen Daten hängt in diesem Zusammenhang stark von der Qualität der Eingabedaten und des zur Datenerstellung verwendeten Modells ab. Es ist entscheidend sicherzustellen, dass in den Quelldaten keine Verzerrungen vorhanden sind, da diese sehr deutlich in den synthetischen Daten widergespiegelt werden können. Darüber hinaus sollte vor der Erstellung von Prognosen die Datenqualität bestätigt und verifiziert werden.
Erfordert Wissen, Mühe und Zeit: Das Erstellen synthetischer Daten könnte einfacher und kostengünstiger sein als das Erstellen echter Daten, erfordert jedoch einige Kenntnisse, Zeit und Mühe.
Anomalien replizieren: Die perfekte Nachbildung realer Daten ist nicht möglich; Synthetische Daten können es nur annähern. Daher werden einige Ausreißer, die in realen Daten vorhanden sind, möglicherweise nicht durch synthetische Daten abgedeckt. Datenanomalien sind signifikanter als typische Daten.
Steuerung der Produktion und Sicherstellung der Qualität: Synthetische Daten sollen reale Daten replizieren. Die manuelle Überprüfung der Daten wird unerlässlich. Es ist wichtig, die Genauigkeit der Daten zu überprüfen, bevor sie in Machine-Learning-/Deep-Learning-Modelle für komplizierte Datensätze integriert werden, die automatisch mithilfe von Algorithmen erstellt werden.
Benutzer-Feedback: Da es sich bei synthetischen Daten um ein neuartiges Konzept handelt, wird nicht jeder bereit sein, Prognosen zu glauben, die damit gemacht werden. Dies weist darauf hin, dass es zur Erhöhung der Benutzerakzeptanz zunächst erforderlich ist, das Wissen über die Nützlichkeit synthetischer Daten zu erhöhen.

Future

Die Verwendung synthetischer Daten hat in den letzten zehn Jahren dramatisch zugenommen. Während es Unternehmen Zeit und Geld spart, ist es nicht ohne Nachteile. Es fehlen Ausreißer, die in tatsächlichen Daten natürlich vorkommen und in einigen Modellen für die Genauigkeit entscheidend sind.

Es ist auch erwähnenswert, dass die Qualität der synthetischen Daten häufig von den Eingabedaten abhängt, die für die Erstellung verwendet wurden; Verzerrungen in den Eingabedaten können sich schnell auf die synthetischen Daten ausbreiten, daher sollte die Wahl qualitativ hochwertiger Daten als Ausgangspunkt nicht überbewertet werden.

Schließlich ist eine weitere Ausgabekontrolle erforderlich, einschließlich des Vergleichs der synthetischen Daten mit von Menschen kommentierten echten Daten, um zu überprüfen, dass keine Diskrepanzen eingeführt werden. Trotz dieser Hindernisse bleiben synthetische Daten ein vielversprechendes Feld.

Es hilft uns, neuartige KI-Lösungen zu entwickeln, selbst wenn reale Daten nicht verfügbar sind. Am wichtigsten ist, dass es Unternehmen ermöglicht, Produkte zu entwickeln, die integrativer sind und die Vielfalt ihrer Endverbraucher widerspiegeln.

In der datengesteuerten Zukunft sollen synthetische Daten den Datenwissenschaftlern jedoch dabei helfen, neuartige und kreative Aufgaben zu erfüllen, die mit realen Daten allein nur schwer zu bewältigen wären.

Zusammenfassung

In bestimmten Fällen können synthetische Daten ein Datendefizit oder einen Mangel an relevanten Daten innerhalb eines Unternehmens oder einer Organisation beheben. Wir haben uns auch angesehen, welche Strategien bei der Generierung synthetischer Daten helfen können und wer davon profitieren kann.

Wir haben auch über einige der Schwierigkeiten gesprochen, die beim Umgang mit synthetischen Daten auftreten. Für kaufmännische Entscheidungen werden immer echte Daten bevorzugt. Realistische Daten sind jedoch die nächstbeste Option, wenn solche echten Rohdaten für die Analyse nicht zugänglich sind.

Es muss jedoch daran erinnert werden, dass zur Erstellung synthetischer Daten Data Scientists mit einem soliden Verständnis der Datenmodellierung erforderlich sind. Ein gründliches Verständnis der realen Daten und ihrer Umgebung ist ebenfalls unerlässlich. Dies ist wichtig, um sicherzustellen, dass die erzeugten Daten, falls verfügbar, so genau wie möglich sind.

Synthetische Daten erklärt – Das nächste große Ding in KI, ML und DL

Also, was sind synthetische Daten?