Обяснени синтетични данни – следващото голямо нещо в AI, ML и DL

Съдържание[Крия][Покажи]

И така, какво представляват синтетичните данни?
Колко важни са синтетичните данни и защо трябва да ги използвате?+-
Реални данни срещу синтетични данни
Защо OEE рипортинг?+-
Синтетични данни и машинно обучение
Как можете да генерирате синтетични данни?+-
Предизвикателства и ограничения на синтетичните данни
Бъдеще
Заключение

Програмите за усъвършенстван анализ и машинно обучение се задвижват от данни, но достъпът до тези данни може да бъде труден за академиците поради предизвикателства с поверителността и бизнес процедурите.

Синтетичните данни, които могат да се споделят и използват по начини, по които действителните данни не могат, са потенциална нова посока за следване. Въпреки това, тази нова стратегия не е лишена от опасности или недостатъци, поради което е изключително важно предприятията внимателно да обмислят къде и как използват своите ресурси.

В настоящата ера на AI можем също да заявим, че данните са новото масло, но само малцина избрани седят на фонтана. Поради това много хора произвеждат собствено гориво, което е едновременно достъпно и ефективно. Известно е като синтетични данни.

В тази публикация ще разгледаме подробно синтетичните данни – защо трябва да ги използвате, как да ги създадете, какво ги прави различни от действителните данни, за какви случаи на употреба могат да служат и много повече.

И така, какво представляват синтетичните данни?

Когато истинските набори от данни са неадекватни по отношение на качество, брой или разнообразие, могат да се използват синтетични данни за обучение на AI модели вместо реални исторически данни.

Когато съществуващите данни не отговарят на бизнес изискванията или крият рискове за поверителността, когато се използват за разработка машинно обучение модели, тестов софтуер или други подобни, синтетичните данни могат да бъдат важен инструмент за корпоративните усилия на AI.

Просто казано, синтетичните данни често се използват вместо действителните данни. По-точно, това са данни, които са били изкуствено маркирани и произведени чрез симулации или компютърни алгоритми.

Синтетични данни

Синтетичните данни са информация, която е създадена от компютърна програма изкуствено, а не в резултат на действителни събития. Компаниите могат да добавят синтетични данни към своите данни за обучение, за да покрият всички ситуации на използване и крайни ситуации, да намалят разходите за събиране на данни или да задоволят разпоредбите за поверителност.

Изкуствените данни вече са по-достъпни от всякога благодарение на подобренията в процесорната мощност и методите за съхранение на данни като облака. Синтетичните данни подобряват създаването на AI решения, които са по-полезни за всички крайни потребители, и това несъмнено е добро развитие.

Колко важни са синтетичните данни и защо трябва да ги използвате?

Когато обучават AI модели, разработчиците често се нуждаят от огромни набори от данни с прецизно етикетиране. Когато се преподава с по-разнообразни данни, невронни мрежи изпълняват по-точно.

Събирането и етикетирането на тези масивни набори от данни, съдържащи стотици или дори милиони елементи, обаче, може да отнеме неоправдано време и пари. Цената за създаване на данни за обучение може да бъде значително намалена чрез използване на синтетични данни. Например, ако е създадено изкуствено, изображение за обучение, което струва $5, когато е закупено от a доставчик на етикетиране на данни може да струва само $0.05.

Синтетичните данни могат да облекчат опасенията за поверителност, свързани с потенциално чувствителни данни, генерирани от действителния свят, като същевременно намаляват разходите.

В сравнение с истинските данни, които не могат да отразяват точно пълния спектър от факти за реалния свят, това може да помогне за намаляване на предразсъдъците. Като предоставят необичайни събития, които представляват правдоподобни възможности, но може да е предизвикателство да се получат от легитимни данни, синтетичните данни могат да предложат по-голямо разнообразие.

Синтетичните данни могат да бъдат фантастично подходящи за вашия проект поради изброените по-долу причини:

1. Здравината на модела

Без да се налага да го придобивате, имате достъп до повече разнообразни данни за вашите модели. Със синтетични данни можете да тренирате своя модел, като използвате варианти на един и същи човек с различни прически, окосмяване по лицето, очила, пози на главата и т.н., както и тон на кожата, етнически черти, структура на костите, лунички и други характеристики, за да генерирате уникални лица и го укрепват.

2. Крайните случаи се вземат предвид

Балансиран наборът от данни се предпочита от машинното обучение алгоритми. Спомнете си нашия пример за разпознаване на лица. Точността на техните модели щеше да се подобри (и всъщност някои от тези фирми направиха точно това) и те щяха да създадат по-морален модел, ако бяха създали синтетични данни за лица с по-тъмна кожа, за да запълнят своите пропуски в данните. Екипите могат да покрият всички случаи на употреба, включително крайни случаи, когато данните са оскъдни или несъществуващи, с помощта на синтетични данни.

3. Може да се получи по-бързо от „реалните“ данни

Екипите са в състояние бързо да генерират огромно количество синтетични данни. Това е особено полезно, когато данните от реалния живот зависят от спорадични събития. Екипите може да се затруднят да получат достатъчно данни от реалния свят за тежки пътни условия, докато събират данни за самоуправляваща се кола, например, поради тяхната рядкост. За да ускорят трудоемкия процес на анотиране, специалистите по данни могат да въвеждат алгоритми за автоматично етикетиране на синтетичните данни, докато се генерират.

4. Защитава информацията за поверителност на потребителя

Компаниите може да имат затруднения със сигурността, докато обработват чувствителни данни, в зависимост от бизнеса и вида на данните. Личната здравна информация (PHI), например, често се включва в болничните данни в здравната индустрия и трябва да се обработва с най-голяма сигурност.

Тъй като синтетичните данни не включват информация за действителни хора, проблемите с поверителността са намалени. Обмислете използването на синтетични данни като алтернатива, ако вашият екип трябва да се придържа към определени закони за поверителност на данните.

Реални данни срещу синтетични данни

В реалния свят се получават или измерват реални данни. Когато някой използва смартфон, лаптоп или компютър, носи ръчен часовник, влиза в уебсайт или прави онлайн транзакция, този тип данни се генерират незабавно.

Освен това анкетите могат да се използват за предоставяне на истински данни (онлайн и офлайн). Цифровите настройки произвеждат синтетични данни. С изключение на частта, която не е извлечена от събития от реалния свят, синтетичните данни се създават по начин, който успешно имитира действителните данни по отношение на основните качества.

Идеята за използване на синтетични данни като заместител на действителните данни е много обещаваща, тъй като може да се използва за предоставяне на данни за обучение, които машинно обучение моделите изискват. Но това не е сигурно изкуствен интелект може да разреши всеки проблем, който възниква в реалния свят.

Защо OEE рипортинг?

Синтетичните данни са полезни за различни търговски цели, включително обучение на модели, валидиране на модели и тестване на нови продукти. Ще изброим няколко от секторите, които са довели до прилагането му за машинно обучение:

1. Здравеопазване

Като се има предвид чувствителността на данните, секторът на здравеопазването е много подходящ за използването на синтетични данни. Синтетичните данни могат да се използват от екипи за записване на физиологията на всеки вид пациент, който може да съществува, като по този начин се подпомага по-бързото и по-точно диагностициране на заболяванията.

Здравеопазване

Моделът на Google за откриване на меланома е интригуваща илюстрация на това, тъй като включва синтетични данни за хора с по-тъмни тонове на кожата (област от клинични данни, която за съжаление е недостатъчно представена), за да предостави на модела капацитет да функционира ефективно за всички видове кожа.

2. Автомобили

Симулаторите често се използват от компании, създаващи самоуправляващи се автомобили, за да оценят производителността. Когато времето е сурово, например, събирането на реални данни за пътя може да бъде рисковано или трудно.

Самоуправляваща се кола

Да се разчита на тестове на живо с действителни автомобили по пътищата обикновено не е добра идея, тъй като има твърде много променливи, които да се вземат предвид във всички различни ситуации на шофиране.

3. Преносимост на данните

За да могат да споделят своите данни за обучение с други, организациите се нуждаят от надеждни и сигурни методи. Скриването на информация, разкриваща самоличността (PII), преди наборът от данни да бъде публичен, е друго интригуващо приложение за синтетични данни. Обменът на масиви от научни изследвания, медицински данни, социологически данни и други полета, които биха могли да съдържат PII, се наричат синтетични данни, запазващи поверителността.

4. Сигурност

Организациите са по-сигурни благодарение на синтетичните данни. Отново по отношение на нашия пример за разпознаване на лица, може да сте запознати с фразата „дълбоки фалшификати“, която описва измислени снимки или видеоклипове. Дълбоките фалшификати могат да бъдат произведени от фирми, за да тестват собствените си системи за разпознаване на лица и сигурност. Синтетичните данни се използват и във видеонаблюдението за по-бързо и по-евтино обучение на модели.

Синтетични данни и машинно обучение

За да изградят солиден и надежден модел, алгоритмите за машинно обучение се нуждаят от значително количество данни, които да бъдат обработени. При липсата на синтетични данни изготвянето на такъв голям обем данни би било предизвикателство.

В области като компютърно зрение или обработка на изображения, където разработването на модели се улеснява от разработването на ранни синтетични данни, това може да бъде изключително важно. Ново развитие в областта на разпознаването на картини е използването на Generative Adversarial Networks (GAN). Обикновено се състои от две мрежи: генератор и дискриминатор.

Докато дискриминаторната мрежа има за цел да отдели действителните снимки от фалшивите, генераторната мрежа функционира за създаване на синтетични изображения, които са значително по-сходни с изображенията от реалния свят.

В машинното обучение GAN са подмножество от семейството на невронни мрежи, където и двете мрежи непрекъснато се учат и развиват чрез добавяне на нови възли и слоеве.

Когато създавате синтетични данни, имате възможност да промените средата и типа на данните, ако е необходимо, за да подобрите производителността на модела. Докато точността на синтетичните данни може лесно да бъде постигната със силен резултат, точността на етикетираните данни в реално време понякога може да бъде изключително скъпа.

Как можете да генерирате синтетични данни?

Използваните подходи за създаване на колекция от синтетични данни са следните:

Въз основа на статистическото разпределение

Стратегията, използвана в този случай, е да се вземат числа от разпределение или да се разгледат действителни статистически разпределения, за да се създадат фалшиви данни, които изглеждат сравними. Реалните данни може напълно да липсват при някои обстоятелства.

Учен по данни може да генерира набор от данни, съдържащ произволна извадка от всяко разпределение, ако има задълбочени познания за статистическото разпределение в действителните данни. Нормалното разпределение, експоненциалното разпределение, разпределението хи-квадрат, логнормалното разпределение и други са само няколко примера за статистически вероятностни разпределения, които могат да се използват за това.

Нивото на опит на специалиста по данни със ситуацията ще окаже значително влияние върху точността на обучения модел.

В зависимост от модела

Тази техника изгражда модел, който отчита наблюдаваното поведение, преди да използва този модел за генериране на произволни данни. По същество това включва напасване на реални данни към данни от известно разпределение. След това подходът Монте Карло може да се използва от корпорациите за създаване на фалшиви данни.

В допълнение, разпределенията могат да бъдат монтирани и с помощта на модели за машинно обучение като дървета на решенията. Учени за данни трябва обаче да обърне внимание на прогнозата, тъй като дърветата на решенията обикновено прекаляват поради тяхната простота и разширяване на дълбочината.

С дълбоко обучение

Дълбоко обучение моделите, които използват вариационен автоенкодер (VAE) или модели на генерираща конкурентна мрежа (GAN), са два начина за създаване на синтетични данни. Моделите за машинно обучение без надзор включват VAE.

Те се състоят от енкодери, които свиват и уплътняват оригиналните данни, и декодери, които внимателно разглеждат тези данни, за да предоставят представяне на реалните данни. Поддържането на входните и изходните данни възможно най-идентични е основната цел на VAE. Две противоположни невронни мрежи са GAN модели и състезателни мрежи.

Първата мрежа, известна като генераторната мрежа, отговаря за производството на фалшиви данни. Дискриминаторната мрежа, втората мрежа, работи чрез сравняване на създадени синтетични данни с действителни данни в опит да се установи дали наборът от данни е измамен. Дискриминаторът предупреждава генератора, когато открие фалшив набор от данни.

Следващата група от данни, предоставена на дискриминатора, впоследствие се променя от генератора. В резултат на това дискриминаторът става по-добър с времето в откриването на фалшиви набори от данни. Този вид модел често се използва във финансовия сектор за откриване на измами, както и в сектора на здравеопазването за медицински изображения.

Увеличаването на данни е различен метод, който учените по данни използват, за да произвеждат повече данни. Не бива обаче да се бърка с фалшиви данни. Просто казано, увеличаването на данни е актът на добавяне на нови данни към истински набор от данни, който вече съществува.

Създаване на няколко снимки от едно изображение, например чрез регулиране на ориентацията, яркостта, увеличението и др. Понякога се използва действителният набор от данни, като остава само личната информация. Това е анонимизация на данните и набор от такива данни също не трябва да се разглежда като синтетични данни.

Предизвикателства и ограничения на синтетичните данни

Въпреки че синтетичните данни имат различни предимства, които могат да помогнат на фирмите с научни дейности, те също имат определени ограничения:

Надеждност на данните: Общоизвестно е, че всеки модел на машинно/задълбочено обучение е толкова добър, колкото и данните, които се подават. Качеството на синтетичните данни в този контекст е тясно свързано с качеството на входните данни и модела, използван за генериране на данните. Изключително важно е да се гарантира, че няма отклонения в изходните данни, тъй като те могат да бъдат много ясно отразени в синтетичните данни. Освен това, преди да се правят прогнози, качеството на данните трябва да бъде потвърдено и проверено.
Изисква знания, усилия и време: Въпреки че създаването на синтетични данни може да бъде по-просто и по-евтино от създаването на истински данни, то изисква известни знания, време и усилия.
Възпроизвеждане на аномалии: Перфектната реплика на данни от реалния свят не е възможна; синтетичните данни могат само да го приближат. Следователно някои извънредни стойности, които съществуват в реални данни, може да не бъдат обхванати от синтетични данни. Аномалиите в данните са по-значими от типичните данни.
Контрол на производството и гарантиране на качеството: Синтетичните данни са предназначени да възпроизвеждат данни от реалния свят. Ръчната проверка на данните става от съществено значение. От съществено значение е да проверите точността на данните, преди да ги включите в модели за машинно/задълбочено обучение за сложни набори от данни, създадени автоматично чрез използване на алгоритми.
Отзиви на потребителите: Тъй като синтетичните данни са нова концепция, не всеки ще е готов да повярва на прогнози, направени с тях. Това показва, че за да се повиши приемливостта на потребителите, първо е необходимо да се повишат знанията за полезността на синтетичните данни.

Бъдеще

Използването на синтетични данни се е увеличило драстично през предходното десетилетие. Въпреки че спестява време и пари на компаниите, не е без недостатъци. Липсват отклонения, които се срещат естествено в действителните данни и са критични за точността в някои модели.

Също така си струва да се отбележи, че качеството на синтетичните данни често зависи от входните данни, използвани за създаване; отклоненията във входните данни могат бързо да се разпространят в синтетичните данни, като по този начин изборът на висококачествени данни като отправна точка не трябва да се преувеличава.

И накрая, той се нуждае от допълнителен контрол на изхода, включително сравняване на синтетичните данни с анотирани от човека реални данни, за да се провери дали не са въведени несъответствия. Въпреки тези пречки, синтетичните данни остават обещаващо поле.

Помага ни да създаваме нови решения за изкуствен интелект дори когато данните от реалния свят не са налични. Най-важното е, че дава възможност на предприятията да създават продукти, които са по-приобщаващи и показателни за разнообразието на техните крайни потребители.

В бъдещето, управлявано от данни обаче, синтетичните данни възнамеряват да помогнат на учените за данни да изпълняват нови и креативни задачи, които биха били предизвикателни за изпълнение само с данни от реалния свят.

Заключение

В определени случаи синтетичните данни могат да облекчат дефицита на данни или липсата на подходящи данни в бизнеса или организацията. Също така разгледахме кои стратегии могат да помогнат при генерирането на синтетични данни и кой може да спечели от тях.

Говорихме и за някои от трудностите, които възникват при работата със синтетични данни. За вземане на търговски решения реалните данни винаги ще бъдат предпочитани. Реалистичните данни обаче са следващата най-добра опция, когато такива истински необработени данни не са достъпни за анализ.

Въпреки това трябва да се помни, че за да се произвеждат синтетични данни, са необходими специалисти по данни със солидни познания за моделиране на данни. Задълбоченото разбиране на реалните данни и заобикалящата ги среда също е от съществено значение. Това е от съществено значение, за да се гарантира, че получените данни, ако са налични, са възможно най-точни.

Обяснение на синтетичните данни – следващото голямо нещо в AI, ML и DL

И така, какво представляват синтетичните данни?