Содржина[Крие][Прикажи]
Напредните програми за аналитика и машинско учење се поттикнати од податоци, но пристапот до тие податоци може да биде тежок за академиците поради предизвиците со приватноста и деловните процедури.
Синтетичките податоци, кои можат да се споделат и да се користат на начини на кои не можат вистинските податоци, се потенцијална нова насока за следење. Сепак, оваа нова стратегија не е без опасности или недостатоци, затоа е од клучно значење бизнисите внимателно да размислат каде и како ги користат своите ресурси.
Во сегашната ера на вештачката интелигенција, можеме да кажеме и дека податоците се новото масло, но само неколку одбрани седат на шлаг. Затоа, многу луѓе произведуваат сопствено гориво, кое е и достапно и ефикасно. Тоа е познато како синтетички податоци.
Во овој пост, ќе ги разгледаме детално синтетичките податоци - зошто треба да ги користите, како да ги произведувате, што ги прави различни од вистинските податоци, за какви случаи може да послужат и многу повеќе.
Значи, што е синтетички податоци?
Кога вистинските збирки на податоци се несоодветни во однос на квалитетот, бројот или различноста, синтетичките податоци може да се користат за обука на модели на вештачка интелигенција наместо вистински историски податоци.
Кога постоечките податоци не ги задоволуваат деловните барања или имаат ризици за приватност кога се користат за развој машинско учење модели, софтвер за тестирање или слично, синтетичките податоци може да бидат значајна алатка за напорите на корпоративната вештачка интелигенција.
Едноставно кажано, синтетичките податоци често се користат наместо вистинските податоци. Поточно, тоа се податоци кои се вештачки означени и произведени со симулации или компјутерски алгоритми.
Синтетички податоци се информации што се создадени од компјутерска програма вештачки, а не како резултат на вистински појави. Компаниите можат да додаваат синтетички податоци на нивните податоци за обука за да ги покријат сите ситуации на користење и предности, да ги намалат трошоците за собирање податоци или да ги задоволат прописите за приватност.
Вештачките податоци сега се подостапни од кога и да било, благодарение на подобрувањата во моќта за обработка и методите за складирање податоци како облакот. Синтетичките податоци го подобруваат создавањето решенија за вештачка интелигенција кои се покорисни за сите крајни корисници и тоа несомнено е добар развој.
Колку се важни синтетичките податоци и зошто треба да ги користите?
Кога тренираат модели со вештачка интелигенција, на програмерите често им се потребни огромни збирки на податоци со прецизно означување. Кога се предава со поразновидни податоци, нервните мрежи изврши попрецизно.
Меѓутоа, собирањето и етикетирањето на овие огромни збирки на податоци што содржат стотици, па дури и милиони ставки, може неразумно да одземе време и пари. Цената за производство на податоци за обука може значително да се намали со користење на синтетички податоци. На пример, ако се создаде вештачки, слика за обука која чини 5 долари кога се купува од a давател на означување на податоци може да чини само 0.05 долари.
Синтетичките податоци можат да ја ублажат загриженоста за приватноста поврзана со потенцијално чувствителните податоци генерирани од вистинскиот свет, а истовремено да ги намалат трошоците.
Во споредба со вистинските податоци, кои не можат прецизно да го одразат целосниот спектар на факти за реалниот свет, тоа може да помогне да се намалат предрасудите. Со обезбедување невообичаени појави кои претставуваат веродостојни можности, но може да биде предизвик да се добијат од легитимни податоци, синтетичките податоци можат да понудат поголема разновидност.
Синтетичките податоци би можеле да бидат фантастично погодни за вашиот проект од причините наведени подолу:
1. Робустноста на моделот
Без да мора да го стекнете, пристапете до поразновидни податоци за вашите модели. Со синтетички податоци, можете да го тренирате вашиот модел користејќи варијанти на иста личност со различни фризури, влакна на лицето, очила, пози на главата итн., како и тон на кожата, етнички карактеристики, структура на коските, пеги и други карактеристики за да генерирате уникатни се соочува и го зајакнува.
2. Се земаат предвид рабовите
Избалансиран базата на податоци е претпочитана од машинското учење алгоритми. Сетете се на нашиот пример за препознавање лице. Точноста на нивните модели би се подобрила (и всушност, некои од овие бизниси го направиле токму тоа) и би произвеле поморален модел доколку произвеле синтетички податоци за лица со потемна кожа за да ги пополнат нивните празнини во податоците. Тимовите можат да ги опфатат сите случаи на употреба, вклучително и рабовите каде што податоците се ретки или непостоечки, со помош на синтетички податоци.
3. Може да се добие побрзо од „вистинските“ податоци
Тимовите можат брзо да генерираат огромни количини на синтетички податоци. Ова е особено корисно кога податоците од реалниот живот зависат од спорадични настани. На тимовите може да им биде тешко да добијат доволно реални податоци за тешките услови на патот додека собираат податоци за самоуправувачки автомобил, на пример, поради нивната реткост. Со цел да се забрза макотрпниот процес на прибележување, научниците за податоци можат да постават алгоритми за автоматско означување на синтетичките податоци додека се генерираат.
4. Ги обезбедува информациите за приватноста на корисниците
Компаниите може да имаат безбедносни потешкотии додека ракуваат со чувствителни податоци, во зависност од бизнисот и видот на податоците. Личните здравствени информации (PHI), на пример, често се вклучени во податоците за болничките пациенти во здравствената индустрија и мора да се постапуваат со најголема безбедност.
Бидејќи синтетичките податоци не вклучуваат информации за вистински луѓе, проблемите со приватноста се намалуваат. Размислете за користење синтетички податоци како алтернатива ако вашиот тим мора да се придржува до одредени закони за приватност на податоците.
Вистински податоци наспроти синтетички податоци
Во реалниот свет, вистинските податоци се добиваат или се мерат. Кога некој користи паметен телефон, лаптоп или компјутер, носи рачен часовник, пристапува до веб-локација или прави онлајн трансакција, овој тип на податоци се генерира веднаш.
Дополнително, анкетите може да се користат за да се обезбедат вистински податоци (онлајн и офлајн). Дигиталните поставки произведуваат синтетички податоци. Со исклучок на делот што не е изведен од никакви настани од реалниот свет, синтетичките податоци се создаваат на начин што успешно ги имитира вистинските податоци во однос на основните квалитети.
Идејата за користење на синтетички податоци како замена за вистинските податоци е многу ветувачка бидејќи може да се користи за да се обезбеди податоци за обука кои машинско учење моделите бараат. Но, тоа не е сигурно вештачка интелигенција може да го реши секое прашање што се појавува во вистинскиот свет.
Употреба случаи
Синтетичките податоци се корисни за различни комерцијални цели, вклучувајќи обука на модели, валидација на модел и тестирање на нови производи. Ќе наведеме неколку од секторите кои го предводеа патот во неговата примена во машинското учење:
1. здравството
Со оглед на чувствителноста на неговите податоци, здравствениот сектор е добро прилагоден за употреба на синтетички податоци. Синтетичките податоци може да ги користат тимовите за да ги евидентираат физиологиите на секој вид на пациент што може да постои, со што ќе се помогне во побрзо и попрецизно дијагностицирање на болестите.
Моделот на Google за откривање меланом е интригантна илустрација за ова бидејќи вклучува синтетички податоци за луѓе со потемни тонови на кожа (област на клинички податоци што за жал е недоволно застапена) за да му обезбеди на моделот капацитет да функционира ефективно за сите типови на кожа.
2. Автомобили
Симулаторите често се користат од компании кои создаваат самоуправувачки автомобили за да ги оценат перформансите. Кога времето е сурово, на пример, собирањето вистински податоци за патиштата може да биде ризично или тешко.
Општо земено, не е добра идеја да се потпрете на тестови во живо со вистински автомобили на патиштата, бидејќи има премногу променливи што треба да се земат предвид во сите различни ситуации на возење.
3. Преносливост на податоците
За да можат да ги споделат своите податоци за обука со други, организациите бараат доверливи и сигурни методи. Сокривањето информации за лична идентификација (PII) пред да се направи јавна базата на податоци е уште една интригантна апликација за синтетички податоци. Размената на збирки на податоци за научни истражувања, медицински податоци, социолошки податоци и други полиња што би можеле да содржат PII, се нарекуваат синтетички податоци за зачувување на приватноста.
4. Безбедност
Организациите се побезбедни благодарение на синтетичките податоци. Во врска со нашиот пример за препознавање лице повторно, можеби сте запознаени со фразата „длабоки фалсификати“, која опишува фабрикувани фотографии или видеа. Длабоки фалсификати може да произведуваат бизниси за да ги тестираат сопствените системи за препознавање лица и безбедност. Синтетичките податоци се користат и во видео надзорот за да се обучуваат моделите побрзо и поевтина цена.
Синтетички податоци и машинско учење
За да се изгради солиден и доверлив модел, на алгоритмите за машинско учење им треба значителна количина на податоци за да се обработат. Во отсуство на синтетички податоци, производството на толку голем обем на податоци би било предизвик.
Во домени како компјутерска визија или обработка на слики, каде што развојот на модели е олеснет со развојот на рани синтетички податоци, тоа може да биде исклучително значајно. Нов развој на полето на препознавање слики е употребата на Generative Adversarial Networks (GAN). Обично се состои од две мрежи: генератор и дискриминатор.
Додека дискриминаторската мрежа има за цел да ги одвои вистинските фотографии од лажните, генераторската мрежа функционира за да произведува синтетички слики кои се значително послични на сликите од реалниот свет.
Во машинското учење, GAN се подмножество од семејството на невронски мрежи, каде што и двете мрежи континуирано учат и се развиваат со додавање на нови јазли и слоеви.
Кога креирате синтетички податоци, имате можност да ја промените околината и типот на податоците колку што е потребно за да ги подобрите перформансите на моделот. Додека точноста за синтетичките податоци може лесно да се постигне со силен резултат, прецизноста за означените податоци во реално време понекогаш може да биде исклучително скапа.
Како можете да генерирате синтетички податоци?
Пристапите што се користат за создавање на синтетичко собирање податоци се како што следува:
Врз основа на статистичката распределба
Стратегијата што се користи во овој случај е да се земат бројки од дистрибуцијата или да се погледнат вистинските статистички дистрибуции со цел да се создадат лажни податоци што изгледаат споредливи. Вистинските податоци може да бидат целосно отсутни во некои околности.
Научникот за податоци може да генерира збирка на податоци што содржи случаен примерок од која било дистрибуција ако има длабоко разбирање на статистичката дистрибуција во вистинските податоци. Нормалната дистрибуција, експоненцијалната дистрибуција, хи-квадрат дистрибуцијата, логнормната дистрибуција и повеќе се само неколку примери на статистичка распределба на веројатност што може да се користи за да се направи ова.
Нивото на искуство на научникот за податоци со ситуацијата ќе има значително влијание врз точноста на обучениот модел.
Во зависност од моделот
Оваа техника гради модел кој го објаснува набљудуваното однесување пред да го искористи тој модел за генерирање случајни податоци. Во суштина, ова вклучува приспособување на вистински податоци на податоци од позната дистрибуција. Пристапот Монте Карло потоа може да го користат корпорациите за да создадат лажни податоци.
Покрај тоа, дистрибуциите може да се вградат и со користење модели на машинско учење како дрва за одлучување. Научници за податоци Сепак, мора да се обрне внимание на прогнозата, бидејќи дрвјата за одлучување обично се преоптоваруваат поради нивната едноставност и проширување на длабочината.
Со длабоко учење
Длабоко учење моделите што користат варијациски автоенкодер (VAE) или модели на генеративна противничка мрежа (GAN) се два начини за создавање синтетички податоци. Моделите за машинско учење без надзор вклучуваат VAE.
Тие се составени од енкодери, кои ги собираат и компактираат оригиналните податоци, и декодери, кои детално ги проверуваат овие податоци за да обезбедат претстава на вистинските податоци. Одржувањето на влезните и излезните податоци што е можно поидентични е основната цел на VAE. Две спротивставени невронски мрежи се GAN моделите и противничките мрежи.
Првата мрежа, позната како генераторска мрежа, е задолжена за производство на лажни податоци. Мрежата за дискриминатор, втората мрежа, работи на тој начин што ги споредува создадените синтетички податоци со вистинските податоци во обид да се идентификува дали сетот на податоци е лажен. Дискриминаторот го предупредува генераторот кога ќе открие лажна база на податоци.
Следната серија на податоци доставени до дискриминаторот последователно е изменета од генераторот. Како резултат на тоа, дискриминаторот станува подобар со текот на времето во забележувањето лажни збирки на податоци. Овој вид модел често се користи во финансискиот сектор за откривање измами, како и во здравствениот сектор за медицински слики.
Зголемувањето на податоците е различен метод што научниците за податоци го користат за да произведат повеќе податоци. Сепак, не треба да се меша со лажни податоци. Едноставно кажано, зголемувањето на податоците е чин на додавање нови податоци во вистинска база на податоци што веќе постои.
Создавање неколку слики од една слика, на пример, со прилагодување на ориентацијата, осветленоста, зголемувањето и друго. Понекогаш, вистинскиот сет на податоци се користи со преостанати само лични информации. Анонимизацијата на податоците е она што е ова, а збир од такви податоци исто така не треба да се сметаат за синтетички податоци.
Предизвици и ограничувања на синтетичките податоци
Иако синтетичките податоци имаат различни придобивки што можат да им помогнат на фирмите во активностите за наука за податоци, тие исто така имаат одредени ограничувања:
- Доверливост на податоците: Општо познато е дека секој модел на машинско учење/длабоко учење е добар само како и податоците со кои се хранат. Квалитетот на синтетичките податоци во овој контекст е силно поврзан со квалитетот на влезните податоци и моделот што се користи за производство на податоците. Од клучно значење е да се осигура дека нема предрасуди во изворните податоци, бидејќи тие можат многу јасно да се пресликаат во синтетичките податоци. Понатаму, пред да се направат какви било прогнози, треба да се потврди и проверува квалитетот на податоците.
- Потребно е знаење, труд и време: Иако создавањето синтетички податоци може да биде поедноставно и поефтино од создавањето вистински податоци, потребно е одредено знаење, време и напор.
- Реплицирање на аномалии: Совршената реплика на податоци од реалниот свет не е можна; синтетичките податоци можат само да го приближат. Затоа, некои оддалечени што постојат во реалните податоци можеби не се опфатени со синтетички податоци. Податочните аномалии се позначајни од типичните податоци.
- Контрола на производството и обезбедување квалитет: Синтетичките податоци се наменети да реплицираат податоци од реалниот свет. Рачната проверка на податоците станува од суштинско значење. Неопходно е да се потврди точноста на податоците пред да се вклучат во моделите за машинско учење/длабоко учење за комплицирани сетови на податоци креирани автоматски со користење на алгоритми.
- Повратни информации од корисниците: Бидејќи синтетичките податоци се нов концепт, не секој ќе биде подготвен да верува во предвидувањата направени со нив. Ова укажува дека за да се зголеми прифатливоста од страна на корисниците, прво е неопходно да се подигне знаењето за корисноста на синтетичките податоци.
Иднина
Употребата на синтетички податоци драстично се зголеми во претходната деценија. Иако заштедува време и пари на компаниите, не е без свои недостатоци. Нему му недостасуваат оддалечени, кои природно се појавуваат во вистинските податоци и се критични за точноста кај некои модели.
Исто така, вреди да се напомене дека квалитетот на синтетичките податоци често зависи од влезните податоци што се користат за креирање; предрасудите во влезните податоци може брзо да се шират во синтетичките податоци, така што изборот на висококвалитетни податоци како почетна точка не треба да се преценува.
Конечно, потребна е дополнителна контрола на излезот, вклучително и споредување на синтетичките податоци со реални податоци забележани од човекот за да се потврди дека не се воведени несогласувања. И покрај овие пречки, синтетичките податоци остануваат ветувачко поле.
Ни помага да создадеме нови решенија за вештачка интелигенција дури и кога податоците од реалниот свет не се достапни. Најзначајно, тоа им овозможува на претпријатијата да градат производи кои се поинклузивни и показатели за различноста на нивните крајни потрошувачи.
Меѓутоа, во иднината заснована на податоци, синтетичките податоци имаат намера да им помогнат на научниците за податоци да извршуваат нови и креативни задачи што би било предизвик да се завршат само со податоци од реалниот свет.
Заклучок
Во одредени случаи, синтетичките податоци можат да го ублажат дефицитот на податоци или недостатокот на релевантни податоци во бизнисот или организацијата. Исто така, разгледавме кои стратегии можат да помогнат во генерирањето синтетички податоци и кој може да профитира од нив.
Зборувавме и за некои од тешкотиите што доаѓаат со справувањето со синтетички податоци. За комерцијално одлучување, вистинските податоци секогаш ќе бидат фаворизирани. Сепак, реалните податоци се следната најдобра опција кога таквите вистински необработени податоци не се достапни за анализа.
Сепак, мора да се запомни дека за да се произведат синтетички податоци, потребни се научници за податоци со солидно разбирање на моделирањето на податоците. Од суштинско значење е и темелното разбирање на вистинските податоци и неговата околина. Ова е од суштинско значење за да се осигураме дека, доколку се достапни, произведените податоци се колку што е можно поточни.
Оставете Одговор