Tilbúin gögn útskýrð - Næsta stóra hluturinn í gervigreind, ML og DL

Háþróuð greiningar- og vélanámsforrit eru knúin áfram af gögnum, en aðgangur að þeim gögnum getur verið erfiður fyrir fræðimenn vegna áskorana um persónuvernd og viðskiptaferla.

Tilbúin gögn, sem hægt er að deila og nýta á þann hátt sem raunveruleg gögn geta ekki, er hugsanleg ný stefna til að sækjast eftir. Hins vegar er þessi nýja stefna ekki án hættu eða ókosta, þess vegna er mikilvægt að fyrirtæki íhugi vandlega hvar og hvernig þau nýta auðlindir sínar.

Á núverandi tímum gervigreindar getum við líka fullyrt að gögn séu nýja olían, en aðeins fáir útvaldir sitja á gusher. Því eru margir að framleiða sitt eigið eldsneyti sem er bæði hagkvæmt og hagkvæmt. Það er þekkt sem tilbúið gögn.

Í þessari færslu munum við skoða tilbúið gögn ítarlega - hvers vegna þú ættir að nota þau, hvernig á að framleiða þau, hvað gerir þau frábrugðin raunverulegum gögnum, hvaða notkunartilvik þau geta þjónað og margt fleira.

Svo, hvað eru tilbúin gögn?

Þegar ósvikin gagnasöfn eru ófullnægjandi hvað varðar gæði, fjölda eða fjölbreytileika er hægt að nota tilbúið gögn til að þjálfa gervigreind líkön í stað raunverulegra sögulegra gagna.

Þegar fyrirliggjandi gögn uppfylla ekki viðskiptakröfur eða hafa persónuverndaráhættu þegar þau eru notuð til að þróa vél nám módel, prófunarhugbúnað eða þess háttar, tilbúin gögn geta verið mikilvægt tæki fyrir gervigreind fyrirtækja.

Einfaldlega sagt, tilbúið gögn eru oft notuð í stað raunverulegra gagna. Nánar tiltekið eru það gögn sem hafa verið tilbúnar merkt og framleidd með uppgerðum eða tölvualgrími.

Tilbúin gögn

Tilbúin gögn eru upplýsingar sem hafa verið búnar til af tölvuforriti á tilbúnar hátt frekar en vegna raunverulegra atburða. Fyrirtæki geta bætt tilbúnum gögnum við þjálfunargögn sín til að ná yfir allar notkunar- og jaðaraðstæður, draga úr kostnaði við gagnaöflun eða uppfylla reglur um persónuvernd.

Gervigögn eru nú aðgengilegri en nokkru sinni fyrr þökk sé endurbótum á vinnsluorku og gagnageymsluaðferðum eins og skýinu. Tilbúin gögn bæta sköpun gervigreindarlausna sem eru gagnlegri fyrir alla notendur og það er án efa góð þróun.

Hversu tilbúið gögn eru mikilvæg og hvers vegna ættir þú að nota þau?

Þegar þeir þjálfa gervigreindarlíkön þurfa verktaki oft risastór gagnasöfn með nákvæmum merkingum. Þegar kennt er með fjölbreyttari gögnum, taugakerfi framkvæma nákvæmari.

Það getur hins vegar verið óeðlilega tíma- og peningafrekt að safna og merkja þessar gríðarlegu gagnapakka sem innihalda hundruð eða jafnvel milljónir hluta. Verðið á að framleiða þjálfunargögn er hægt að lækka mjög með því að nota tilbúið gögn. Til dæmis, ef hún er búin til á tilbúnum stað, þá kostar þjálfunarmynd sem kostar $5 þegar hún er keypt frá a veitir gagnamerkinga gæti aðeins kostað $0.05.

Tilbúin gögn geta dregið úr áhyggjum um friðhelgi einkalífsins sem tengjast hugsanlega viðkvæmum gögnum sem myndast úr hinum raunverulega heimi en draga jafnframt úr kostnaði.

Í samanburði við ósvikin gögn, sem gætu ekki nákvæmlega endurspeglað heildarsvið staðreynda um raunheiminn, gæti það hjálpað til við að draga úr fordómum. Með því að bjóða upp á óvenjuleg atvik sem tákna trúverðuga möguleika en geta verið krefjandi að fá úr lögmætum gögnum, geta tilbúin gögn boðið upp á meiri fjölbreytni.

Tilbúin gögn gætu hentað frábærlega fyrir verkefnið þitt af ástæðum sem taldar eru upp hér að neðan:

1. Sterkleiki líkansins

Án þess að þurfa að eignast það, fáðu aðgang að fjölbreyttari gögnum fyrir gerðir þínar. Með tilbúnum gögnum geturðu þjálfað líkanið þitt með því að nota afbrigði af sömu manneskju með ýmsar klippingar, andlitshár, gleraugu, höfuðstellingar o.s.frv., svo og húðlit, þjóðerniseiginleika, beinbyggingu, freknur og aðra eiginleika til að búa til einstaka eiginleika andlit og styrkja það.

2. Tekið er tillit til kantmála

A jafnvægi gagnapakka er valinn af vélanámi reiknirit. Hugsaðu aftur til dæmi okkar um andlitsgreiningu. Nákvæmni líkananna þeirra hefði batnað (og í raun gerðu sum þessara fyrirtækja einmitt þetta), og þau hefðu framleitt siðferðilegra líkan ef þau hefðu framleitt tilbúið gögn um dekkri á hörund til að fylla í gagnaeyður sínar. Teymi geta fjallað um öll notkunartilvik, þar með talið jaðartilvik þar sem gögn eru af skornum skammti eða engin, með hjálp tilbúinna gagna.

3. Hægt er að nálgast þau hraðar en „raunveruleg“ gögn

Liðin geta búið til mikið magn af tilbúnum gögnum fljótt. Þetta er sérstaklega gagnlegt þegar raunveruleg gögn eru háð sporadískum atburðum. Lið gætu átt erfitt með að fá nægar raunverulegar upplýsingar um alvarlegar aðstæður á vegum meðan þeir safna gögnum fyrir sjálfkeyrandi bíl, til dæmis, vegna þess að þeir eru sjaldgæfir. Til að flýta fyrir erfiðu skýringarferlinu geta gagnafræðingar sett upp reiknirit til að merkja tilbúnu gögnin sjálfkrafa þegar þau eru búin til.

4. Það tryggir persónuverndarupplýsingar notenda

Fyrirtæki gætu átt í öryggiserfiðleikum við meðhöndlun viðkvæmra gagna, allt eftir viðskiptum og tegund gagna. Persónulegar heilsufarsupplýsingar (PHI) eru til dæmis oft innifaldar í gögnum á legudeildum í heilbrigðisgeiranum og verður að meðhöndla þær af fyllstu öryggi.

Þar sem tilbúin gögn innihalda ekki upplýsingar um raunverulegt fólk, minnka persónuverndarvandamál. Íhugaðu að nota tilbúin gögn sem val ef teymið þitt þarf að fylgja ákveðnum gagnaverndarlögum.

Raunveruleg gögn á móti tilbúnum gögnum

Í hinum raunverulega heimi eru raunveruleg gögn aflað eða mæld. Þegar einhver notar snjallsíma, fartölvu eða tölvu, notar armbandsúr, fer á vefsíðu eða gerir viðskipti á netinu, myndast þessi tegund af gögnum samstundis.

Að auki er hægt að nota kannanir til að veita ósvikin gögn (á netinu og utan nets). Stafrænar stillingar framleiða tilbúið gögn. Að undanskildum hlutanum sem var ekki fenginn frá neinum raunverulegum atburðum, eru tilbúin gögn búin til á þann hátt sem líkir með góðum árangri eftir raunverulegum gögnum hvað varðar grundvallareiginleika.

Hugmyndin um að nota tilbúin gögn í staðinn fyrir raunveruleg gögn er mjög efnileg þar sem hægt er að nota þau til að veita þjálfunargögn sem vélanám módel krefjast. En það er ekki víst gervigreind getur leyst öll vandamál sem koma upp í hinum raunverulega heimi.

Nota tilfelli

Tilbúin gögn eru gagnleg í margvíslegum viðskiptalegum tilgangi, þar á meðal fyrirmyndaþjálfun, löggildingu líkana og prófanir á nýjum vörum. Við munum telja upp nokkrar af þeim geirum sem hafa leitt leiðina í beitingu þess til vélanáms:

1. heilsugæslu

Í ljósi þess hversu næm gögnin eru, hentar heilbrigðisgeirinn vel til notkunar á tilbúnum gögnum. Tilbúin gögn geta verið notuð af teymum til að skrá lífeðlisfræði hvers kyns sjúklinga sem gætu verið til, þannig að aðstoða við hraðari og nákvæmari greiningu sjúkdóma.

Heilbrigðiskerfið

Sortuæxlagreiningarlíkan Google er forvitnileg lýsing á þessu þar sem það inniheldur tilbúnar upplýsingar um fólk með dekkri húðlit (svæði klínískra gagna sem er því miður vantálað) til að veita líkaninu getu til að virka á áhrifaríkan hátt fyrir allar húðgerðir.

2. Bílar

Hermir eru oft notaðir af fyrirtækjum sem búa til sjálfkeyrandi bíla til að meta frammistöðu. Þegar veðrið er slæmt, til dæmis, gæti það verið áhættusamt eða erfitt að safna raunverulegum vegagögnum.

Sjálfkeyrandi bíll

Að treysta á lifandi próf með raunverulegum bílum á vegum er almennt ekki góð hugmynd þar sem það eru bara of margar breytur til að taka tillit til í öllum mismunandi akstursaðstæðum.

3. Flutningur gagna

Til að geta deilt þjálfunargögnum sínum með öðrum þurfa stofnanir áreiðanlegar og öruggar aðferðir. Að fela persónugreinanlegar upplýsingar (PII) áður en gagnasafnið er opinbert er annað forvitnilegt forrit fyrir tilbúið gögn. Skipt á gagnasettum vísindarannsókna, læknisfræðilegum gögnum, félagsfræðilegum gögnum og öðrum sviðum sem gætu innihaldið PII, er vísað til sem tilbúið gögn sem varðveita friðhelgi einkalífsins.

4. Öryggi

Samtök eru öruggari þökk sé tilbúnum gögnum. Varðandi dæmið um andlitsgreiningu okkar aftur, gætirðu kannast við setninguna „djúpar falsanir“ sem lýsir tilbúnum myndum eða myndböndum. Djúpar falsanir geta verið framleiddar af fyrirtækjum til að prófa eigin andlitsþekkingar- og öryggiskerfi. Tilbúin gögn eru einnig notuð í myndbandseftirliti til að þjálfa módel hraðar og með ódýrari kostnaði.

Tilbúin gögn og vélanám

Til að byggja upp traust og áreiðanlegt líkan þurfa vélanámsreiknirit að vinna umtalsvert magn af gögnum. Ef tilbúið gögn eru ekki fyrir hendi væri erfitt að framleiða svo mikið magn af gögnum.

Á sviðum eins og tölvusjón eða myndvinnslu, þar sem þróun módela er auðveldað með þróun snemma tilbúinna gagna, getur það verið mjög mikilvægt. Ný þróun á sviði myndgreiningar er notkun Generative Adversarial Networks (GAN). Samanstendur venjulega af tveimur netum: rafall og mismuna.

Þó að mismununarnetið miði að því að aðgreina raunverulegu myndirnar frá þeim fölsuðu, virkar rafalanetið til að framleiða tilbúnar myndir sem eru töluvert líkari raunverulegum myndum.

Í vélanámi eru GAN undirmengi taugakerfisfjölskyldunnar, þar sem bæði netin læra og þróast stöðugt með því að bæta við nýjum hnútum og lögum.

Þegar tilbúin gögn eru búin til hefurðu möguleika á að breyta umhverfi og gerð gagna eftir þörfum til að auka afköst líkansins. Þó að auðvelt sé að ná nákvæmni fyrir tilbúið gögn með sterku skori, getur nákvæmni fyrir merkt rauntímagögn stundum verið mjög dýr.

Hvernig er hægt að búa til tilbúið gögn?

Aðferðirnar sem notaðar eru til að búa til tilbúið gagnasöfnun eru sem hér segir:

Byggt á tölfræðilegri dreifingu

Stefnan sem notuð er í þessu tilfelli er að taka tölur úr dreifingu eða skoða raunverulegar tölfræðilegar dreifingar til að búa til rangar upplýsingar sem líta út fyrir að vera sambærilegar. Raunveruleg gögn geta verið algjörlega fjarverandi við sumar aðstæður.

Gagnafræðingur getur búið til gagnasafn sem inniheldur slembiúrtak af hvaða dreifingu sem er ef hann hefur djúpt tök á tölfræðilegri dreifingu í raunverulegum gögnum. Normaldreifingin, veldisdreifingin, kí-kvaðratdreifingin, lognormaldreifingin og fleira eru aðeins nokkur dæmi um tölfræðilega líkindadreifingu sem hægt er að nota til að gera þetta.

Reynsla gagnafræðingsins af aðstæðum mun hafa veruleg áhrif á nákvæmni þjálfaðs líkans.

Fer eftir fyrirmynd

Þessi tækni byggir líkan sem gerir grein fyrir hegðun sem sést áður en það líkan er notað til að búa til handahófskennd gögn. Í meginatriðum felur þetta í sér að passa raunveruleg gögn við gögn frá þekktri dreifingu. Monte Carlo nálgunin getur síðan verið notuð af fyrirtækjum til að búa til fölsuð gögn.

Að auki er einnig hægt að setja dreifingar með því að nota vélanáms módel eins og ákvörðunartré. Gagnfræðingar verður þó að huga að spánni, þar sem ákvörðunartrén passa venjulega of mikið vegna einfaldleika þeirra og dýptarstækkunar.

Með djúpu námi

Djúpt nám líkön sem nota Variational Autoencoder (VAE) eða Generative Adversarial Network (GAN) líkan eru tvær leiðir til að búa til tilbúin gögn. Vélanámslíkön án eftirlits innihalda VAE.

Þeir samanstanda af kóðara, sem draga saman og þjappa upprunalegu gögnunum, og afkóðarum, sem skoða þessi gögn til að gefa framsetningu á raunverulegu gögnunum. Að halda inn- og úttaksgögnum eins eins og mögulegt er er grundvallarmarkmið VAE. Tvö andstæð tauganet eru GAN líkön og andstæð net.

Fyrsta netið, þekkt sem rafalarnetið, sér um að framleiða fölsuð gögn. Mismununarnetið, annað netið, virkar með því að bera saman tilbúin gögn við raunveruleg gögn til að reyna að bera kennsl á hvort gagnasafnið sé sviksamlegt. Mismununarmaðurinn lætur rafallinn vita þegar hann uppgötvar svikinn gagnasafn.

Eftirfarandi gagnalota sem er veitt til mismununaraðilans er síðan breytt af rafalanum. Fyrir vikið verður mismununarmaðurinn betri með tímanum við að koma auga á svikin gagnasöfn. Svona líkan er oft notað í fjármálageiranum til að greina svik sem og í heilbrigðisgeiranum fyrir læknisfræðilega myndgreiningu.

Gagnaaukning er önnur aðferð sem gagnafræðingar nota til að framleiða fleiri gögn. Það ætti þó ekki að villast við fölsuð gögn. Einfaldlega sagt, gagnaaukning er sú athöfn að bæta nýjum gögnum við ósvikið gagnasafn sem þegar er til.

Að búa til nokkrar myndir úr einni mynd, til dæmis með því að stilla stefnu, birtustig, stækkun og fleira. Stundum er raunverulegt gagnasett notað með aðeins persónuupplýsingarnar eftir. Nafngreining gagna er það sem þetta er, og safn slíkra gagna er sömuleiðis ekki að líta á sem tilbúið gögn.

Áskoranir og takmarkanir á tilbúnum gögnum

Þrátt fyrir að tilbúin gögn hafi ýmsa kosti sem geta aðstoðað fyrirtæki við gagnavísindastarfsemi, þá hafa þau einnig ákveðnar takmarkanir:

Áreiðanleiki gagna: Það er almennt vitað að sérhvert vélanám/djúpnámslíkan er aðeins eins gott og gögnin sem það er gefið. Gæði tilbúinna gagna í þessu samhengi eru sterklega tengd gæðum inntaksgagnanna og líkansins sem notað er til að framleiða gögnin. Það er mikilvægt að tryggja að engar hlutdrægni sé fyrir hendi í upprunagögnunum, þar sem þær geta endurspeglast mjög greinilega í tilbúnu gögnunum. Ennfremur, áður en þú gerir einhverjar spár, ætti að staðfesta og sannreyna gæði gagna.
Krefst þekkingar, fyrirhafnar og tíma: Þó að búa til tilbúið gögn gæti verið einfaldara og ódýrara en að búa til ósvikin gögn, þá þarf það nokkra þekkingu, tíma og fyrirhöfn.
Að endurtaka frávik: Hin fullkomna eftirmynd af raunverulegum gögnum er ekki möguleg; tilbúin gögn geta aðeins nálgast það. Þess vegna er hugsanlegt að sumar útlínur sem eru til í raunverulegum gögnum falli ekki undir tilbúnar gögn. Gagnafrávik eru mikilvægari en dæmigerð gögn.
Stjórna framleiðslunni og tryggja gæði: Tilbúnum gögnum er ætlað að endurtaka raunveruleg gögn. Handvirk sannprófun gagna verður nauðsynleg. Nauðsynlegt er að sannreyna nákvæmni gagna áður en þau eru felld inn í vélanám/djúpnámslíkön fyrir flókin gagnasöfn sem eru búin til sjálfkrafa með reikniritum.
Viðbrögð notenda: Þar sem tilbúin gögn eru nýstárlegt hugtak munu ekki allir vera tilbúnir til að trúa spám sem gerðar eru með þeim. Þetta gefur til kynna að til að auka notendaviðunandi þarf fyrst að auka þekkingu á notagildi tilbúinna gagna.

Framtíð

Notkun á tilbúnum gögnum hefur aukist verulega á undanförnum áratug. Þó að það spari fyrirtækjum tíma og peninga er það ekki án galla. Það skortir útlínur, sem koma náttúrulega fyrir í raunverulegum gögnum og eru mikilvægar fyrir nákvæmni í sumum gerðum.

Það er líka athyglisvert að gæði gervigagnanna eru oft háð inntaksgögnum sem notuð eru til að búa til; hlutdrægni í inntaksgögnum getur fljótt breiðst út í tilbúnu gögnin, þannig að velja hágæða gögn sem upphafspunkt ætti ekki að ofmeta.

Að lokum þarf það frekari framleiðslustýringu, þar á meðal að bera saman tilbúnu gögnin við raunveruleg gögn sem eru skráð af mönnum til að sannreyna að misræmi sé ekki kynnt. Þrátt fyrir þessar hindranir eru tilbúin gögn enn efnilegur vettvangur.

Það hjálpar okkur að búa til nýjar gervigreindarlausnir jafnvel þegar raunveruleg gögn eru ekki tiltæk. Mikilvægast er að það gerir fyrirtækjum kleift að smíða vörur sem eru meira innifalin og gefa til kynna fjölbreytileika neytenda þeirra.

Í gagnadrifinni framtíð ætla tilbúin gögn hins vegar að hjálpa gagnafræðingunum að framkvæma ný og skapandi verkefni sem erfitt væri að klára með raunverulegum gögnum einum saman.

Niðurstaða

Í vissum tilvikum geta tilbúin gögn dregið úr gagnaskorti eða skorti á viðeigandi gögnum innan fyrirtækis eða stofnunar. Við skoðuðum einnig hvaða aðferðir geta hjálpað til við myndun tilbúinna gagna og hverjir geta hagnast á þeim.

Við ræddum líka um suma erfiðleikana sem fylgja því að takast á við tilbúin gögn. Fyrir viðskiptalega ákvarðanatöku verða raunveruleg gögn alltaf ívilnuð. Hins vegar eru raunhæf gögn næstbesti kosturinn þegar slík sönn hrá gögn eru ekki aðgengileg til greiningar.

Hins vegar verður að hafa í huga að til að framleiða tilbúið gögn þarf gagnafræðinga með traust tök á gagnalíkönum. Ítarlegur skilningur á raunverulegum gögnum og umhverfi þeirra er einnig nauðsynleg. Þetta er nauðsynlegt til að tryggja að framleidd gögn séu eins nákvæm og mögulegt er, ef þau eru tiltæk.

Tilbúin gögn útskýrð - Næsta stóra hluturinn í gervigreind, ML og DL

Svo, hvað eru tilbúin gögn?