25 seataichean dàta trèanaidh AI eile as fheàrr (2024)

An-diugh, tha a’ mhòr-chuid againn ag amas air modalan ionnsachadh innealan agus AI a leasachadh agus dèiligeadh ri cùisean a’ cleachdadh stòran-dàta gnàthach. Ach an toiseach, feumaidh sinn stòr-dàta a mhìneachadh, a chudromachd, agus a dhleastanas ann a bhith a’ leasachadh fuasglaidhean làidir AI agus ML.

An-diugh, tha pailteas de stòran-dàta fosgailte againn air am faod sinn rannsachadh a dhèanamh no tagraidhean a leasachadh gus dèiligeadh ri cùisean fìor san t-saoghal ann an grunn roinnean.

Ach, tha gainnead stòran-dàta cainneachdail àrd-inbhe na adhbhar dragh. Tha dàta air a dhol suas gu mòr agus cumaidh e a’ leudachadh aig ìre nas luaithe san àm ri teachd.

Anns an dreuchd seo, còmhdaichidh sinn stòran-dàta a tha rim faighinn gu saor as urrainn dhut a chleachdadh gus an ath phròiseact AI agad a leasachadh.

1. Set dàta feartan CelebFaces

Tha CelebFaces Attributes Dataset (CelebA) a’ toirt a-steach còrr air 200K dealbh de dhaoine ainmeil agus 40 nota buadhan airson gach ìomhaigh, ga fhàgail na dheagh àite tòiseachaidh airson pròiseactan leithid aithne aghaidh, lorg aghaidh, sgìreachadh comharra-tìre (no pàirt aghaidh), agus deasachadh aghaidh & synthesis. A bharrachd air an sin, tha raon farsaing de dh’ atharrachaidhean suidheachaidh agus bearradh cùl-fhiosrachaidh anns na dealbhan sa chruinneachadh seo.

2. DOTA

DOTA (Seata-dàta de A ’lorg nithean ann an Dealbhan Adhair) na stòr-dàta mòr airson lorg nithean a tha a’ toirt a-steach 15 roinnean cumanta (me, bàta, itealan, càr, msaa), 1411 ìomhaigh airson trèanadh, agus 458 ìomhaigh airson dearbhadh.

3. Stòr-dàta coimeas Google Facial Expression

Ann an stòr-dàta coimeas facal aghaidh Google tha timcheall air 500,000 triplets dealbh, a’ toirt a-steach 156,000 dealbh aghaidh. Is fhiach a bhith mothachail gun deach co-dhiù sia luchd-tomhais daonna a chomharrachadh gach triplet san t-seata seo.

Tha an stòr-dàta seo feumail airson pròiseactan anns a bheil mion-sgrùdadh faireachdainn aghaidh, leithid lorg dhealbhan stèidhichte air faireachdainn, seòrsachadh faireachdainn, synthesis faireachdainn, agus mar sin air adhart. Gus faighinn chun an dàta, feumar foirm ghoirid a lìonadh.

4. Genome lèirsinneach

Tha dàta freagairt Ceist Lèirsinneach ann an àrainneachd ioma-roghainn ri fhaighinn ann an Visual Genome. Tha e air a dhèanamh suas de 101,174 dealbh MSCOCO le 1.7 millean paidhir QA, le cuibheasachd de 17 ceistean gach ìomhaigh.

An coimeas ris an dàta Freagairt Ceist Lèirsinneach, tha cuairteachadh nas cothromaiche aig an t-seata dàta Visual Genome thairis air sia seòrsaichean cheistean: Dè, Càite, Cuin, Cò, Carson, agus Ciamar.

A bharrachd air an sin, tha an stòr-dàta Visual Genome a’ toirt a-steach dealbhan 108K a chaidh an tagadh gu mòr le nithean, feartan agus ceanglaichean.

5. Leabhar-labhairt

Tha corpas LibriSpeech na chruinneachadh de mu 1,000 uair a thìde de leabhraichean claistinn bhon phròiseact LibriVox. Tha a’ mhòr-chuid de na leabhraichean claistinn a’ tighinn bho Project Gutenberg.

Tha an dàta trèanaidh air a roinn ann an trì earrannan de sheataichean 100hr, 360hr, agus 500hr, fhad ‘s a tha an dàta dev agus deuchainn timcheall air 5 uair de dh’ fhaid claisneachd.

6. Na bailtean-mòra

Canar The Cityscapes ri aon de na stòran-dàta mòr-sgèile as ainmeil de bhideothan stereo le seallaidhean bailteil.

Le notaichean mionaideach le piogsail a tha a’ toirt a-steach àiteachan GPS, an teòthachd a-muigh, dàta gluasad-ego, agus seallaidhean stereo ceart, tha e a’ toirt a-steach clàraidhean bho 50 baile-mòr Gearmailteach sònraichte.

7. Stòr-dàta Kinetics

Is e aon de na stòran-dàta bhidio as ainmeil airson a bhith ag aithneachadh gnìomhachd daonna air sgèile mhòr agus le deagh chàileachd an dàta Kinetics. Tha co-dhiù 600 criomag bhidio ann airson gach aon de na 600 clas gnìomhachd daonna, le còrr air 500,000 gu h-iomlan.

Chaidh na filmichean a tharraing bho YouTube; tha gach fear timcheall air 10 diogan a dh'fhaid agus chan eil ach aon chlas gnìomhachd air a liostadh.

8. CelebAMask-HQ

Tha CelebAMask-HQ na chruinneachadh de 30,000 dealbh aghaidh àrd-rùn le masgaichean le notaichean faiceallach agus 19 clasaichean a tha a’ toirt a-steach co-phàirtean aghaidh leithid craiceann, sròn, sùilean, mala, cluasan, beul, bilean, falt, ad, glainneachan, fàinne-cluaise, seud-muineil, amhaich, stuth.

Faodar an dàta a chleachdadh gus aithne aghaidh a dhearbhadh agus a thrèanadh, parsadh aghaidh, agus GANn airson algorithms gineadh aghaidh agus deasachadh.

9. Banca na Craoibhe

Is e corpas Beurla Penn Treebank (PTB) aon de na corpas as ainmeil agus as tric air a chleachdadh airson measadh mhodalan airson tagadh sreathach, gu sònraichte am pàirt den chorpas a tha co-chosmhail ri artaigilean Wall Street Journal.

Feumaidh a phàirt cainnte a bhith aig gach facal mar phàirt den obair. Ìre caractar agus ìre facal modaladh cànain cuideachd a’ cleachdadh a’ chorpais gu tric.

10. VoxCeleb

Tha VoxCeleb na sheata dàta aithneachaidh cainnt air sgèile mhòr a chaidh a chruthachadh gu fèin-ghluasadach bho meadhanan stòr fosgailte. Tha còrr air millean neach-labhairt aig VoxCeleb bho chòrr air 6k neach-labhairt.

Leis gu bheil an stòr-dàta a’ toirt a-steach lèir-chlaistinneach, faodar a chleachdadh airson grunn thagraidhean a bharrachd, a’ gabhail a-steach synthesis cainnt lèirsinneach, sgaradh cainnte, gluasad tar-mhodal bho aghaidh gu guth no a chaochladh, agus trèanadh aithne aghaidh bho bhidio gus cur ri aithne aghaidh gnàthach. stòran-dàta.

11. SIXray

Tha stòr-dàta SIXray a’ toirt a-steach 1,059,231 dealbhan X-ray air an cruinneachadh bho stèiseanan fo-thalamh agus air an comharrachadh le luchd-sgrùdaidh tèarainteachd daonna gus sia prìomh sheòrsan de nithean toirmisgte a lorg: dagaichean, sgeinean, ròineagan, cuilbhearan, siosar agus ùird. A bharrachd air an sin, chaidh bogsaichean crìche airson gach nì nach deach a cheadachadh a chuir ris na seataichean deuchainn le làimh gus measadh a dhèanamh air coileanadh sgìreachadh nithean.

12. Tubaistean na SA

Tha susbaint a’ phròiseict air fhoillseachadh mar-thà le ainm an t-seata dàta, US Accidents. Tha an dàta seo mu thubaistean càr air feadh na dùthcha a’ toirt a-steach fiosrachadh bhon Ghearran 2016 chun Dùbhlachd 2021 agus a’ còmhdach 49 stàitean anns na SA.

Tha timcheall air 1.5 millean clàr tubaist a-nis an làthair sa chruinneachadh seo. Chaidh a chruinneachadh ann an àm fìor le bhith a’ cleachdadh grunn APIan trafaic.

Bidh na APIan sin a’ sgaoileadh fiosrachadh trafaic a chaidh a chruinneachadh bho ghrunn stòran, a ’toirt a-steach camarathan trafaic, buidhnean cur an gnìomh lagha, agus roinnean còmhdhail na SA agus na stàite.

13. Aithneachadh Galar Ocular

Anns an stòr-dàta offthalmach eagraichte Aithneachadh Tinneas Ocular Galar Ocular (ODIR) tha fiosrachadh mu euslaintich 5,000, a’ toirt a-steach an aois, dath an fundus nan sùilean clì is deas, agus prìomh fhaclan sgrùdaidh proifeiseantaich meidigeach.

Tha an stòr-dàta seo na fhìor chruinneachadh de dhàta euslaintich bho dhiofar ospadalan agus goireasan meidigeach ann an Sìona a tha Shanggong Medical Technology Co., Earr. Le riaghladh smachd càileachd, chaidh notaichean a chomharrachadh le leughadairean daonna sgileil.

14. Galar cridhe

Bidh an stòr-dàta tinneas cridhe seo a’ cuideachadh le bhith a’ comharrachadh gu bheil tinneas cridhe ann an euslainteach stèidhichte air 76 paramamaidean leithid aois, gnè, seòrsa pian broilleach, cuideam fala fois, agus mar sin air adhart.

Le 303 cùis, tha an stòr-dàta a’ feuchainn ri dìreach eadar-dhealachadh a dhèanamh air gu bheil tinneas ann (luach 1,2,3,4) bhon neo-làthaireachd (luach 0).

15. CLEVR

Tha an stòr-dàta CLEVR (Cànan Co-sgrìobhaidh agus Adhbhar Lèirsinneach Bunasach) coltach ri Freagairt Ceist Lèirsinneach. Tha e air a dhèanamh suas de dhealbhan de stuthan 3D air an toirt seachad, le sreath de cheistean fìor sgrìobhadh an cois gach dealbh air an roinn ann an grunn roinnean.

Airson a h-uile dealbh agus ceist trèanaidh is dearbhaidh, tha an stòr-dàta a’ toirt a-steach 70,000 dealbh agus 700,000 ceist airson trèanadh, 15,000 ìomhaigh agus 150,000 ceist airson dearbhadh, agus 15,000 ìomhaigh agus 150,000 ceist airson deuchainn a’ toirt a-steach nithean, freagairtean, grafaichean seallaidh, agus prògraman gnìomh.

16. Dleastanasan Uile-choitcheann

Tha am pròiseact Universal Dependencies (UD) ag amas air morf-eòlas tar-chànanach a chruthachadh agus nota crann-craoibhe co-chòrdadh airson iomadh cànan. Tha dreach 2.7, a chaidh fhoillseachadh ann an 2020, le 183 bancaichean craoibhe ann an 104 cànan.

Tha an nota air a dhèanamh suas de tagaichean POW uile-choitcheann, cinn eisimeileachd, agus bileagan eisimeileachd uile-choitcheann.

17. KitTI - 360

Is e aon de na stòran-dàta as trice a chleachdar airson innealan-fuadain gluasadach agus dràibheadh fèin-riaghailteach Is e KITTI (Institiud Teicneòlais Karlsruhe agus Institiud Teicneòlais Toyota).

Tha e air a dhèanamh suas de luach uairean de shuidheachaidhean trafaic a chaidh a ghlacadh a’ cleachdadh raon de mhodhan mothachaidh, leithid RGB àrd-rèiteachaidh, stereo sgèile-grèine, agus camarathan sganair laser 3D. Chaidh an dàta a leasachadh thar ùine le grunn luchd-rannsachaidh a chuir an cèill le làimh diofar phàirtean dheth a rèir am feumalachdan.

18. MOT (lorg ioma-rud)

Tha MOT (Multiple Object Tracking) na sheata dàta airson lorg ioma-rud a tha a’ toirt a-steach seallaidhean a-staigh agus a-muigh ann an àiteachan poblach a tha a’ toirt a-steach luchd-coiseachd mar nithean inntinneach. Tha bhidio gach sealladh air a bhriseadh ann an dà phìos, aon airson trèanadh agus am fear eile airson deuchainn.

Tha an stòr-dàta a’ toirt a-steach lorg nithean ann am frèamaichean bhidio a’ cleachdadh trì lorgairean: SDP, Faster-RCNN, agus DPM.

19. Pascal 3D+

Tha stòr-dàta ioma-shealladh Pascal3D + air a dhèanamh suas de dhealbhan a chaidh a chruinneachadh san dùthaich, ie, ìomhaighean de roinnean nithean le caochlaideachd àrd, air an glacadh ann an suidheachaidhean neo-riaghlaidh, ann an àrainneachdan làn sluaigh, agus ann an grunn shuidheachaidhean. Tha Pascal3D + a’ toirt a-steach 12 roinnean de stuthan cruaidh air an tarraing bho stòr-dàta PASCAL VOC 2012.

Tha fiosrachadh postachd air na nithean sin air an comharrachadh (azimuth, àrdachadh, agus astar chun chamara). Tha Pascal3D + cuideachd a’ toirt a-steach dealbhan le notaichean bho chruinneachadh ImageNet anns na 12 roinnean sin.

20. Modalan aghaidh deformable de bheathaichean

Is e amas a’ phròiseict Modalan Aghaidh-Deformable de Bheathaichean (FDMA) dùbhlan a thoirt do dhòighean-obrach gnàthach ann an comharrachadh agus lorg comharran-aghaidh daonna agus a bhith a’ leasachadh algoirmean ùra a dhèiligeas ris an caochlaideachd gu math nas motha a tha àbhaisteach do fheartan aghaidh bheathaichean.

Sheall algorithms a’ phròiseict comas air comharran-tìre aithneachadh agus lorg air aghaidhean dhaoine fhad ‘s a bha iad a’ dèiligeadh ri caochlaidhean air adhbhrachadh le atharrachaidhean ann am faireachdainnean no suidheachadh aghaidh, cuid de dh’ occlusions, agus solais.

21. Stòr-dàta Post Daonna MPII

Ann an Seata Dàta Pose Daonna MPII tha timcheall air 25K de dhealbhan, 15K dhiubh sin nan sampallan trèanaidh, 3K dhiubh sin nan sampallan dearbhaidh, agus 7K dhiubh sin nan sampallan deuchainn.

Tha na dreuchdan air an ainmeachadh le làimh le suas ri 16 joints bodhaig, agus tha na dealbhan air an togail bho fhilmichean YouTube a’ còmhdach 410 diofar ghnìomhachd daonna.

22. UCF101

Ann an stòr-dàta UCF101 tha 13,320 criomag bhidio air an eagrachadh ann an 101 roinn. Tha na roinnean 101 seo air an roinn ann an còig roinnean: gluasadan bodhaig, eadar-obrachaidhean daonna-daonna, eadar-obrachaidhean daonna-rudeigin, cluich ionnsramaidean ciùil, agus spòrs.

Tha na bhideothan bho YouTube agus mairidh iad 27 uairean.

23. Seata-fuaim

Is e clàr-dàta tachartas claisneachd a th’ ann an Audioset air a dhèanamh suas de chòrr air 2 mhillean earrann bhidio 10-diog le notaichean daonna. Gus an dàta seo a chomharrachadh, thathas a’ cleachdadh ontology rangachd anns a bheil 632 seòrsa tachartas, a tha a’ ciallachadh gum faodadh an aon fhuaim a bhith air a chomharrachadh ann an dòigh eadar-dhealaichte.

24. Co-dhùnadh Cànan Nàdarra Stanford

Ann an stòr-dàta SNLI (Stanford Natural Language Inference) tha 570k de phaidhrichean seantans a chaidh an seòrsachadh le làimh mar eas-aonta, contrarrachd no neodrach.

Tha togalaichean mar thuairisgeulan dealbh Flickr30k, agus chaidh barailean a leasachadh le luchd-notaichean làn sluaigh a fhuair bunait agus a chaidh iarraidh orra aithrisean meallta, contrarra agus neodrach a ghineadh.

25. Freagairt Ceist Lèirsinneach

Is e seata dàta a th’ ann am Freagairt Ceist Lèirsinneach (VQA) anns a bheil ceistean fosgailte mu dhealbhan. Gus na ceistean sin a fhreagairt, feumaidh tu tuigse fhaighinn air lèirsinn, cànan agus mothachadh cumanta.

Co-dhùnadh

Mar a bhios ionnsachadh innealan agus inntleachd fuadain (AI) a’ fàs nas bitheanta anns cha mhòr a h-uile gnìomhachas agus nar beatha làitheil, mar sin tha an àireamh de ghoireasan agus fiosrachaidh a tha rim faighinn air a’ chuspair.

Tha stòran-dàta poblach deiseil a’ toirt deagh thoiseach tòiseachaidh airson modalan AI a leasachadh agus aig an aon àm a’ leigeil le prògramadairean ML eòlach ùine a shàbhaladh agus fòcas a chuir air eileamaidean eile de na pròiseactan aca.

Na seataichean dàta trèanaidh AI eile as fheàrr

25 seataichean dàta trèanaidh AI eile as fheàrr

1. Set dàta feartan CelebFaces

2. DOTA

3. Stòr-dàta coimeas Google Facial Expression

4. Genome lèirsinneach

5. Leabhar-labhairt

6. Na bailtean-mòra

7. Stòr-dàta Kinetics

8. CelebAMask-HQ

9. Banca na Craoibhe

10. VoxCeleb

11. SIXray

12. Tubaistean na SA

13. Aithneachadh Galar Ocular

14. Galar cridhe

15. CLEVR

16. Dleastanasan Uile-choitcheann

17. KitTI - 360

18. MOT (lorg ioma-rud)

19. Pascal 3D+

20. Modalan aghaidh deformable de bheathaichean

21. Stòr-dàta Post Daonna MPII

22. UCF101

23. Seata-fuaim

24. Co-dhùnadh Cànan Nàdarra Stanford

25. Freagairt Ceist Lèirsinneach

Co-dhùnadh

Mu dheidhinn Jay

Tuilleadh artaigilean air HashDork:

Mar as urrainn dhut hallucinations a lughdachadh anns an AI agad

Colossyan an aghaidh Heygen

Chan eil an Cuairt-litir Tech seo san àm ri teachd gu math

25 seataichean dàta trèanaidh AI eile as fheàrr

1. Set dàta feartan CelebFaces

2. DOTA

3. Stòr-dàta coimeas Google Facial Expression

4. Genome lèirsinneach

5. Leabhar-labhairt

6. Na bailtean-mòra

7. Stòr-dàta Kinetics

8. CelebAMask-HQ

9. Banca na Craoibhe

10. VoxCeleb

11. SIXray

12. Tubaistean na SA

13. Aithneachadh Galar Ocular

14. Galar cridhe

15. CLEVR

16. Dleastanasan Uile-choitcheann

17. KitTI - 360

18. MOT (lorg ioma-rud)

19. Pascal 3D+

20. Modalan aghaidh deformable de bheathaichean

21. Stòr-dàta Post Daonna MPII

22. UCF101

23. Seata-fuaim

24. Co-dhùnadh Cànan Nàdarra Stanford

25. Freagairt Ceist Lèirsinneach

Co-dhùnadh

Mu dheidhinn Jay

Tuilleadh artaigilean air HashDork:

Mar as urrainn dhut hallucinations a lughdachadh anns an AI agad

10 Innealan AI as Fheàrr airson Meadhanan Sòisealta

Colossyan an aghaidh Heygen

10 Innealan Dèanadair Bhidio Beothail AI as Fheàrr

Eadar-theangachadh Leughadair

Leave a Reply Sguir dhen fhreagairt

Chan eil an Cuairt-litir Tech seo san àm ri teachd gu math