د ماشین زده کړې هره پروژه په ښه ډیټا سیټ تکیه کوي. دا دا لوی ډیټاسیټ دی چې تاسو ته به اجازه درکړي چې ستاسو د ML ماډل روزنه او تصدیق کړئ. نو، په ML پروژه کې د کار لویه برخه ستاسو د اړتیاو لپاره مناسب ډیټاسیټ موندل دي. په هرصورت، دا تل ممکنه نه ده چې یو انتخاب ومومئ چې ستاسو د هیلو سره سمون ولري، ځکه چې ډیری فایلونه چې په زړه پورې ښکاري، په پای کې ندي.
دا د بې شمیره ډیټاسیټونو ډاونلوډ کولو وخت ضایع کول خورا ګران کیدی شي تر هغه چې تاسو یو مثالي سیټ ته ورسیږئ. د دې په پام کې نیولو سره، موږ ځینې اختیارونه راټول کړي چې په زړه پورې ښکاري او ستاسو د ML پروژې پراختیا کې مرسته کولی شي. په یاد ولرئ چې ځینې یې د سوداګریزې کارونې پرځای شخصي لپاره دي، نو دا اختیارونه د ML کائنات کې تجربه ترلاسه کولو لپاره د یوې لارې په توګه وګورئ.
د ډیټاسیټونو اساسات
مخکې له دې چې موږ د ډیټاسیټونو یادونه وکړو، موږ باید ځینې شرایط تعریف کړو. د مصنوعي استخباراتو په پروژو کې، په ځانګړې توګه ماشین د زده کړېد ډیټا لوی مقدار ته اړتیا ده، کوم چې د الګوریتم روزلو لپاره کارول کیږي. د معلوماتو دا مقدار په ډیټابیس کې راټول شوي، کوم چې د الګوریتم ښوولو لپاره خورا ګټور دی.
د دې معلوماتو سره، الګوریتم روزل شوی - هم ازمول شوی - او د دې وړتیا لري چې نمونې ومومي، اړیکې رامینځته کړي او په دې توګه په خپلواکه توګه پریکړې وکړي. پرته له روزنې، ماشین د زده کړې الګوریتمونه نشي کولی کوم عمل ترسره کړي. له همدې امله، د روزنې ډیټا ښه، غوره ماډل به ترسره کړي. د دې لپاره چې ډیټابیس د پروژې لپاره ګټور وي، دا د مقدار په اړه ندي: دا د ډلبندۍ په اړه هم دی.
په عین حال کې، ډاټا باید په ښه توګه لیبل شي. د chatbots قضیې په اړه فکر وکړئ: د ژبې داخلول مهم دي، مګر محتاط ترکیب تحلیل باید ترسره شي ترڅو رامینځته شوی الګوریتم پوه شي کله چې متقابل سلینګ کاروي. یوازې بیا به مجازی معاون وکولی شي د هغه څه سره سم ځواب پیل کړي چې د کارونکي لخوا غوښتنه شوې وه.
ډاټا سیټونه د سروې، د کاروونکو پیرود ډاټا، په خدماتو کې پاتې شوي ارزونې، او په ډیرو نورو لارو کې چې د CSV فایل کې په کالمونو او قطارونو کې تنظیم شوي ګټور معلومات راټولولو ته اجازه ورکوي تولید کیدی شي.
مخکې له دې چې تاسو د کامل ډیټاسیټ په لټه کې شئ، دا مهمه ده چې تاسو د خپلې پروژې هدف پوه شئ، په ځانګړې توګه که دا د یوې ځانګړې سیمې څخه وي، لکه هوا، مالیه، روغتیا، او داسې نور. دا به هغه سرچینه وټاکي چې تاسو به یې ستاسو سرچینه وي. ډیټاسیټ
د ML لپاره ډاټا سیټونه
د چټ بوټ روزنه
یو اغیزمن چیټ بوټ د روزنې ډیری ډیټا ته اړتیا لري ترڅو د انسان مداخلې پرته د کاروونکو پوښتنو ګړندي حل کړي. په هرصورت، د چیټ بوټ پراختیا کې لومړنی خنډ د دې ماشین زده کړې پراساس سیسټمونو روزلو لپاره ریښتیني ، د دندې پر بنسټ ډیالوګ ډیټا ترلاسه کول دي.
د خبرو اترو ډیټاسیټ د پوښتنې او ځواب په بڼه معلومات راټولوي. دا د چیټ بوټونو روزنې لپاره مثالی دی چې لیدونکو ته به اتومات ځوابونه ورکړي. د دې معلوماتو پرته، چیټ بوټ به د کاروونکي پوښتنو په چټکۍ سره حل کولو یا د بشري مداخلې اړتیا پرته د کاروونکو پوښتنو ته ځواب ووايي.
د دې ډیټاسیټونو په کارولو سره ، سوداګرۍ کولی شي داسې وسیله رامینځته کړي چې پیرودونکو ته 24/7 ګړندي ځوابونه چمتو کوي او د پیرودونکو ملاتړ کولو خلکو ټیم درلودلو په پرتله خورا ارزانه دی.
1. د پوښتنې ځواب ډیټا سیټ
دا ډیټا سیټ د ویکیپیډیا مقالو، پوښتنو او د دوی اړوند په لاسي ډول تولید شوي ځوابونه وړاندې کوي. دا د 2008 او 2010 ترمنځ د کارولو لپاره راټول شوي ډیټا سیټ دی اکادمیک څیړنه.
2. د ژبې ډاټا
د ژبې ډیټا یو ډیټابیس دی چې د یاهو لخوا اداره کیږي د شرکت د ځینو خدماتو څخه رامینځته شوي معلوماتو سره لکه یاهو! ځواب، کوم چې د کاروونکو لپاره د پوښتنو او ځوابونو پوسټ کولو لپاره د خلاصې ټولنې په توګه کار کوي.
3. WikiQA
د WikiQA کورپس هم د پوښتنو او ځوابونو یوه ټولګه لري. د پوښتنو سرچینه Bing ده، پداسې حال کې چې ځوابونه د ویکیپیډیا پاڼې سره اړیکه لري چې احتمال لري د لومړنۍ پوښتنې حل کړي.
په ټولیز ډول، په ډیټاسیټ کې له 3,000 څخه ډیر پوښتنې او د 29,258 جملو یوه مجموعه شتون لري چې شاوخوا 1,400 یې د ورته پوښتنې د ځوابونو په توګه طبقه بندي شوي.
د حکومت معلومات
د دولتونو لخوا رامینځته شوي ډیټا سیټونه د ډیموګرافیک ډیټا راوړي ، کوم چې د ټولنیزو رجحاناتو درک کولو ، عامه پالیسیو رامینځته کولو او د ټولنې ښه کولو پورې اړوند پروژو لپاره خورا ښه معلومات دي. دا د سیاسي کمپاینونو، هدفي اعلاناتو، یا د بازار تحلیل لپاره ګټور کیدی شي.
دا ډیټاسیټونه عموما نامعلوم معلومات لري، نو پداسې حال کې چې ماډل کولی شي خام ډیټا ته لاسرسی ومومي، د شخصي محرمیت هیڅ سرغړونه شتون نلري.
4. ډاټا.gov
په 2009 کې پیل شوی، Data.gov د معلوماتو لپاره د شمالي امریکا سرچینه ده. د دې کتلاګ اغیزمن دی: له 218,000 څخه ډیر ډیټاسیټونه چې د فارمیټ ، ټاګونو ، ډولونو او موضوعاتو له مخې ویشلو ته اجازه ورکوي.
5. د EU خلاص ډیټا پورټل
د EU خلاص ډیټا پورټل د اروپایی اتحادیې د ادارو لخوا شریک شوي خلاص ډیټا ته لاسرسی چمتو کوي. دا هغه معلومات دي چې د سوداګریزو او غیر تجارتي استعمال لپاره ټاکل کیدی شي. د کارونکي په اختیار کې له 15.5 زرو څخه ډیر ډیټاسیټونه دي چې د روغتیا ، انرژي ، چاپیریال ، کلتور او تعلیم په څیر موضوعات پوښي.
د روغتیا معلومات
په ټوله نړۍ کې د روان روغتیا بحران په پایله کې، د روغتیا سازمانونو لخوا رامینځته شوي ډیټاسیټونه د ژوند ژغورلو لپاره د مؤثره حلونو رامینځته کولو لپاره اړین دي. دا ډیټاسیټونه کولی شي د خطر فکتورونو پیژندلو کې مرسته وکړي، د ناروغۍ لیږد نمونې کار وکړي، او تشخیص ګړندی کړي.
دا ډیټاسیټونه د روغتیا ریکارډونو، د ناروغانو ډیموګرافیک، د ناروغۍ خپریدل، د درملو کارول، تغذیه ارزښتونه او نور ډیر څه لري.
6. د نړیوال روغتیا څارونکي
دا ډاټا سیټ د نړیوال روغتیا سازمان (WHO) نوښت دی. دا د روغتیا په بیلابیلو برخو پورې اړوند عامه معلومات چمتو کوي چې د موضوعاتو لخوا تنظیم شوي لکه روغتیایی سیسټمونه ، د تنباکو کارولو کنټرول ، زیږون ، HIV/AIDS او داسې نور. د COVID-19 په اړه د معلوماتو سره مشوره کولو اختیار هم شتون لري.
7. کارډ-۱۹
CORD-19 د COVID-19 په اړه د علمي خپرونو او د نوي کورونویرس په اړه نورو مقالو یوه ډله ده. دا یو خلاص ډیټا سیټ دی چې هدف یې د COVID-19 په اړه نوي لیدونه رامینځته کول دي.
د اقتصاد معلومات
د مالي چاپیریال پورې اړوند ډیټاسیټونه معمولا خورا لوی معلومات راټولوي، ځکه چې دا معمول دی چې دوی د اوږدې مودې لپاره راټول شوي. دوی د اقتصادي وړاندوینې رامینځته کولو یا د پانګوونې رجحاناتو رامینځته کولو لپاره غوره دي.
د سم مالي ډیټاسیټونو سره، a د ماشین زده کړې ماډل کیدای شي د ورکړل شوې شتمنۍ د چلند وړاندوینه وکړي. له همدې امله مالي سکټور په خپل ځواک کې د اغیزمن ML ماډل رامینځته کولو لپاره هرڅه کوي ، ځکه چې هر هغه څه چې حتی په معقول ډول یې وړاندوینه کولی شي د ملیونونو ډالرو تولید ظرفیت لري. د ماشین زده کړه لا دمخه د اتباعو د چلند وړاندوینه کوي، کوم چې د پالیسي جوړونکو د دندو په ترسره کولو اغیزه کوي.
8. د پیسو نړیوال صندوق
د IMF ډیټاسیټ یو لړ اقتصادي او مالي شاخصونه، د غړو هیوادونو احصایې، او نور پور او د تبادلې نرخ ډیټا لري.
9. نړیوال بانک
د نړیوال بانک ذخیره د مختلفو هیوادونو اقتصادي معلوماتو سره مختلف ډیټاسیټونه لري. له 17,000 څخه ډیر ډیټاسیټونه د براعظمونو لخوا ویشل شوي.
د محصول او خدماتو بیاکتنې
د احساس تحلیل خپل غوښتنلیکونه په بیلابیلو برخو کې موندلي چې اوس له تصدیو سره مرسته کوي ترڅو د خپلو پیرودونکو یا پیرودونکو څخه په سمه توګه اټکل او زده کړي. د احساساتو تحلیل په زیاتیدونکي توګه د ټولنیزو رسنیو څارنې، د برانډ نظارت، د پیرودونکي غږ (VoC)، د پیرودونکي خدمت، او د بازار څیړنې لپاره کارول کیږي.
د احساس تحلیل NLP کاروي (د نیورو ژبپوهنې پروګرام) میتودونه او الګوریتمونه چې یا د قواعدو پر بنسټ، هایبرډ دي، یا د ډیټاسیټونو څخه د معلوماتو زده کولو لپاره د ماشین زده کړې تخنیکونو باندې تکیه کوي.
د احساساتو تحلیل کې اړین معلومات باید ځانګړي وي او په لوی مقدار کې اړین وي. د احساساتو تحلیلي روزنې پروسې په اړه ترټولو ننګونې برخه په لوی مقدار کې د معلوماتو موندل ندي؛ پرځای یې، دا د اړونده ډیټاسیټونو موندل دي. دا ډیټا سیټونه باید د احساساتو تحلیلي غوښتنلیکونو پراخه ساحه پوښي او قضیې وکاروي.
10. د ایمیزون بیاکتنې
دا ډیټاسیټ شاوخوا 35 ملیون ایمیزون بیاکتنې لري، د راټول شویو معلوماتو د 18 کلنې دورې په اوږدو کې. دا د محصول، کاروونکي، او بیاکتنې منځپانګې ډیټاسیټ دی.
11. Yelp بیاکتنې
Yelp د دې خدمت څخه راټول شوي معلوماتو پراساس ډیټاسیټ هم وړاندې کوي. دلته له 8 ملیون څخه ډیر بیاکتنې ، 1 ملیون لارښوونې ، او د سوداګرۍ پورې اړوند نږدې 1.5 ملیون ځانګړتیاوې شتون لري ، لکه د خلاصیدو ساعتونه او شتون.
12. د IMDB بیاکتنې
دا ډیټابیس د روزنې لپاره د 25 زره څخه ډیر فلم بیاکتنې او نور 25 زره د ازموینې لپاره چې د IMDB پاڼې څخه په غیر رسمي ډول اخیستل شوي ، د فلم درجه بندي کې تخصص لري. دا د اضافي په توګه بې لیبل شوي ډاټا هم وړاندیز کوي.
په ML کې د لومړي ګامونو لپاره ډیټاسیټونه
13. د شرابو کیفیت ډیټاسیټ
دا ډیټاسیټ د شرابو اړوند معلومات وړاندې کوي، سور او شنه دواړه، په شمالي پرتګال کې تولید شوي. هدف د فزیکو کیمیکل ازموینو پراساس د شراب کیفیت تعریف کول دي. د هغو کسانو لپاره په زړه پوري چې غواړي د وړاندوینې سیسټم رامینځته کولو تمرین وکړي.
14. د تایټانیک ډیټاسیټ
دا ډیټا سیټ د ټایټانیک څخه د 887 اصلي مسافرینو ډاټا راوړي، په هر کالم کې دا مشخص کوي چې آیا دوی ژوندي پاتې شوي، د دوی عمر، د مسافرینو ټولګي، جنسیت، او د بورډینګ فیس چې دوی یې تادیه کړی. دا ډیټا سیټ د هغه ننګونې برخه وه چې د کاګل پلیټ فارم لخوا پیل شوې وه، چې موخه یې دا وه چې داسې ماډل رامینځته کړي چې اټکل وکړي کوم مسافرین د ټایټانیک د ډوبیدو څخه ژوندي پاتې شوي.
د نورو ډیټاسیټونو موندلو لپاره پلیټ فارمونه
که تاسو غواړئ نور لاړ شئ او خپل ډیټاسیټ ومومئ ، غوره لاره دا ده چې د خورا مشهور ذخیره کولو له لارې لټون وکړئ. ماشین د زده کړې کائنات:
کاګل
کیګل، د ګوګل LLC یوه فرعي شرکت، د ډیټا ساینس پوهانو او د ماشین زده کړې مسلکيانو آنلاین ټولنه ده. کیګل کاروونکو ته اجازه ورکوي چې ډیټاسیټونه ومومي او خپاره کړي ، د ویب میشته ډیټا ساینس چاپیریال کې ماډلونه وپلټي او رامینځته کړي؛ د نورو ډیټا ساینس پوهانو سره کار وکړئ او د ماشین زده کړې انجنیران، او د ډیټا ساینس ننګونو حل کولو لپاره په سیالیو کې برخه واخلئ.
کیګل په 2010 کې د ماشین زده کړې سیالۍ وړاندیز کولو سره پیل وکړ او اوس عامه وړاندیز هم کوي د معلوماتو پلیټ فارم، د ډیټا ساینس او مصنوعي استخباراتو زده کړې لپاره د کلاوډ میشته کاري بینچ.
د ډیټاسیټ لټون
د ډیټاسیټ لټون د ګوګل لخوا د لټون انجن دی چې له څیړونکو سره مرسته کوي آنلاین ډیټا ومومي کوم چې د کارولو لپاره په وړیا توګه شتون لري. په ټوله ویب کې، د نږدې هرې موضوع په اړه ملیونونه ډیټاسیټونه شتون لري چې ستاسو سره علاقه لري.
که تاسو د ګوډاګی پیرودلو په لټه کې یاست، تاسو کولی شئ ډیټاسیټونه ومومئ چې د ګوډاګی پیرودونکو شکایتونه یا د ګوډاګی پیژندنې په اړه مطالعات راټولوي. یا که تاسو سکیینګ خوښ کړئ، تاسو کولی شئ د سکي ریسارټونو عاید یا د ټپي کیدو نرخونو او د ګډون شمیرې په اړه معلومات ومومئ. د ډیټاسیټ لټون د دې ډیټا سیټونو نږدې 25 ملیون لیست کړی ، تاسو ته د ډیټا سیټونو لټون کولو لپاره یو واحد ځای درکوي او لینکونه ومومئ چیرې چې ډیټا شتون لري.
د UCI ماشین زده کړې ذخیره
د UCI ماشین زده کړې ذخیره د ډیټابیسونو ، ډومین تیوريونو ، او ډیټا جنراتورونو ټولګه ده چې د ماشین زده کړې ټولنې لخوا د ماشین زده کړې الګوریتمونو تجربوي تحلیل لپاره کارول کیږي. آرشیف په 1987 کې د ډیویډ آها او په UC ارویین کې د ملګرو فارغینو زده کونکو لخوا د ftp آرشیف په توګه رامینځته شوی.
له هغه وخت راهیسې، دا په ټوله نړۍ کې د زده کونکو، ښوونکو، او څیړونکو لخوا په پراخه کچه د ML ډیټاسیټونو لومړنۍ سرچینې په توګه کارول کیږي. د ارشیف د اغیزې د یوې نښې په توګه، دا د 1000 څخه ډیر ځله حواله شوی، چې دا د کمپیوټر ساینس په ټولو برخو کې د 100 تر ټولو لوړ حواله شوي "کاغذونو" څخه یو جوړوي.
قندیل
Quandl یو پلیټ فارم دی چې خپلو کاروونکو ته اقتصادي، مالي او بدیل ډیټاسیټونه چمتو کوي. کاروونکي کولی شي وړیا ډیټا ډاونلوډ کړي ، تادیه شوي ډیټا واخلي یا کوانډل ته ډیټا وپلوري. دا د پرمختګ لپاره ګټور وسیله کیدی شي د سوداګرۍ الګوریتم، مثلا.
پایله
د دې وسیلو په سپړلو سره، تاسو ډاډه یاست چې د خپلو پروژو لپاره خورا ښه معلومات ومومئ. ډاډ ترلاسه کړئ چې هغه ډیټاسیټ غوره کړئ چې ستاسو د ځانګړي اړتیاو لپاره خورا مناسب وي او تل په پام کې ونیسئ: دا یوازې د مقدار په اړه ندي ، بلکه کیفیت هم. ډیټاسیټ د هر یو اساس دی د ماشین زده کړې پروژه او دا اړینه ده چې د کیفیت ډیټا رامینځته کړئ ترڅو د غلطو پایلو ته رسیدو خطر څخه مخنیوی وشي.
یو ځواب ورکړئ ووځي