విషయ సూచిక[దాచు][చూపండి]
కృత్రిమ మేధస్సు మరియు మెషిన్ లెర్నింగ్ కారణంగా ప్రపంచం త్వరగా మారుతోంది, ఇది మన దైనందిన జీవితంలోని ప్రతి అంశంపై ప్రభావం చూపుతుంది.
NLP మరియు మెషిన్ లెర్నింగ్ని ఉపయోగించే వాయిస్ అసిస్టెంట్ల నుండి అపాయింట్మెంట్లను బుక్ చేయడం, మా క్యాలెండర్లో ఈవెంట్లను వెతకడం మరియు సంగీతాన్ని ప్లే చేయడం చాలా ఖచ్చితమైన పరికరాల వరకు మేము వాటిని పరిగణనలోకి తీసుకోకముందే వారు మన అవసరాలను అంచనా వేయగలరు.
కంప్యూటర్లు చదరంగం ఆడగలవు, సర్జరీ చేయగలవు మరియు మెషీన్ లెర్నింగ్ అల్గారిథమ్ల సహాయంతో మరింత తెలివిగా, మరింత మానవుని వంటి యంత్రాలుగా అభివృద్ధి చెందుతాయి.
మేము నిరంతర సాంకేతిక అభివృద్ధి సమయంలో ఉన్నాము మరియు కంప్యూటర్లు కాలక్రమేణా ఎలా అభివృద్ధి చెందాయో చూడటం ద్వారా, భవిష్యత్తులో ఏమి జరుగుతుందో మనం అంచనా వేయవచ్చు.
కంప్యూటింగ్ సాధనాలు మరియు పద్ధతుల యొక్క ప్రజాస్వామ్యీకరణ ఈ విప్లవం యొక్క ముఖ్య అంశాలలో ఒకటి. డేటా శాస్త్రవేత్తలు అత్యాధునిక పద్ధతులను అప్రయత్నంగా అమలు చేయడం ద్వారా గత ఐదేళ్లలో శక్తివంతమైన డేటా-క్రంచింగ్ కంప్యూటర్లను రూపొందించారు. ఫలితాలు ఆశ్చర్యకరంగా ఉన్నాయి.
ఈ పోస్ట్లో, మేము నిశితంగా పరిశీలిస్తాము యంత్ర అభ్యాసం అల్గోరిథంలు మరియు వాటి అన్ని వైవిధ్యాలు.
కాబట్టి, మెషిన్ లెర్నింగ్ అల్గారిథమ్లు అంటే ఏమిటి?
AI సిస్టమ్ దాని పనిని నిర్వహించడానికి ఉపయోగించే విధానం-సాధారణంగా, ఇచ్చిన ఇన్పుట్ డేటా నుండి అవుట్పుట్ విలువలను అంచనా వేయడం-మెషిన్ లెర్నింగ్ అల్గారిథమ్ అంటారు.
మెషీన్ లెర్నింగ్ అల్గోరిథం అనేది డేటాను ఉపయోగించుకునే ప్రక్రియ మరియు ఉత్పత్తికి సిద్ధంగా ఉన్న మెషిన్ లెర్నింగ్ మోడల్లను రూపొందించడానికి ఉపయోగించబడుతుంది. మెషీన్ లెర్నింగ్ అనేది ఉద్యోగం చేసే రైలు అయితే, మెషీన్ లెర్నింగ్ అల్గారిథమ్లు పనిని కొనసాగించే లోకోమోటివ్లు.
మీరు పరిష్కరించడానికి ప్రయత్నిస్తున్న వ్యాపార సమస్య, మీరు ఉపయోగిస్తున్న డేటాసెట్ రకం మరియు మీరు అందుబాటులో ఉన్న వనరుల ద్వారా ఉపయోగించుకోవడానికి ఉత్తమ మెషీన్ లెర్నింగ్ విధానం నిర్ణయించబడుతుంది.
మెషిన్ లెర్నింగ్ అల్గారిథమ్లు డేటా సెట్ను మోడల్గా మార్చేవి. మీరు సమాధానం ఇవ్వడానికి ప్రయత్నిస్తున్న సమస్య రకం, అందుబాటులో ఉన్న ప్రాసెసింగ్ పవర్ మరియు మీ వద్ద ఉన్న డేటా రకాన్ని బట్టి, పర్యవేక్షించబడిన, పర్యవేక్షించబడని లేదా ఉపబల అభ్యాస అల్గారిథమ్లు బాగా పని చేస్తాయి.
కాబట్టి, మేము పర్యవేక్షించబడిన, పర్యవేక్షించబడని మరియు ఉపబల అభ్యాసం గురించి మాట్లాడాము, అయితే అవి ఏమిటి? వాటిని అన్వేషిద్దాం.
పర్యవేక్షించబడిన, పర్యవేక్షించబడని & ఉపబల అభ్యాసం
పర్యవేక్షించిన అభ్యాసం
పర్యవేక్షించబడే అభ్యాసంలో, అందించబడిన ఇన్పుట్ మరియు ఊహించిన ఫలితాన్ని సూచించే లేబుల్ ఆధారంగా AI మోడల్ అభివృద్ధి చేయబడింది. ఇన్పుట్లు మరియు అవుట్పుట్ల ఆధారంగా, మోడల్ మ్యాపింగ్ సమీకరణాన్ని అభివృద్ధి చేస్తుంది మరియు ఆ మ్యాపింగ్ సమీకరణాన్ని ఉపయోగించి, ఇది భవిష్యత్తులో ఇన్పుట్ల లేబుల్ను అంచనా వేస్తుంది.
కుక్క మరియు పిల్లి మధ్య తేడాను గుర్తించగల మోడల్ను మనం సృష్టించాలని అనుకుందాం. మోడల్కు శిక్షణ ఇవ్వడానికి పిల్లులు మరియు కుక్కల యొక్క బహుళ ఫోటోలు అవి పిల్లులా లేదా కుక్కలా అని సూచించే లేబుల్లతో మోడల్కి అందించబడతాయి.
ఆ చిత్రాలకు ఇన్పుట్ ఛాయాచిత్రాలపై లేబుల్లకు సంబంధించిన సమీకరణాన్ని రూపొందించడానికి మోడల్ ప్రయత్నిస్తుంది. మోడల్ ఇంతకు ముందు చిత్రాన్ని చూడకపోయినా, శిక్షణ తర్వాత, అది పిల్లి లేదా కుక్క అని గుర్తించగలదు.
పర్యవేక్షించబడని అభ్యాసం
పర్యవేక్షించబడని అభ్యాసం అనేది AI మోడల్ను లేబుల్ చేయకుండా ఇన్పుట్లపై మాత్రమే శిక్షణనిస్తుంది. మోడల్ ఇన్పుట్ డేటాను సంబంధిత లక్షణాలతో సమూహాలుగా విభజిస్తుంది.
ఇన్పుట్ యొక్క భవిష్యత్తు లేబుల్ దాని లక్షణాలు వర్గీకరణలలో ఒకదానికి ఎంత దగ్గరగా సరిపోలుతున్నాయనే దానిపై ఆధారపడి అంచనా వేయబడుతుంది. మేము ఎరుపు మరియు నీలం బంతుల సమూహాన్ని రెండు వర్గాలుగా విభజించాల్సిన పరిస్థితిని పరిగణించండి.
రంగు మినహా బంతుల ఇతర లక్షణాలు ఒకేలా ఉన్నాయని అనుకుందాం. ఇది బంతులను రెండు తరగతులుగా ఎలా విభజించగలదు అనే దాని ఆధారంగా, మోడల్ బంతుల మధ్య విభిన్నమైన లక్షణాల కోసం చూస్తుంది.
బంతుల్లో రెండు సమూహాలు-ఒక నీలం మరియు ఒక ఎరుపు-బంతులను వాటి రంగు ఆధారంగా రెండు సమూహాలుగా విభజించినప్పుడు ఉత్పత్తి అవుతాయి.
ఉపబల అభ్యాసం
రీన్ఫోర్స్మెంట్ లెర్నింగ్లో, AI మోడల్ ఒక నిర్దిష్ట పరిస్థితిలో అలాగే నటించడం ద్వారా మొత్తం లాభాన్ని పెంచుకోవడానికి ప్రయత్నిస్తుంది. దాని పూర్వ ఫలితాలపై అభిప్రాయం మోడల్ తెలుసుకోవడానికి సహాయపడుతుంది.
A మరియు B పాయింట్ల మధ్య మార్గాన్ని ఎంచుకోమని రోబోట్కు సూచించబడినప్పుడు దృష్టాంతం గురించి ఆలోచించండి. రోబోట్ ముందు అనుభవం లేని కారణంగా కోర్సులలో దేనినైనా ఎంచుకుంటుంది.
రోబోట్ తాను వెళ్ళే మార్గంలో ఇన్పుట్ని అందుకుంటుంది మరియు దాని నుండి జ్ఞానాన్ని పొందుతుంది. రోబోట్ తదుపరిసారి ఇలాంటి పరిస్థితిని ఎదుర్కొన్నప్పుడు సమస్యను పరిష్కరించడానికి ఇన్పుట్ను ఉపయోగించవచ్చు.
ఉదాహరణకు, రోబోట్ B ఎంపికను ఎంచుకుని, సానుకూల అభిప్రాయం వంటి రివార్డ్ను పొందినట్లయితే, అది తన రివార్డ్ను పెంచుకోవడానికి B మార్గాన్ని తప్పక ఎంచుకోవాలని ఈసారి అర్థం చేసుకుంది.
ఇప్పుడు చివరగా మీరందరూ ఎదురుచూస్తున్నది అల్గారిథమ్ల కోసం.
ప్రధాన యంత్ర అభ్యాస అల్గోరిథంలు
1. లీనియర్ రిగ్రెషన్
పర్యవేక్షించబడే అభ్యాసం నుండి వైదొలిగే సరళమైన మెషీన్ లెర్నింగ్ విధానం లీనియర్ రిగ్రెషన్. స్వతంత్ర వేరియబుల్స్ నుండి జ్ఞానంతో, ఇది రిగ్రెషన్ సమస్యలను పరిష్కరించడానికి మరియు నిరంతర డిపెండెంట్ వేరియబుల్స్పై అంచనాలను రూపొందించడానికి ఎక్కువగా ఉపయోగించబడుతుంది.
నిరంతర డిపెండెంట్ వేరియబుల్స్ కోసం ఫలితాన్ని అంచనా వేయడంలో సహాయపడే బెస్ట్ ఫిట్ లైన్ను కనుగొనడం లీనియర్ రిగ్రెషన్ యొక్క లక్ష్యం. ఇంటి ధరలు, వయస్సు మరియు వేతనాలు నిరంతర విలువలకు కొన్ని ఉదాహరణలు.
సాధారణ లీనియర్ రిగ్రెషన్ అని పిలువబడే మోడల్ ఒక స్వతంత్ర వేరియబుల్ మరియు ఒక డిపెండెంట్ వేరియబుల్ మధ్య అనుబంధాన్ని లెక్కించడానికి సరళ రేఖను ఉపయోగిస్తుంది. బహుళ లీనియర్ రిగ్రెషన్లో రెండు కంటే ఎక్కువ స్వతంత్ర వేరియబుల్స్ ఉన్నాయి.
ఒక లీనియర్ రిగ్రెషన్ మోడల్లో నాలుగు అంతర్లీన అంచనాలు ఉన్నాయి:
- రేఖీయత: X మరియు Y యొక్క సగటు మధ్య సరళ కనెక్షన్ ఉంది.
- హోమోస్కేడాస్టిసిటీ: X యొక్క ప్రతి విలువకు, అవశేష వ్యత్యాసం ఒకే విధంగా ఉంటుంది.
- స్వాతంత్ర్యం: స్వాతంత్ర్యం పరంగా పరిశీలనలు ఒకదానికొకటి స్వతంత్రంగా ఉంటాయి.
- సాధారణత: X స్థిరంగా ఉన్నప్పుడు, Y సాధారణంగా పంపిణీ చేయబడుతుంది.
పంక్తులలో వేరు చేయగల డేటా కోసం లీనియర్ రిగ్రెషన్ అద్భుతంగా పనిచేస్తుంది. ఇది రెగ్యులరైజేషన్, క్రాస్-వాలిడేషన్ మరియు డైమెన్షియాలిటీ రిడక్షన్ టెక్నిక్లను ఉపయోగించడం ద్వారా ఓవర్ఫిటింగ్ను నియంత్రించవచ్చు. అయినప్పటికీ, విస్తృతమైన ఫీచర్ ఇంజనీరింగ్ అవసరమయ్యే సందర్భాలు ఉన్నాయి, ఇది అప్పుడప్పుడు అతిగా అమర్చడం మరియు శబ్దానికి దారితీస్తుంది.
2. లాజిస్టిక్ రిగ్రెషన్
లాజిస్టిక్ రిగ్రెషన్ అనేది పర్యవేక్షించబడే అభ్యాసం నుండి బయలుదేరే మరొక యంత్ర అభ్యాస సాంకేతికత. దీని ప్రధాన ఉపయోగం వర్గీకరణ, అయితే ఇది రిగ్రెషన్ సమస్యలకు కూడా ఉపయోగించబడుతుంది.
స్వతంత్ర కారకాల నుండి సమాచారాన్ని ఉపయోగించి వర్గీకరణ ఆధారిత వేరియబుల్ను అంచనా వేయడానికి లాజిస్టిక్ రిగ్రెషన్ ఉపయోగించబడుతుంది. అవుట్పుట్లను వర్గీకరించడమే లక్ష్యం, ఇది 0 మరియు 1 మధ్య మాత్రమే వస్తుంది.
ఇన్పుట్ల యొక్క వెయిటెడ్ టోటల్ సిగ్మోయిడ్ ఫంక్షన్ ద్వారా ప్రాసెస్ చేయబడుతుంది, ఇది 0 మరియు 1 మధ్య విలువలను మార్చే యాక్టివేషన్ ఫంక్షన్.
లాజిస్టిక్ రిగ్రెషన్ యొక్క ఆధారం గరిష్ట సంభావ్యత అంచనా, నిర్దిష్ట గమనించిన డేటా ఇచ్చిన ఊహించిన సంభావ్యత పంపిణీ యొక్క పారామితులను లెక్కించడానికి ఒక పద్ధతి.
3. డెసిషన్ ట్రీ
పర్యవేక్షించబడే అభ్యాసం నుండి విడిపోయే మరొక యంత్ర అభ్యాస పద్ధతి నిర్ణయం చెట్టు. వర్గీకరణ మరియు తిరోగమన సమస్యలు రెండింటికీ, నిర్ణయం చెట్టు విధానాన్ని ఉపయోగించవచ్చు.
చెట్టును పోలి ఉండే ఈ నిర్ణయం తీసుకునే సాధనం, చర్యల భావి ఫలితాలు, ఖర్చులు మరియు పరిణామాలను చూపించడానికి దృశ్యమాన ప్రాతినిధ్యాలను ఉపయోగిస్తుంది. డేటాను వేర్వేరు భాగాలుగా విభజించడం ద్వారా, ఆలోచన మానవ మనస్సుకు సారూప్యంగా ఉంటుంది.
మేము గ్రాన్యులేట్ చేయగలిగినంత డేటా విభిన్న భాగాలుగా విభజించబడింది. డెసిషన్ ట్రీ యొక్క ప్రధాన లక్ష్యం టార్గెట్ వేరియబుల్ యొక్క తరగతిని అంచనా వేయడానికి ఉపయోగపడే శిక్షణ నమూనాను రూపొందించడం. తప్పిపోయిన విలువలు డెసిషన్ ట్రీని ఉపయోగించి స్వయంచాలకంగా నిర్వహించబడతాయి.
వన్-షాట్ ఎన్కోడింగ్, డమ్మీ వేరియబుల్స్ లేదా ఇతర డేటా ప్రీ-ట్రీట్మెంట్ దశల అవసరం లేదు. దీనికి తాజా డేటాను జోడించడం కష్టం అనే అర్థంలో ఇది కఠినమైనది. మీరు అదనపు లేబుల్ డేటాను పొందినట్లయితే, మీరు మొత్తం డేటాసెట్లో ట్రీకి మళ్లీ శిక్షణ ఇవ్వాలి.
ఫలితంగా, డైనమిక్ మోడల్ మార్పు అవసరమయ్యే ఏ అప్లికేషన్కైనా డెసిషన్ ట్రీలు సరైన ఎంపిక కాదు.
టార్గెట్ వేరియబుల్ రకం ఆధారంగా, నిర్ణయ వృక్షాలు రెండు రకాలుగా వర్గీకరించబడ్డాయి:
- కేటగిరీ వేరియబుల్: డెసిషన్ ట్రీ, దీనిలో గోల్ వేరియబుల్ వర్గీకరించబడుతుంది.
- నిరంతర వేరియబుల్: గోల్ వేరియబుల్ నిరంతరాయంగా ఉండే డెసిషన్ ట్రీ.
4. రాండమ్ ఫారెస్ట్
రాండమ్ ఫారెస్ట్ మెథడ్ తదుపరి మెషీన్ లెర్నింగ్ టెక్నిక్ మరియు వర్గీకరణ మరియు తిరోగమన సమస్యలలో విస్తృతంగా ఉపయోగించే పర్యవేక్షించబడే యంత్ర అభ్యాస అల్గారిథం. ఇది కూడా ఒక నిర్ణయ చెట్టు మాదిరిగానే చెట్టు ఆధారిత పద్ధతి.
చెట్ల అడవి, లేదా అనేక నిర్ణయ వృక్షాలు, తీర్పులు ఇవ్వడానికి యాదృచ్ఛిక అటవీ పద్ధతి ద్వారా ఉపయోగించబడుతుంది. వర్గీకరణ పనులను నిర్వహించేటప్పుడు, నిరంతర వేరియబుల్లను కలిగి ఉన్న డేటాసెట్లతో రిగ్రెషన్ టాస్క్లను నిర్వహించేటప్పుడు యాదృచ్ఛిక అటవీ పద్ధతి వర్గీకరణ వేరియబుల్లను ఉపయోగించింది.
సమిష్టి, లేదా అనేక నమూనాల మిక్సింగ్, యాదృచ్ఛిక అటవీ పద్ధతి చేస్తుంది, అంటే అంచనాలు కేవలం ఒకటి కాకుండా నమూనాల సమూహాన్ని ఉపయోగించి తయారు చేయబడతాయి.
ఆధునిక మెషీన్ లెర్నింగ్ సిస్టమ్స్లో మెజారిటీని కలిగి ఉన్న వర్గీకరణ మరియు రిగ్రెషన్ సమస్యలు రెండింటికీ ఉపయోగించగల సామర్థ్యం యాదృచ్ఛిక అటవీ యొక్క ముఖ్య ప్రయోజనం.
సమిష్టి ద్వారా రెండు వేర్వేరు వ్యూహాలు ఉపయోగించబడతాయి:
- బ్యాగింగ్: ఇలా చేయడం ద్వారా, శిక్షణ డేటాసెట్ కోసం మరింత డేటా ఉత్పత్తి చేయబడుతుంది. అంచనాలలో వైవిధ్యాన్ని తగ్గించడానికి, ఇది జరుగుతుంది.
- బూస్టింగ్ అనేది వరుస నమూనాలను రూపొందించడం ద్వారా బలహీనమైన అభ్యాసకులను బలమైన అభ్యాసకులతో కలపడం, దీని ఫలితంగా తుది నమూనా గరిష్ట ఖచ్చితత్వంతో ఉంటుంది.
5. నైవ్ బేస్
బైనరీ (రెండు-తరగతి) మరియు బహుళ-తరగతి వర్గీకరణ సమస్యను నైవ్ బేయెస్ టెక్నిక్ ఉపయోగించి పరిష్కరించవచ్చు. బైనరీ లేదా కేటగిరీ ఇన్పుట్ విలువలను ఉపయోగించి పద్ధతిని వివరించినప్పుడు, దానిని గ్రహించడం చాలా సులభం. ఒక నైవ్ బేస్ వర్గీకరణదారు చేసిన ఊహ ఏమిటంటే, ఒక తరగతిలో ఒక లక్షణం ఉనికిలో ఏ ఇతర లక్షణాల ఉనికిపై ఎటువంటి ప్రభావం ఉండదు.
పై సూత్రం సూచిస్తుంది:
- P(H): పరికల్పన H సరైనదని సంభావ్యత. ముందస్తు సంభావ్యతను ఇలా సూచిస్తారు.
- P(E): సాక్ష్యం యొక్క సంభావ్యత
- P(E|H): సాక్ష్యం ద్వారా పరికల్పనకు మద్దతు లభించే అవకాశం.
- P(H|E): సాక్ష్యాలను బట్టి పరికల్పన నిజమయ్యే అవకాశం.
ఈ గుణాలు ఒకదానితో ఒకటి అనుసంధానించబడినప్పటికీ, ఒక నిర్దిష్ట ఫలితం యొక్క సంభావ్యతను నిర్ణయించేటప్పుడు ఒక నైవ్ బేయెస్ వర్గీకరణ ఈ లక్షణాలను ఒక్కొక్కటిగా పరిగణనలోకి తీసుకుంటుంది. నైవ్ బయేసియన్ మోడల్ నిర్మించడం సులభం మరియు పెద్ద డేటాసెట్ల కోసం ప్రభావవంతంగా ఉంటుంది.
ఇది ప్రాథమికంగా ఉన్నప్పుడు అత్యంత సంక్లిష్టమైన వర్గీకరణ పద్ధతుల కంటే మెరుగైన పనితీరును కనబరుస్తుంది. ఇది ఒకే పద్ధతిలో కాకుండా బేయెస్ సిద్ధాంతంపై ఆధారపడిన అల్గారిథమ్ల సమాహారం.
6. K-సమీప పొరుగువారు
K-సమీప పొరుగువారి (kNN) సాంకేతికత అనేది పర్యవేక్షించబడే యంత్ర అభ్యాసం యొక్క ఉపసమితి, ఇది వర్గీకరణ మరియు తిరోగమన సమస్యలను పరిష్కరించడానికి ఉపయోగించబడుతుంది. KNN అల్గోరిథం పోల్చదగిన వస్తువులు సమీపంలోని కనుగొనవచ్చని ఊహిస్తుంది.
సారూప్యత గల వ్యక్తుల కలయికగా నేను దానిని గుర్తుచేసుకున్నాను. kNN సామీప్యత, సాన్నిహిత్యం లేదా దూరాన్ని ఉపయోగించి ఇతర డేటా పాయింట్ల మధ్య సారూప్యత ఆలోచనను సద్వినియోగం చేస్తుంది. సమీపంలోని లేబుల్ చేయబడిన పరిశీలించదగిన డేటా పాయింట్ల ఆధారంగా కనిపించని డేటాను లేబుల్ చేయడానికి, గ్రాఫ్లోని పాయింట్ల మధ్య విభజనను గుర్తించడానికి గణిత పద్ధతిని ఉపయోగిస్తారు.
సమీప పోల్చదగిన ప్రదేశాలను గుర్తించడానికి మీరు తప్పనిసరిగా డేటా పాయింట్ల మధ్య దూరాన్ని నిర్ణయించాలి. యూక్లిడియన్ దూరం, హామింగ్ దూరం, మాన్హట్టన్ దూరం మరియు మింకోవ్స్కీ దూరం వంటి దూర కొలతలను దీని కోసం ఉపయోగించవచ్చు. K ని సమీప పొరుగు సంఖ్య అని పిలుస్తారు మరియు ఇది తరచుగా బేసి సంఖ్య.
KNN వర్గీకరణ మరియు తిరోగమన సమస్యలకు వర్తించవచ్చు. KNN రిగ్రెషన్ సమస్యలకు ఉపయోగించినప్పుడు చేసిన అంచనా K-అత్యంత సారూప్య సంఘటనల సగటు లేదా మధ్యస్థం ఆధారంగా ఉంటుంది.
KNN ఆధారంగా వర్గీకరణ అల్గోరిథం యొక్క ఫలితం K అత్యంత సారూప్య సంఘటనలలో అత్యధిక పౌనఃపున్యం కలిగిన తరగతిగా నిర్ణయించబడుతుంది. ప్రతి సందర్భం తప్పనిసరిగా వారి తరగతికి ఓటు వేయబడుతుంది మరియు అంచనా ఎక్కువగా ఓట్లను పొందిన తరగతికి చెందినది.
7. K-అంటే
ఇది క్లస్టరింగ్ సమస్యలను పరిష్కరించే పర్యవేక్షించబడని అభ్యాసానికి ఒక సాంకేతికత. డేటా సెట్లు నిర్దిష్ట సంఖ్యలో క్లస్టర్లుగా విభజించబడ్డాయి—కాల్ లెట్స్ ఇట్ K—ఈ విధంగా ప్రతి క్లస్టర్ యొక్క డేటా పాయింట్లు సజాతీయంగా మరియు ఇతర క్లస్టర్లలోని వాటి నుండి భిన్నంగా ఉంటాయి.
K- అంటే క్లస్టరింగ్ మెథడాలజీ:
- ప్రతి క్లస్టర్ కోసం, K-అంటే అల్గోరిథం k సెంట్రాయిడ్లు లేదా పాయింట్లను ఎంచుకుంటుంది.
- సమీప సెంట్రాయిడ్లు లేదా K క్లస్టర్లతో, ప్రతి డేటా పాయింట్ ఒక క్లస్టర్ను ఏర్పరుస్తుంది.
- ఇప్పుడు, ఇప్పటికే ఉన్న క్లస్టర్ సభ్యులపై ఆధారపడి కొత్త సెంట్రాయిడ్లు ఉత్పత్తి చేయబడ్డాయి.
- ఈ అప్డేట్ చేయబడిన సెంట్రాయిడ్లను ఉపయోగించి ప్రతి డేటా పాయింట్కి దగ్గరి దూరం లెక్కించబడుతుంది. సెంట్రాయిడ్లు మారని వరకు, ఈ ప్రక్రియ పునరావృతమవుతుంది.
ఇది వేగంగా, మరింత నమ్మదగినది మరియు అర్థం చేసుకోవడం సులభం. సమస్యలు ఉన్నట్లయితే, k-మీన్స్ యొక్క అనుకూలత సర్దుబాట్లను సులభతరం చేస్తుంది. డేటాసెట్లు ఒకదానికొకటి భిన్నంగా లేదా బాగా వేరు చేయబడినప్పుడు, ఫలితాలు ఉత్తమంగా ఉంటాయి. ఇది అస్థిరమైన డేటా లేదా అవుట్లయర్లను నిర్వహించదు.
8. సపోర్ట్ వెక్టర్ మెషీన్లు
డేటాను వర్గీకరించడానికి SVM టెక్నిక్ని ఉపయోగిస్తున్నప్పుడు, ముడి డేటా n-డైమెన్షనల్ స్పేస్లో చుక్కలుగా చూపబడుతుంది (ఇక్కడ n అనేది మీరు కలిగి ఉన్న లక్షణాల సంఖ్య). ప్రతి ఫీచర్ యొక్క విలువ నిర్దిష్ట కోఆర్డినేట్కు కనెక్ట్ చేయబడినందున డేటాను సులభంగా వర్గీకరించవచ్చు.
డేటాను వేరు చేయడానికి మరియు వాటిని గ్రాఫ్లో ఉంచడానికి, వర్గీకరణదారులు అని పిలువబడే పంక్తులను ఉపయోగించండి. ఈ విధానం ప్రతి డేటా పాయింట్ను n-డైమెన్షనల్ స్పేస్లో ఒక పాయింట్గా ప్లాట్ చేస్తుంది, ఇక్కడ n అనేది మీరు కలిగి ఉన్న లక్షణాల సంఖ్య మరియు ప్రతి ఫీచర్ యొక్క విలువ నిర్దిష్ట కోఆర్డినేట్ విలువ.
మేము ఇప్పుడు డేటాను విభిన్నంగా వర్గీకరించబడిన రెండు సెట్ల డేటాగా విభజించే పంక్తిని గుర్తిస్తాము. ప్రతి రెండు గ్రూపులలోని సమీప బిందువుల నుండి దూరాలు ఈ రేఖ వెంట చాలా దూరంగా ఉంటాయి.
ఎగువ ఉదాహరణలో ఉన్న రేఖ నుండి చాలా దగ్గరగా ఉన్న రెండు పాయింట్లు చాలా దూరంలో ఉన్నందున, డేటాను విభిన్నంగా వర్గీకరించబడిన రెండు సమూహాలుగా విభజించే పంక్తి మధ్య రేఖ. మా వర్గీకరణ ఈ లైన్.
9. డైమెన్షనాలిటీ తగ్గింపు
డైమెన్షియాలిటీ తగ్గింపు విధానాన్ని ఉపయోగించి, శిక్షణ డేటా తక్కువ ఇన్పుట్ వేరియబుల్లను కలిగి ఉండవచ్చు. సరళంగా చెప్పాలంటే, ఇది మీ ఫీచర్ సెట్ పరిమాణాన్ని కుదించే ప్రక్రియను సూచిస్తుంది. మీ డేటాసెట్లో 100 నిలువు వరుసలు ఉన్నాయని ఊహించుకుందాం; డైమెన్షియాలిటీ తగ్గింపు ఆ మొత్తాన్ని 20 నిలువు వరుసలకు తగ్గిస్తుంది.
మోడల్ స్వయంచాలకంగా మరింత అధునాతనంగా పెరుగుతుంది మరియు ఫీచర్ల సంఖ్య పెరిగే కొద్దీ ఓవర్ ఫిట్ అయ్యే ప్రమాదం ఎక్కువగా ఉంటుంది. ఎక్కువ డైమెన్షన్లలో డేటాతో పని చేయడంలో అతిపెద్ద సమస్య ఏమిటంటే, "డైమెన్షియాలిటీ యొక్క శాపం" అని పిలుస్తారు, ఇది మీ డేటా అధిక సంఖ్యలో లక్షణాలను కలిగి ఉన్నప్పుడు సంభవిస్తుంది.
డైమెన్షియాలిటీ తగ్గింపును సాధించడానికి క్రింది మూలకాలను ఉపయోగించవచ్చు:
- సంబంధిత లక్షణాలను కనుగొని ఎంచుకోవడానికి, ఫీచర్ ఎంపిక ఉపయోగించబడుతుంది.
- ఇప్పటికే ఉన్న ఫీచర్లను ఉపయోగించి, ఫీచర్ ఇంజనీరింగ్ మాన్యువల్గా కొత్త ఫీచర్లను సృష్టిస్తుంది.
ముగింపు
పర్యవేక్షించబడని లేదా పర్యవేక్షించబడే యంత్ర అభ్యాసం రెండూ సాధ్యమే. మీ డేటా తక్కువ సమృద్ధిగా ఉంటే మరియు శిక్షణ కోసం బాగా ట్యాగ్ చేయబడితే పర్యవేక్షించబడే అభ్యాసాన్ని ఎంచుకోండి.
పెద్ద డేటా సెట్లు పర్యవేక్షించబడని అభ్యాసాన్ని ఉపయోగించి తరచుగా పని చేస్తాయి మరియు మెరుగైన ఫలితాలను ఉత్పత్తి చేస్తాయి. డీప్ లెర్నింగ్ మీరు తక్షణమే అందుబాటులో ఉండే గణనీయమైన డేటా సేకరణను కలిగి ఉంటే పద్ధతులు ఉత్తమమైనవి.
ఉపబల అభ్యాసం మరియు లోతైన ఉపబల అభ్యాసం మీరు అధ్యయనం చేసిన కొన్ని అంశాలు. న్యూరల్ నెట్వర్క్ల లక్షణాలు, ఉపయోగాలు మరియు పరిమితులు ఇప్పుడు మీకు స్పష్టంగా ఉన్నాయి. చివరిది కానీ, మీరు మీ స్వంతంగా సృష్టించడానికి వచ్చినప్పుడు వివిధ ప్రోగ్రామింగ్ భాషలు, IDEలు మరియు ప్లాట్ఫారమ్ల కోసం ఎంపికలను పరిగణించారు. యంత్ర అభ్యాస నమూనాలు.
మీరు చేయవలసిన తదుపరి విషయం ఏమిటంటే, ప్రతి ఒక్కటి అధ్యయనం చేయడం మరియు ఉపయోగించడం ప్రారంభించడం యంత్ర అభ్యాసం విధానం. సబ్జెక్ట్ విశాలమైనా, డెప్త్ పై దృష్టి పెడితే ఏ టాపిక్ అయినా కొన్ని గంటల్లోనే అర్థమవుతుంది. ప్రతి విషయం ఇతరుల నుండి ఒంటరిగా ఉంటుంది.
మీరు ఒక సమయంలో ఒక సమస్య గురించి ఆలోచించాలి, దానిని అధ్యయనం చేయాలి, ఆచరణలో పెట్టాలి మరియు దానిలోని అల్గారిథమ్(ల)ని అమలు చేయడానికి మీకు నచ్చిన భాషను ఉపయోగించాలి.
సమాధానం ఇవ్వూ