සින්තටික් දත්ත පැහැදිලි කර ඇත - AI, ML සහ DL හි මීළඟ විශාල දේ

පටුන[සඟවන්න][පෙන්වන්න]

ඉතින්, සින්තටික් දත්ත යනු කුමක්ද?
කෘතිම දත්ත වැදගත් වන්නේ කෙසේද සහ ඔබ එය භාවිතා කළ යුත්තේ ඇයි?+-
සැබෑ දත්ත Vs කෘතිම දත්ත
නඩු භාවිතා කරන්න+-
සින්තටික් දත්ත සහ යන්ත්‍ර ඉගෙනීම
ඔබට කෘතිම දත්ත උත්පාදනය කළ හැක්කේ කෙසේද?+-
සින්තටික් දත්තවල අභියෝග සහ සීමාවන්
අනාගතය
නිගමනය

උසස් විශ්ලේෂණ සහ යන්ත්‍ර ඉගෙනුම් වැඩසටහන් දත්ත මගින් මෙහෙයවනු ලැබේ, නමුත් පෞද්ගලිකත්වය සහ ව්‍යාපාරික ක්‍රියා පටිපාටි සමඟ ඇති අභියෝග හේතුවෙන් එම දත්ත වෙත ප්‍රවේශ වීම විද්වතුන්ට අපහසු විය හැකිය.

කෘත්‍රිම දත්ත, බෙදාහදා ගත හැකි සහ සත්‍ය දත්තවලට කළ නොහැකි ආකාරයෙන් භාවිතා කළ හැකි අතර, එය හඹා යා හැකි නව දිශානතියකි. කෙසේ වෙතත්, මෙම නව උපාය මාර්ග අනතුරු හෝ අවාසි වලින් තොර නොවේ, එබැවින් ව්‍යාපාර ඔවුන් තම සම්පත් භාවිතා කරන්නේ කොතැනද සහ කෙසේද යන්න හොඳින් සලකා බැලීම ඉතා වැදගත් වේ.

AI හි වර්තමාන යුගයේදී, දත්ත යනු නව තෙල් බව අපට ප්‍රකාශ කළ හැකිය, නමුත් තෝරාගත් කිහිප දෙනෙකු පමණක් ගුෂර් එකක වාඩි වී සිටිති. එමනිසා, බොහෝ මිනිසුන් තමන්ගේම ඉන්ධන නිෂ්පාදනය කරයි, එය දැරිය හැකි සහ කාර්යක්ෂම වේ. එය කෘතිම දත්ත ලෙස හැඳින්වේ.

මෙම පෝස්ටුවේදී, අපි කෘත්‍රිම දත්ත-ඔබ එය භාවිතා කළ යුත්තේ ඇයි, එය නිෂ්පාදනය කරන්නේ කෙසේද, එය සත්‍ය දත්තවලට වඩා වෙනස් කරන්නේ කුමක්ද, එය සේවය කළ හැකි භාවිත අවස්ථා සහ තවත් බොහෝ දේ පිළිබඳව සවිස්තරාත්මකව බලන්නෙමු.

ඉතින්, සින්තටික් දත්ත යනු කුමක්ද?

ගුණාත්මකභාවය, සංඛ්‍යාව හෝ විවිධත්වය අනුව අව්‍යාජ දත්ත කට්ටල ප්‍රමාණවත් නොවන විට, සැබෑ ඓතිහාසික දත්ත වෙනුවට AI ආකෘති පුහුණු කිරීමට කෘතිම දත්ත භාවිතා කළ හැක.

පවතින දත්ත ව්‍යාපාරික අවශ්‍යතා තෘප්තිමත් නොකරන විට හෝ සංවර්ධනය කිරීමට භාවිතා කරන විට පුද්ගලිකත්ව අවදානම් ඇති විට යන්ත්ර ඉගෙනීම ආකෘති, පරීක්ෂණ මෘදුකාංග, හෝ ඒ හා සමාන, කෘතිම දත්ත ආයතනික AI උත්සාහයන් සඳහා සැලකිය යුතු මෙවලමක් විය හැක.

සරලව කිවහොත්, සත්‍ය දත්ත වෙනුවට කෘතිම දත්ත නිතර භාවිතා වේ. වඩාත් නිවැරදිව, එය කෘත්‍රිමව ටැග් කර ඇති සහ සමාකරණ හෝ පරිගණක ඇල්ගොරිතම මගින් නිපදවන ලද දත්ත වේ.

කෘතිම දත්ත

සින්තටික් දත්ත යනු සත්‍ය සිදුවීම්වල ප්‍රතිඵලයක් ලෙස නොව කෘත්‍රිමව පරිගණක වැඩසටහනක් මඟින් නිර්මාණය කරන ලද තොරතුරු වේ. සියලුම භාවිත සහ අන්ත තත්වයන් ආවරණය කිරීමට, දත්ත රැස් කිරීමේ පිරිවැය අඩු කිරීමට, හෝ පෞද්ගලිකත්ව රෙගුලාසි තෘප්තිමත් කිරීමට සමාගම්වලට ඔවුන්ගේ පුහුණු දත්ත වලට කෘතිම දත්ත එක් කළ හැක.

වලාකුළු වැනි සැකසුම් බලය සහ දත්ත ගබඩා කිරීමේ ක්‍රමවල වැඩිදියුණු කිරීම්වලට ස්තුතිවන්ත වන පරිදි කෘතිම දත්ත දැන් වෙන කවරදාටත් වඩා ප්‍රවේශ විය හැකිය. කෘත්‍රිම දත්ත මගින් සියලුම අවසාන පරිශීලකයින් සඳහා වඩාත් ප්‍රයෝජනවත් වන AI විසඳුම් නිර්මාණය වැඩි දියුණු කරන අතර එය නිසැකවම හොඳ වර්ධනයකි.

කෘතිම දත්ත වැදගත් වන්නේ කෙසේද සහ ඔබ එය භාවිතා කළ යුත්තේ ඇයි?

AI ආකෘති පුහුණු කරන විට, සංවර්ධකයින්ට නිරවද්‍ය ලේබල් කිරීම සහිත විශාල දත්ත කට්ටල නිතර අවශ්‍ය වේ. වඩාත් විවිධාකාර දත්ත සමඟ උගන්වන විට, ස්නායු ජාල වඩාත් නිවැරදිව ඉටු කරන්න.

කෙසේ වෙතත්, අයිතම සිය ගණනක් හෝ මිලියන ගණනක් අඩංගු මෙම දැවැන්ත දත්ත කට්ටල එක්රැස් කිරීම සහ ලේබල් කිරීම අසාධාරණ ලෙස කාලය හා මුදල් වැය කළ හැකිය. කෘතිම දත්ත භාවිතා කිරීමෙන් පුහුණු දත්ත නිෂ්පාදනය කිරීමේ මිල විශාල ලෙස අඩු කළ හැකිය. උදාහරණයක් ලෙස, කෘත්‍රිමව නිර්මාණය කළහොත්, a වෙතින් මිලදී ගත් විට ඩොලර් 5ක් වැය වන පුහුණු රූපයක් දත්ත ලේබල් සපයන්නා වැය වන්නේ ඩොලර් 0.05 ක් පමණි.

කෘත්‍රිම දත්ත මගින් සැබෑ ලෝකයෙන් ජනනය කළ හැකි සංවේදී දත්තවලට අදාළ පෞද්ගලිකත්වය පිළිබඳ ගැටළු සමනය කළ හැකි අතරම වියදම් අඩු කරයි.

සැබෑ ලෝකය පිළිබඳ සම්පූර්ණ කරුණු වර්ණාවලිය නිශ්චිතව පිළිබිඹු කළ නොහැකි අව්‍යාජ දත්ත හා සැසඳීමේදී, එය අගතිය අඩු කිරීමට උපකාරී වේ. පිළිගත හැකි හැකියාවන් නියෝජනය කරන නමුත් නීත්‍යානුකූල දත්ත ලබා ගැනීම අභියෝගාත්මක විය හැකි අසාමාන්‍ය සිදුවීම් ලබා දීමෙන්, කෘතිම දත්ත වලට වැඩි විවිධත්වයක් ලබා දිය හැක.

පහත ලැයිස්තුගත කර ඇති හේතු නිසා ඔබේ ව්‍යාපෘතිය සඳහා කෘත්‍රිම දත්ත ඉතා හොඳින් ගැලපේ.

1. ආකෘතියේ ශක්තිමත් බව

එය අත්පත් කර ගැනීමකින් තොරව, ඔබේ ආකෘති සඳහා වඩාත් විවිධාකාර දත්ත වෙත ප්රවේශ වන්න. කෘත්‍රිම දත්ත සමඟින්, ඔබට විවිධ කොණ්ඩා කැපීම්, මුහුණේ රෝම, කණ්ණාඩි, හිස ඉරියව් ආදිය සහිත එකම පුද්ගලයාගේ ප්‍රභේදයන් මෙන්ම සමේ ස්වරය, ජනවාර්ගික ගති ලක්ෂණ, අස්ථි ව්‍යුහය, ලප කැළැල් සහ වෙනත් ගතිලක්ෂණ සමඟින් ඔබට ඔබේ ආකෘතිය පුහුණු කළ හැකිය. මුහුණට මුහුණලා එය ශක්තිමත් කරන්න.

2. එජ් නඩු සැලකිල්ලට ගනී

සමබර විය දත්ත කට්ටලය යන්ත්‍ර ඉගෙනීම මගින් වඩාත් කැමති වේ ඇල්ගොරිතම. මුහුණු හඳුනාගැනීමේ අපගේ උදාහරණය නැවත සිතන්න. ඔවුන්ගේ ආකෘතිවල නිරවද්‍යතාවය වැඩිදියුණු වීමට ඉඩ තිබුණි (සහ ඇත්ත වශයෙන්ම, මෙම ව්‍යාපාරවලින් සමහරක් මෙය සිදු කර ඇත), සහ ඔවුන්ගේ දත්ත හිඩැස් පිරවීම සඳහා අඳුරු සමක් ඇති මුහුණු පිළිබඳ කෘතිම දත්ත නිෂ්පාදනය කළේ නම් ඔවුන් වඩාත් සදාචාරාත්මක ආකෘතියක් නිෂ්පාදනය කරනු ඇත. කෘත්‍රිම දත්ත ආධාරයෙන් දත්ත හිඟ හෝ නොපවතින අන්ත අවස්ථා ඇතුළුව සියලුම භාවිත අවස්ථා කණ්ඩායම්වලට ආවරණය කළ හැක.

3. එය "සැබෑ" දත්ත වලට වඩා ඉක්මනින් ලබා ගත හැක

කෘත්‍රිම දත්ත විශාල ප්‍රමාණයක් ඉක්මනින් ජනනය කිරීමට කණ්ඩායම්වලට හැකි වේ. සැබෑ ජීවිතයේ දත්ත වරින් වර සිදුවන සිදුවීම් මත රඳා පවතින විට මෙය විශේෂයෙන් ප්‍රයෝජනවත් වේ. නිදසුනක් වශයෙන්, ඔවුන්ගේ දුර්ලභත්වය හේතුවෙන් ස්වයං-රිය පදවන මෝටර් රථයක් සඳහා දත්ත රැස් කරන අතරතුර දරුණු මාර්ග තත්වයන් පිළිබඳ ප්‍රමාණවත් සැබෑ ලෝක දත්ත ලබා ගැනීම කණ්ඩායම්වලට අපහසු විය හැකිය. වෙහෙසකර විවරණ ක්‍රියාවලිය වේගවත් කිරීම සඳහා, දත්ත විද්‍යාඥයින්ට කෘත්‍රිම දත්ත ජනනය වන විට ස්වයංක්‍රීයව ලේබල් කිරීමට ඇල්ගොරිතම සකස් කළ හැක.

4. එය පරිශීලක රහස්‍යතා තොරතුරු සුරක්ෂිත කරයි

ව්‍යාපාරය සහ දත්ත වර්ගය අනුව සංවේදී දත්ත හැසිරවීමේදී සමාගම්වලට ආරක්ෂක දුෂ්කරතා ඇති විය හැක. නිදසුනක් වශයෙන්, පුද්ගලික සෞඛ්‍ය තොරතුරු (PHI), සෞඛ්‍ය සේවා කර්මාන්තයේ නේවාසික රෝගීන්ගේ දත්තවල නිතර ඇතුළත් වන අතර උපරිම ආරක්ෂාව සහිතව හැසිරවිය යුතුය.

කෘතිම දත්තවල සැබෑ පුද්ගලයින් පිළිබඳ තොරතුරු ඇතුළත් නොවන නිසා, පෞද්ගලිකත්ව ගැටලු අඩු වේ. ඔබේ කණ්ඩායමට ඇතැම් දත්ත රහස්‍යතා නීති පිළිපැදිය යුතු නම් විකල්පයක් ලෙස කෘතිම දත්ත භාවිතා කිරීම සලකා බලන්න.

සැබෑ දත්ත Vs කෘතිම දත්ත

සැබෑ ලෝකයේ සැබෑ දත්ත ලබා ගැනීම හෝ මනිනු ලැබේ. යමෙකු ස්මාර්ට් ජංගම දුරකතනයක්, ලැප්ටොප් පරිගණකයක් හෝ පරිගණකයක් භාවිතා කරන විට, අත් ඔරලෝසුවක් පැළඳ සිටින විට, වෙබ් අඩවියකට පිවිසෙන විට හෝ මාර්ගගත ගනුදෙනුවක් කරන විට, මේ ආකාරයේ දත්ත ක්ෂණිකව ජනනය වේ.

මීට අමතරව, සත්‍ය දත්ත (මාර්ගගත සහ නොබැඳි) සැපයීමට සමීක්ෂණ භාවිතා කළ හැක. ඩිජිටල් සැකසුම් කෘතිම දත්ත නිෂ්පාදනය කරයි. කිසිදු තත්‍ය-ලෝක සිදුවීම් වලින් ව්‍යුත්පන්න නොවූ කොටස හැර, මූලික ගුණාංග අනුව සත්‍ය දත්ත සාර්ථකව අනුකරණය කරන ආකාරයෙන් කෘතිම දත්ත නිර්මාණය වේ.

සත්‍ය දත්ත සඳහා ආදේශකයක් ලෙස කෘත්‍රිම දත්ත භාවිතා කිරීමේ අදහස ඉතා යහපත් ය, මන්ද එය සැපයීමට භාවිතා කළ හැකි බැවිනි. යන්ත්‍ර ඉගෙනීමේ පුහුණු දත්ත ආකෘති අවශ්ය වේ. නමුත් ඒක ස්ථිර නැහැ කෘතිම බුද්ධිය සැබෑ ලෝකයේ පැන නගින සෑම ප්රශ්නයක්ම විසඳා ගත හැකිය.

නඩු භාවිතා කරන්න

සින්තටික් දත්ත ආකෘති පුහුණුව, ආකෘති වලංගු කිරීම සහ නව නිෂ්පාදන පරීක්ෂා කිරීම ඇතුළු විවිධ වාණිජ අරමුණු සඳහා ප්‍රයෝජනවත් වේ. යන්ත්‍ර ඉගෙනීම සඳහා එහි යෙදුමට මඟ පෑදූ අංශ කිහිපයක් අපි ලැයිස්තුගත කරන්නෙමු:

1. සෞඛ්ය සත්කාර

එහි දත්තවල සංවේදීතාව අනුව, සෞඛ්‍ය සේවා අංශය කෘතිම දත්ත භාවිතය සඳහා හොඳින් ගැලපේ. පවතින සෑම ආකාරයකම රෝගියෙකුගේ කායික විද්‍යාව වාර්තා කිරීමට කණ්ඩායම් විසින් කෘත්‍රිම දත්ත භාවිතා කළ හැකි අතර එමඟින් රෝගාබාධ ඉක්මනින් හා වඩාත් නිවැරදිව හඳුනා ගැනීමට උපකාරී වේ.

සෞඛ්ය සත්කාර

Google හි මෙලනෝමා හඳුනාගැනීමේ ආකෘතිය මෙයට කුතුහලය දනවන නිදර්ශනයකි, මන්ද එය අඳුරු සමේ වර්ණ ඇති පුද්ගලයින්ගේ කෘතිම දත්ත (කනගාටුදායක ලෙස අඩුවෙන් නියෝජනය වන සායනික දත්ත ප්‍රදේශයක්) ආකෘතියට සියලු සම වර්ග සඳහා ඵලදායී ලෙස ක්‍රියා කිරීමේ හැකියාව ලබා දෙයි.

2. මෝටර් රථ

කාර්ය සාධනය තක්සේරු කිරීම සඳහා ස්වයං-රියදුරු මෝටර් රථ නිර්මාණය කරන සමාගම් විසින් සිමියුලේටර් නිතර භාවිතා කරයි. කාලගුණය කටුක වන විට, උදාහරණයක් ලෙස, සැබෑ මාර්ග දත්ත රැස් කිරීම අවදානම් හෝ අපහසු විය හැකිය.

ස්වයං පැදවීමේ කාර්

විවිධ රිය පැදවීමේ අවස්ථාවන්හිදී සැලකිල්ලට ගත නොහැකි තරම් විචල්‍යයන් ඇති බැවින් මාර්ගවල සැබෑ මෝටර් රථ සමඟ සජීවී පරීක්ෂණ මත විශ්වාසය තැබීම සාමාන්‍යයෙන් හොඳ අදහසක් නොවේ.

3. දත්ත අතේ ගෙන යා හැකි හැකියාව

ඔවුන්ගේ පුහුණු දත්ත අන් අය සමඟ බෙදා ගැනීමට හැකි වීමට, ආයතනවලට විශ්වාසදායක සහ ආරක්ෂිත ක්‍රම අවශ්‍ය වේ. දත්ත කට්ටලය පොදු කිරීමට පෙර පුද්ගලිකව හඳුනාගත හැකි තොරතුරු (PII) සැඟවීම කෘතිම දත්ත සඳහා තවත් කුතුහලය දනවන යෙදුමකි. PII අඩංගු විය හැකි විද්‍යාත්මක පර්යේෂණ දත්ත කට්ටල, වෛද්‍ය දත්ත, සමාජ විද්‍යාත්මක දත්ත, සහ වෙනත් ක්ෂේත්‍ර හුවමාරු කර ගැනීම පුද්ගලිකත්වය ආරක්ෂා කරන කෘතිම දත්ත ලෙස හැඳින්වේ.

4. ආරක්ෂක

කෘතිම දත්ත වලට ස්තුති වන්නට සංවිධාන වඩාත් ආරක්ෂිතයි. අපගේ මුහුණු හඳුනාගැනීමේ උදාහරණය සම්බන්ධයෙන් නැවතත්, ගොතන ලද ඡායාරූප හෝ වීඩියෝ විස්තර කරන “ගැඹුරු ව්‍යාජ” වාක්‍ය ඛණ්ඩය ඔබට හුරුපුරුදු විය හැක. ඔවුන්ගේම මුහුණු හඳුනාගැනීම් සහ ආරක්ෂක පද්ධති පරීක්ෂා කිරීම සඳහා ව්‍යාපාර විසින් ගැඹුරු ව්‍යාජයන් නිෂ්පාදනය කළ හැකිය. සින්තටික් දත්ත වීඩියෝ ඔත්තු බැලීමේ දී වඩාත් ඉක්මනින් සහ අඩු වියදමකින් ආකෘති පුහුණු කිරීම සඳහා භාවිතා වේ.

සින්තටික් දත්ත සහ යන්ත්‍ර ඉගෙනීම

ඝන සහ විශ්වාසදායක ආකෘතියක් ගොඩනැගීමට, යන්ත්‍ර ඉගෙනුම් ඇල්ගොරිතම සැකසීමට සැලකිය යුතු දත්ත ප්‍රමාණයක් අවශ්‍ය වේ. කෘතිම දත්ත නොමැති විට, මෙතරම් විශාල දත්ත පරිමාවක් නිෂ්පාදනය කිරීම අභියෝගාත්මක වනු ඇත.

පරිගණක දැක්ම හෝ රූප සැකසීම වැනි වසම් වල, මුල් කෘත්‍රිම දත්ත සංවර්ධනය මගින් ආකෘති සංවර්ධනයට පහසුකම් සැලසෙන විට, එය අතිශයින් වැදගත් විය හැක. පින්තූර හඳුනාගැනීමේ ක්‍ෂේත්‍රයේ නව වර්ධනයක් වන්නේ උත්පාදක විරුද්ධවාදී ජාල (GANs) භාවිතයයි. සාමාන්යයෙන් ජාල දෙකකින් සමන්විත වේ: උත්පාදක යන්ත්රයක් සහ වෙනස්කම් කරන්නා.

වෙනස් කොට සැලකීමේ ජාලය ව්‍යාජ ඡායාරූපවලින් සැබෑ ඡායාරූප වෙන් කිරීම අරමුණු කරන අතර, සැබෑ ලෝකයේ රූපවලට සැලකිය යුතු තරම් සමාන කෘතිම රූප නිපදවීමට උත්පාදක ජාලය ක්‍රියා කරයි.

යන්ත්‍ර ඉගෙනීමේදී, GAN යනු ස්නායුක ජාල පවුලේ උප කුලකයක් වන අතර, ජාල දෙකම නව නෝඩ් සහ ස්තර එකතු කිරීමෙන් අඛණ්ඩව ඉගෙන ගෙන සංවර්ධනය කරයි.

සින්තටික් දත්ත නිර්මාණය කිරීමේදී, ආකෘතියේ කාර්ය සාධනය වැඩි දියුණු කිරීම සඳහා අවශ්‍ය පරිදි පරිසරය සහ දත්ත වර්ගය වෙනස් කිරීමට ඔබට හැකියාව ඇත. කෘත්‍රිම දත්ත සඳහා නිරවද්‍යතාවය ප්‍රබල ලකුණු සමඟ පහසුවෙන් ලබාගත හැකි අතර, ලේබල් කළ තත්‍ය කාලීන දත්ත සඳහා නිරවද්‍යතාව විටින් විට අතිශයින් මිල අධික විය හැක.

ඔබට කෘතිම දත්ත උත්පාදනය කළ හැක්කේ කෙසේද?

කෘතිම දත්ත එකතුවක් නිර්මාණය කිරීම සඳහා භාවිතා කරන ප්‍රවේශයන් පහත පරිදි වේ:

සංඛ්‍යානමය ව්‍යාප්තිය මත පදනම්ව

මෙම අවස්ථාවෙහිදී භාවිතා කරන උපාය මාර්ගය වන්නේ බෙදාහැරීමේ සිට අංක ලබා ගැනීම හෝ සැසඳිය හැකි ලෙස පෙනෙන ව්‍යාජ දත්ත නිර්මාණය කිරීම සඳහා සත්‍ය සංඛ්‍යානමය බෙදාහැරීම් බැලීමයි. සමහර තත්වයන් තුළ සැබෑ දත්ත සම්පූර්ණයෙන්ම නොමැති විය හැක.

දත්ත විද්‍යාඥයෙකුට සත්‍ය දත්තවල සංඛ්‍යානමය ව්‍යාප්තිය පිළිබඳ ගැඹුරු ග්‍රහණයක් තිබේ නම් ඕනෑම ව්‍යාප්තියක අහඹු නියැදියක් අඩංගු දත්ත කට්ටලයක් ජනනය කළ හැක. සාමාන්‍ය ව්‍යාප්තිය, ඝාතීය ව්‍යාප්තිය, චි-චතුරශ්‍රය ව්‍යාප්තිය, ලඝු-සාමාන්‍ය ව්‍යාප්තිය සහ තවත් බොහෝ දේ මෙය කිරීමට භාවිතා කළ හැකි සංඛ්‍යාන සම්භාවිතා ව්‍යාප්තිය සඳහා උදාහරණ කිහිපයක් පමණි.

තත්ත්වය පිළිබඳ දත්ත විද්‍යාඥයාගේ අත්දැකීම් මට්ටම පුහුණු ආකෘතියේ නිරවද්‍යතාවයට සැලකිය යුතු බලපෑමක් ඇති කරනු ඇත.

ආකෘතිය අනුව

මෙම තාක්ෂණය අහඹු දත්ත උත්පාදනය කිරීමට එම ආකෘතිය භාවිතා කිරීමට පෙර නිරීක්ෂණය කරන ලද හැසිරීම් සඳහා ගිණුම් කරන ආකෘතියක් ගොඩනඟයි. සාරාංශයක් ලෙස, මෙය දන්නා ව්‍යාප්තියක දත්තවලට සැබෑ දත්ත සවි කිරීම ඇතුළත් වේ. මොන්ටේ කාලෝ ප්‍රවේශය පසුව ව්‍යාජ දත්ත නිර්මාණය කිරීමට සමාගම්වලට භාවිතා කළ හැකිය.

මීට අමතරව, බෙදාහැරීම් ද භාවිතයෙන් සවි කළ හැකිය යන්ත්‍ර ඉගෙනුම් ආකෘති තීරණ ගස් වගේ. දත්ත විද්‍යා .යන් තීරන ගස් සාමාන්‍යයෙන් ඒවායේ සරල බව සහ ගැඹුර ප්‍රසාරණය වීම නිසා අධික ලෙස ගැළපෙන බැවින්, අනාවැකි කෙරෙහි අවධානය යොමු කළ යුතුය.

ගැඹුරු ඉගෙනීම සමඟ

ගැඹුරු ඉගෙනුම විචල්‍ය ස්වයංක්‍රීය කේතකයක් (VAE) හෝ උත්පාදක ප්‍රතිවිරෝධක ජාලයක් (GAN) භාවිතා කරන ආකෘති කෘතිම දත්ත සෑදීමට ක්‍රම දෙකකි. අධීක්ෂණය නොකළ යන්ත්‍ර ඉගෙනුම් ආකෘතිවලට VAE ඇතුළත් වේ.

ඒවා සෑදී ඇත්තේ මුල් දත්ත හැකිලෙන සහ සංයුක්ත කරන කේතකයන්ගෙන් සහ සත්‍ය දත්ත නියෝජනය කිරීම සඳහා මෙම දත්ත පරීක්ෂා කරන විකේතකයන්ගෙන්. ආදාන සහ ප්‍රතිදාන දත්ත හැකිතාක් සමානව තබා ගැනීම VAE හි මූලික අරමුණයි. ප්‍රතිවිරුද්ධ ස්නායු ජාල දෙකක් වන්නේ GAN ආකෘති සහ විරුද්ධවාදී ජාලයි.

ජෙනරේටර් ජාලය ලෙස හඳුන්වන පළමු ජාලය ව්‍යාජ දත්ත නිෂ්පාදනය භාරව සිටී. වෙනස් කොට සැලකීමේ ජාලය, දෙවන ජාලය, දත්ත කට්ටලය වංචනික ද යන්න හඳුනා ගැනීමට උත්සාහයක් ලෙස නිර්මාණය කරන ලද කෘතිම දත්ත සත්‍ය දත්ත සමඟ සංසන්දනය කිරීමෙන් ක්‍රියා කරයි. ව්‍යාජ දත්ත කට්ටලයක් සොයාගත් විට වෙනස්කම් කරන්නා උත්පාදක යන්ත්‍රයට අනතුරු අඟවයි.

වෙනස්කම් කරන්නාට සපයන ලද පහත දත්ත කාණ්ඩය පසුව උත්පාදක යන්ත්රය විසින් වෙනස් කරනු ලැබේ. එහි ප්‍රතිඵලයක් වශයෙන්, ව්‍යාජ දත්ත කට්ටල හඳුනාගැනීමේදී වෙනස්කම් කරන්නා කාලයත් සමඟ වඩා හොඳ වේ. මෙවැනි ආකෘතියක් වංචා හඳුනාගැනීම සඳහා මූල්‍ය අංශයේ මෙන්ම වෛද්‍ය ප්‍රතිරූපණ සඳහා සෞඛ්‍ය සේවා අංශයේ නිතර භාවිතා වේ.

Data Augmentation යනු දත්ත විද්‍යාඥයින් වැඩි දත්ත නිපදවීමට භාවිතා කරන වෙනස්ම ක්‍රමයකි. කෙසේ වෙතත්, එය ව්යාජ දත්ත සමඟ වරදවා වටහා නොගත යුතුය. සරලව කිවහොත්, දත්ත වැඩි කිරීම යනු දැනටමත් පවතින අව්‍යාජ දත්ත කට්ටලයකට නව දත්ත එකතු කිරීමේ ක්‍රියාවයි.

උදාහරණයක් ලෙස, දිශානතිය, දීප්තිය, විශාලනය සහ තවත් දේ සකස් කිරීමෙන් එක් රූපයකින් පින්තූර කිහිපයක් නිර්මාණය කිරීම. සමහර විට, සැබෑ දත්ත කට්ටලය පුද්ගලික තොරතුරු පමණක් ඉතිරිව භාවිතා කරයි. දත්ත නිර්නාමිකකරණය යනු මෙයයි, එවැනි දත්ත සමූහයක් කෘතිම දත්ත ලෙස නොසැලකේ.

සින්තටික් දත්තවල අභියෝග සහ සීමාවන්

කෘත්‍රිම දත්තවලට දත්ත විද්‍යා ක්‍රියාකාරකම් සඳහා සමාගම්වලට සහාය විය හැකි විවිධ ප්‍රතිලාභ ඇතත්, එයට යම් සීමාවන් ද ඇත:

දත්තවල විශ්වසනීයත්වය: සෑම යන්ත්‍ර ඉගෙනීමේ/ගැඹුරු ඉගෙනුම් ආකෘතියක්ම එය පෝෂණය කරන දත්ත ප්‍රමාණයට වඩා හොඳ බව සාමාන්‍ය දැනුමකි. මෙම සන්දර්භය තුළ කෘතිම දත්තවල ගුණාත්මක භාවය ආදාන දත්තවල ගුණාත්මකභාවය සහ දත්ත නිෂ්පාදනය කිරීමට භාවිතා කරන ආකෘතිය සමඟ දැඩි ලෙස සම්බන්ධ වේ. කෘත්‍රිම දත්ත තුළ මේවා ඉතා පැහැදිලිව පිළිබිඹු කළ හැකි බැවින් මූලාශ්‍ර දත්තවල කිසිදු අගතියක් නොමැති බව සහතික කිරීම ඉතා වැදගත් වේ. තවද, කිසියම් පුරෝකථනයක් කිරීමට පෙර, දත්තවල ගුණාත්මකභාවය තහවුරු කර සත්‍යාපනය කළ යුතුය.
දැනුම, උත්සාහය සහ කාලය අවශ්‍යයි: කෘතිම දත්ත නිර්මාණය කිරීම අව්‍යාජ දත්ත සෑදීමට වඩා සරල සහ මිලෙන් අඩු විය හැකි අතර, එයට යම් දැනුමක්, කාලය සහ ශ්‍රමය අවශ්‍ය වේ.
විෂමතා අනුකරණය කිරීම: සැබෑ ලෝක දත්තවල පරිපූර්ණ අනුරුවක් කළ නොහැක; කෘතිම දත්ත වලට එය ආසන්න කළ හැක්කේ එය පමණි. එබැවින්, සැබෑ දත්තවල පවතින සමහර පිටස්තරයන් කෘත්‍රිම දත්ත මගින් ආවරණය නොවිය හැක. දත්ත විෂමතා සාමාන්‍ය දත්ත වලට වඩා වැදගත් වේ.
නිෂ්පාදනය පාලනය කිරීම සහ ගුණාත්මකභාවය සහතික කිරීම: සින්තටික් දත්ත සැබෑ ලෝක දත්ත අනුකරණය කිරීමට අදහස් කරයි. දත්ත අතින් සත්‍යාපනය අත්‍යවශ්‍ය වේ. ඇල්ගොරිතම භාවිතයෙන් ස්වයංක්‍රීයව නිර්මාණය කරන ලද සංකීර්ණ දත්ත කට්ටල සඳහා යන්ත්‍ර ඉගෙනුම්/ගැඹුරු ඉගෙනුම් ආකෘතිවලට ඇතුළත් කිරීමට පෙර දත්තවල නිරවද්‍යතාවය තහවුරු කර ගැනීම අත්‍යවශ්‍ය වේ.
පරිශීලක ප්‍රතිපෝෂණය: කෘත්‍රිම දත්ත නව සංකල්පයක් වන බැවින්, එය සමඟ කරන ලද අනාවැකි විශ්වාස කිරීමට සෑම කෙනෙකුම සූදානම් නොවනු ඇත. මෙයින් ඇඟවෙන්නේ පරිශීලක පිළිගැනීම වැඩි කිරීම සඳහා, කෘතිම දත්තවල උපයෝගීතාව පිළිබඳ දැනුම ඉහළ නැංවීමට ප්රථමයෙන් අවශ්ය වන බවයි.

අනාගතය

පසුගිය දශකය තුළ කෘතිම දත්ත භාවිතය නාටකාකාර ලෙස ඉහළ ගොස් ඇත. එය සමාගම් කාලය සහ මුදල් ඉතිරි කරන අතරම, එහි අඩුපාඩු නොමැතිව නොවේ. එය සත්‍ය දත්තවල ස්වභාවිකව සිදුවන සහ සමහර මාදිලිවල නිරවද්‍යතාව සඳහා ඉතා වැදගත් වන පිටස්තරයන් නොමැත.

කෘත්‍රිම දත්තවල ගුණාත්මක භාවය බොහෝ විට නිර්මාණය සඳහා භාවිතා කරන ආදාන දත්ත මත රඳා පවතින බව ද සඳහන් කිරීම වටී. ආදාන දත්තවල ඇති පක්ෂග්‍රාහීත්වය කෘත්‍රිම දත්ත වෙත ඉක්මනින් ව්‍යාප්ත විය හැක, එබැවින් ආරම්භක ලක්ෂ්‍යයක් ලෙස උසස් තත්ත්වයේ දත්ත තෝරා ගැනීම අතිශයෝක්තියක් නොවිය යුතුය.

අවසාන වශයෙන්, විෂමතා හඳුන්වා දී නොමැති බව තහවුරු කර ගැනීම සඳහා කෘතිම දත්ත මානව-අනුසටහන් කළ සැබෑ දත්ත සමඟ සංසන්දනය කිරීම ඇතුළුව, එයට තවදුරටත් ප්‍රතිදාන පාලනයක් අවශ්‍ය වේ. මෙම බාධා මධ්‍යයේ වුවද, කෘත්‍රිම දත්ත යහපත් ක්ෂේත්‍රයක් ලෙස පවතී.

සැබෑ ලෝක දත්ත නොමැති විට පවා නව AI විසඳුම් නිර්මාණය කිරීමට එය අපට උපකාර කරයි. වඩාත්ම කැපී පෙනෙන දෙය නම්, එය ව්‍යවසායයන්ට ඔවුන්ගේ අවසාන පාරිභෝගික විවිධත්වය වඩාත් ඇතුළත් සහ ඇඟවුම් කරන නිෂ්පාදන තැනීමට ඉඩ සලසයි.

කෙසේ වෙතත්, දත්ත මත පදනම් වූ අනාගතයේ දී, කෘතිම දත්ත සැබෑ ලෝක දත්ත සමඟ පමණක් සම්පූර්ණ කිරීමට අභියෝගාත්මක නව සහ නිර්මාණාත්මක කාර්යයන් ඉටු කිරීමට දත්ත විද්‍යාඥයින්ට උපකාර කිරීමට අදහස් කරයි.

නිගමනය

ඇතැම් අවස්ථාවලදී, කෘත්‍රිම දත්ත මඟින් ව්‍යාපාරයක් හෝ සංවිධානයක් තුළ දත්ත හිඟයක් හෝ අදාළ දත්ත නොමැතිකම සමනය කළ හැක. කෘත්‍රිම දත්ත උත්පාදනය සඳහා උපකාර කළ හැකි උපාය මාර්ග මොනවාද සහ එයින් ලාභ ලැබිය හැක්කේ කාටද යන්න ද අපි සොයා බැලුවෙමු.

සින්තටික් දත්ත සමඟ කටයුතු කිරීමේදී ඇතිවන දුෂ්කරතා කිහිපයක් ගැනද අපි කතා කළෙමු. වාණිජ තීරණ ගැනීම සඳහා, සැබෑ දත්ත සැමවිටම අනුග්‍රහය දක්වනු ඇත. කෙසේ වෙතත්, එවැනි සත්‍ය අමු දත්ත විශ්ලේෂණය සඳහා ප්‍රවේශ විය නොහැකි විට යථාර්ථවාදී දත්ත ඊළඟ හොඳම විකල්පය වේ.

කෙසේ වෙතත්, කෘත්‍රිම දත්ත නිෂ්පාදනය කිරීම සඳහා දත්ත ආකෘතිකරණය පිළිබඳ දැඩි ග්‍රහණයක් ඇති දත්ත විද්‍යාඥයන් අවශ්‍ය බව මතක තබා ගත යුතුය. සැබෑ දත්ත සහ එහි වටපිටාව පිළිබඳ මනා අවබෝධයක් ද අත්‍යවශ්‍ය වේ. ලබා ගත හැකි නම්, නිපදවන දත්ත හැකි තරම් නිවැරදි බව සහතික කර ගැනීමට මෙය අත්‍යවශ්‍ය වේ.

සින්තටික් දත්ත පැහැදිලි කර ඇත - AI, ML සහ DL හි ඊළඟ විශාල දේ

ඉතින්, සින්තටික් දත්ත යනු කුමක්ද?