බොහෝ යන්ත්ර ඉගෙනුම් සහ ගැඹුරු ඉගෙනුම් ආකෘති හොඳින් ක්රියාත්මක වීමට දත්ත ප්රමාණය සහ විවිධත්වය මත දැඩි ලෙස රඳා පවතී. පුහුණුව අතරතුර ලබා දෙන දත්තවල පරිමාව සහ විවිධත්වය මෙම ආකෘතිවල අනාවැකි නිරවද්යතාවයට සැලකිය යුතු බලපෑමක් ඇති කරයි.
සංකීර්ණ කර්තව්යයන් ඵලදායි ලෙස ඉටු කිරීමට උගන්වා ඇති ගැඹුරු ඉගෙනුම් ආකෘතීන්ට බොහෝ විට සැඟවුණු නියුරෝන ඇතුළත් වේ. සැඟවුණු නියුරෝන ගණන අනුව පුහුණු කළ හැකි පරාමිතීන් ගණන වැඩි වේ.
අවශ්ය දත්ත ප්රමාණය ආදර්ශ ඉගෙන ගත හැකි පරාමිති ගණනට සමානුපාතික වේ. සීමිත දත්තවල දුෂ්කරතා සමඟ කටයුතු කිරීමේ එක් ක්රමයක් නම් නව දත්ත සංස්ලේෂණය කිරීම සඳහා වත්මන් දත්තවලට විවිධ පරිවර්තන යෙදීමයි.
පවතින දත්ත වලින් නව දත්ත සංස්ලේෂණය කිරීමේ තාක්ෂණය 'දත්ත වැඩි දියුණු කිරීම' ලෙස හැඳින්වේ. අවශ්යතා දෙකම සපුරාලීම සඳහා දත්ත වැඩි කිරීම භාවිතා කළ හැක: දත්ත පරිමාව සහ නිවැරදිව සංවර්ධනය කිරීමට අවශ්ය පුහුණු දත්තවල විවිධත්වය යන්ත්ර ඉගෙනීම හෝ ගැඹුරු ඉගෙනුම් ආකෘති.
මෙම ලිපියෙන්, අපි දත්ත වැඩි කිරීම, එහි වර්ග, එය අත්යවශ්ය වන්නේ ඇයි සහ තවත් බොහෝ දේ දෙස සමීපව බලමු.
ඉතින්, දත්ත වැඩි කිරීම යනු කුමක්ද?
Data Augmentation යනු පවතින දත්ත වලින් නව සහ නියෝජිත දත්ත සංවර්ධනය කිරීමේ ක්රියාවලියයි. පවතින දත්තවල වෙනස් කළ අනුවාද ඇතුළත් කිරීමෙන් හෝ නව දත්ත සංස්ලේෂණය කිරීමෙන් ඔබට මෙය ඉටු කළ හැක.
මෙම ක්රමය මඟින් නිපදවන දත්ත කට්ටල ඔබේ යන්ත්ර ඉගෙනීම වැඩිදියුණු කරනු ඇත ගැඹුරු ඉගෙනුම් ආකෘති අධික ලෙස සවි කිරීමේ අවදානම අවම කිරීමෙනි. එය අතිරේක තොරතුරු සහිත දත්ත කට්ටලයක් වෙනස් කිරීමේ හෝ "වැඩිකිරීමේ" ක්රියාවලියයි.
මෙම පරිපූරක ආදානය රූපවල සිට පෙළ දක්වා විහිදෙන අතර, එය යන්ත්ර ඉගෙනුම් පද්ධතිවල ක්රියාකාරීත්වය ඉහළ නංවයි.
අපට සුනඛ අභිජනන වර්ගීකරණය සඳහා ආකෘතියක් ගොඩනගා ගැනීමට අවශ්ය යැයි උපකල්පනය කරන්න සහ පුග් හැර අනෙකුත් සියලුම ප්රභේදවල ඡායාරූප විශාල ප්රමාණයක් අප සතුව ඇත. එහි ප්රතිඵලයක් වශයෙන්, ආකෘතියට pugs වර්ගීකරණය කිරීමට අපහසු වනු ඇත.
අපට අමතර (සැබෑ හෝ අසත්ය) පුග් ඡායාරූප එකතුවට එක් කළ හැකිය, නැතහොත් අපගේ වර්තමාන පුග් ඡායාරූප දෙගුණ කළ හැකිය (උදා: ඒවා කෘත්රිමව අද්විතීය කිරීමට ඒවා ප්රතිනිර්මාණය කිරීම සහ විකෘති කිරීම මගින්).
වර්තමානය තුළ දත්ත වැඩිකිරීමේ ප්රයෝජනය කුමක්ද?
සඳහා අයදුම්පත් යන්ත්ර ඉගෙනීම විශේෂයෙන් ගැඹුරු ඉගෙනුම් ක්ෂේත්රයේ වේගයෙන් සංවර්ධනය වෙමින් විවිධාංගීකරණය වෙමින් පවතී. කෘත්රිම බුද්ධි කර්මාන්තය මුහුණ දෙන අභියෝග දත්ත වර්ධන ක්රම මගින් ජය ගත හැක.
පුහුණු දත්ත කට්ටලවලට නව සහ විවිධ උදාහරණ එකතු කිරීමෙන් දත්ත වැඩි කිරීම මගින් යන්ත්ර ඉගෙනුම් ආකෘතිවල කාර්ය සාධනය සහ ප්රතිඵල වැඩිදියුණු කළ හැක.
දත්ත කට්ටලය විශාල සහ ප්රමාණවත් වන විට, යන්ත්ර ඉගෙනුම් ආකෘතියක් වඩා හොඳින් ක්රියා කරන අතර වඩාත් නිවැරදි වේ. යන්ත්ර ඉගෙනුම් ආකෘති සඳහා, දත්ත රැස් කිරීම සහ ලේබල් කිරීම කාලය ගතවන සහ මිල අධික විය හැකිය.
දත්ත කට්ටල වෙනස් කිරීමෙන් සහ දත්ත වැඩි කිරීමේ උපාය මාර්ග භාවිතා කිරීමෙන් සමාගම්වලට ඔවුන්ගේ මෙහෙයුම් පිරිවැය අඩු කර ගත හැකිය.
දත්ත පිරිසිදු කිරීම දත්ත ආකෘතියක් සංවර්ධනය කිරීමේ එක් අදියරක් වන අතර එය ඉහළ නිරවද්යතා ආකෘති සඳහා අත්යවශ්ය වේ. කෙසේ වෙතත්, දත්ත පිරිසිදු කිරීම නියෝජන හැකියාව අඩු කරන්නේ නම්, ආකෘතියට සැබෑ ලෝකයෙන් නිසි යෙදවුම් අපේක්ෂා කිරීමට නොහැකි වනු ඇත.
දත්ත වර්ධන ප්රවේශයන් භාවිතා කිරීමෙන් යන්ත්ර ඉගෙනුම් ආකෘතීන් ශක්තිමත් කළ හැකි අතර එමඟින් ආකෘතියට සැබෑ ලෝකයේ මුහුණ දිය හැකි විචල්යයන් ඇති කරයි.
දත්ත වර්ධන වර්ග
සැබෑ දත්ත වැඩි කිරීම
ඔබ දත්ත කට්ටලයකට අව්යාජ, පරිපූරක දත්ත එකතු කළ විට සැබෑ දත්ත වැඩි කිරීම සිදුවේ. මෙය අමතර ගුණාංග සහිත පෙළ ගොනුවල සිට (ටැග් කළ පින්තූර සඳහා) මුල් වස්තුව හා සැසඳිය හැකි වෙනත් වස්තුවල රූප හෝ සත්ය දේ පටිගත කිරීම දක්වා විහිදේ.
උදාහරණයක් ලෙස, රූප ගොනුවකට තවත් විශේෂාංග කිහිපයක් එකතු කිරීමෙන්, යන්ත්ර ඉගෙනීමේ ආකෘතියකට අයිතමය වඩාත් පහසුවෙන් හඳුනාගත හැකිය.
එක් එක් රූපය පිළිබඳ තවත් පාර-දත්ත (උදා, එහි නම සහ විස්තරය) ඇතුළත් කළ හැකි අතර එමඟින් අපගේ AI ආකෘතිය එම ඡායාරූප පිළිබඳ පුහුණුව ආරම්භ කිරීමට පෙර එක් එක් රූපය නියෝජනය කරන දේ ගැන වැඩි විස්තර දැන ගනී.
"පූසා" හෝ "බල්ලා" වැනි අපගේ කලින් තීරණය කළ ප්රවර්ගවලින් එකකට නැවුම් ඡායාරූප වර්ග කිරීමට කාලය පැමිණි විට, රූපයක පවතින අයිතම හඳුනා ගැනීමටත් එහි ප්රතිඵලයක් ලෙස සමස්තයක් ලෙස වඩා හොඳින් ක්රියා කිරීමටත් ආකෘතියට හැකි වේ.
කෘතිම දත්ත වැඩි
තවත් සැබෑ දත්ත එකතු කිරීමට අමතරව, ඔබට දායක විය හැක කෘතිම දත්ත හෝ සත්ය යැයි පෙනෙන කෘතිම දත්ත.
මෙය neural style transfer වැනි දුෂ්කර කාර්යයන් සඳහා ප්රයෝජනවත් වේ, නමුත් ඔබ GANs (Generative Adversarial Networks), CNNs (Convolutional Neural Networks) හෝ වෙනත් ගැඹුරු ස්නායුක ජාල ගෘහ නිර්මාණ ශිල්පය භාවිතා කරන්නේ නම්, එය ඕනෑම නිර්මාණයක් සඳහා හොඳ වේ.
උදාහරණයක් ලෙස, අපට පිටතට ගොස් ඡායාරූප ගණනාවක් ලබා නොගෙන නිසි ලෙස pugs වර්ගීකරණය කිරීමට අවශ්ය නම්, අපට සුනඛ රූප එකතුවකට ව්යාජ පුග් ඡායාරූප කිහිපයක් එකතු කළ හැකිය.
දත්ත එකතු කිරීම දුෂ්කර, මිල අධික හෝ කාලය ගතවන විට ආකෘති නිරවද්යතාවය වැඩි දියුණු කිරීම සඳහා මෙම දත්ත වැඩිකිරීමේ ආකාරය විශේෂයෙන් ඵලදායී වේ. මෙම තත්වය තුළ, අපි දත්ත කට්ටලය කෘතිමව පුළුල් කරන්නෙමු.
සුනඛ අභිජනන ඡායාරූප 1000 කින් සමන්විත අපගේ ආරම්භක කණ්ඩායමේ පග් පින්තූර 5ක් පමණක් අඩංගු වේ යැයි උපකල්පනය කරන්න. සැබෑ සුනඛයන්ගෙන් අතිරේක සත්ය පුග් ඡායාරූප එකතු කරනවාට වඩා, දැනට තිබෙන ඒවායින් එකක් ක්ලෝන කර එය තවමත් පුග් එකක් ලෙස පෙනෙන පරිදි තරමක් විකෘති කර ව්යාජ එකක් නිර්මාණය කරමු.
දත්ත වර්ධන තාක්ෂණය
දත්ත වර්ධන ප්රවේශයන් පවතින දත්ත වලට සුළු වෙනස් කිරීම් සිදු කරයි. එය ප්රකාශයක් නැවත සකස් කිරීම හා සමානයි. අපට දත්ත වැඩි කිරීම කාණ්ඩ තුනකට බෙදිය හැකිය:
පෙළ
- වචන ප්රතිස්ථාපනය: මෙම දත්ත වර්ධන ප්රවේශයට වත්මන් පද සමාන පද සමඟ ප්රතිස්ථාපනය කිරීම ඇතුළත් වේ. උදාහරණයක් ලෙස, “මේ චිත්රපටිය මෝඩයි”, “මේ චිත්රපටිය මෝඩයි” බවට පත් වෙන්න පුළුවන්.
- වාක්ය/වචන කලවම් කිරීම: මෙම උපාය මාර්ගයට සමස්ත අනුකූලතාව පවත්වා ගනිමින් වාක්ය ඛණ්ඩ හෝ වචන අනුපිළිවෙල මාරු කිරීම ඇතුළත් වේ.
- වාක්ය ඛණ්ඩ-ගස් හැසිරවීම: ඔබ පවතින වාක්යයක් ව්යාකරණමය වශයෙන් නිවැරදි ලෙස වෙනස් කරන අතරම එම නියමයන්ම භාවිතා කරයි.
- අහඹු මකාදැමීම: මෙම උපාය මාර්ගය කැත ලිවීමක් ඇති කළද, එය ඵලදායී වේ. එහි ප්රතිඵලයක් වශයෙන්, “මම මෙම වාර්තාව සීරීමට ලක් වූ බැවින් මම මෙම වාර්තාව මිලදී නොගනිමි” යන පේළිය “මෙය සීරීමට ලක් වූ නිසා මම මෙය මිලදී නොගනිමි” බවට පත් වේ. වාක්ය ඛණ්ඩය එතරම් පැහැදිලි නැත, නමුත් එය පිළිගත හැකි එකතු කිරීමක් ලෙස පවතී.
- ආපසු පරිවර්තනය: මෙම ප්රවේශය ඵලදායී මෙන්ම ප්රියජනකයි. ඔබේ භාෂාවෙන් ලියා ඇති ප්රකාශයක් ගෙන එය වෙනත් භාෂාවකට පරිවර්තනය කරන්න, ඉන්පසු එය ඔබේ මුල් භාෂාවට නැවත පරිවර්තනය කරන්න.
රූප
- කර්නල් පෙරහන්: මෙම ප්රවේශය පින්තූරයක් තියුණු කරයි හෝ බොඳ කරයි.
- රූප සංයෝජනය: එය අමුතු ලෙස පෙනුනද, ඔබට ඡායාරූප මිශ්ර කළ හැකිය.
- අහඹු ලෙස මකා දැමීම: වත්මන් පින්තූරයේ කුඩා කොටසක් මකන්න.
- ජ්යාමිතික පරිවර්තන: මෙම ප්රවේශය වෙනත් දේ අතර අත්තනෝමතික ලෙස පෙරලීම, භ්රමණය කිරීම, කැපීම හෝ පින්තූර පරිවර්තනය කිරීම ඇතුළත් වේ.
- පින්තූරයක් පෙරළීම: ඔබට තිරස් සිට සිරස් දිශානතියට රූපයක් පෙරළිය හැක.
- වර්ණ අවකාශය පරිවර්තනය: ඔබට RGB වර්ණ නාලිකා වෙනස් කිරීමට හෝ ඕනෑම වත්මන් වර්ණයක් වැඩි දියුණු කළ හැකිය.
- නැවත පරිමාණය යනු දෘශ්ය පරිමාණය සකස් කිරීමේ ක්රියාවලියයි. ඔබට ඇතුළත හෝ පිටතට පරිමාණය කිරීමේ විකල්පය ඇත. ඔබ ඇතුළට පරිමාණය කරන විට, රූපය මුල් ප්රමාණයට වඩා කුඩා වේ. ඔබ එය පිටතට පරිමාණය කළහොත් පින්තූරය මුල් පිටපතට වඩා විශාල වනු ඇත.
ශ්රව්ය උපකරණ
- තණතීරුව: මෙම ප්රවේශය ශ්රව්ය තාරතාව වෙනස් කිරීම ඇතුළත් වේ.
- වේගය වෙනස් කරන්න: ශ්රව්ය ගොනුවේ හෝ පටිගත කිරීමේ වේගය වෙනස් කරන්න.
- වැඩි ශබ්දය: ඔබට ශ්රව්ය ගොනුවට වැඩි ශබ්දයක් එක් කළ හැකිය.
භාවිතා කරන්න
වෛද්ය ප්රතිරූපණය දැන් දත්ත වැඩි කිරීම සඳහා ප්රමුඛ භාවිත අවස්ථාවකි. වෛද්ය පින්තූර එකතු කිරීම් කුඩා වන අතර නීති රීති සහ රහස්යතා ගැටළු හේතුවෙන් දත්ත බෙදාගැනීම අපහසු වේ.
තවද, අසාමාන්ය අක්රමිකතා වලදී දත්ත කට්ටල බොහෝ දුරට සීමා වේ. වෛද්ය නිරූපණ සමාගම් ඔවුන්ගේ දත්ත කට්ටල විවිධාංගීකරණය කිරීමට දත්ත වැඩිකිරීම භාවිතා කරයි.
අභියෝග
පරිමාණය, විවිධ දත්ත කට්ටල සහ අදාළත්වය කාර්යක්ෂම දත්ත වර්ධක ශිල්පීය ක්රම දියුණු කිරීම සඳහා විසඳිය යුතු ගැටළු කිහිපයකි.
පරිමාණය අනුව, වර්ධිත දත්ත විවිධ මාදිලිවලට භාවිතා කළ හැකි පරිදි පරිමාණය කළ හැකි විය යුතුය. අදාළ, වටිනා, වැඩි දියුණු කළ දත්ත විශාල ප්රමාණයක් ජනනය කරන දත්ත වර්ධක පද්ධතියක් සැකසීමට යම් කාලයක් ගත විය හැකි බැවින් අනාගත මාදිලිවල භාවිතය සඳහා මෙය අනුපිටපත් කළ හැකි බව සහතික කර ගැනීමට ඔබට අවශ්ය වනු ඇත.
විෂමජාතීත්වය අනුව, විවිධ දත්ත කට්ටලවල වර්ධිත දත්ත සංවර්ධනය කිරීමේදී සලකා බැලිය යුතු වෙනස් ලක්ෂණ ඇත. සුදුසු වැඩිදියුණු කළ දත්ත සංවර්ධනය කිරීම සඳහා, එක් එක් දත්ත කට්ටලයේ ගුණාංග භාවිතා කළ යුතුය.
වෙනත් වචන වලින් කිවහොත්, දත්ත කට්ටල සහ භාවිත අවස්ථා අතර දත්ත වැඩි කිරීම වෙනස් වේ.
අවසාන වශයෙන්, වැඩි කරන ලද දත්තවල වාසි ඕනෑම උපද්රව ඉක්මවන බව සහතික කිරීම සඳහා, යන්ත්ර ඉගෙනුම් ආකෘති මගින් භාවිතා කිරීමට පෙර, වර්ධන දත්ත සුදුසු ප්රමිතික භාවිතයෙන් ඇගයීමට ලක් කළ යුතුය.
නිදසුනක් ලෙස, රූපය මත පදනම් වූ වර්ධක දත්තවල සැලකිය යුතු පසුබිම් ශබ්දයක් හෝ සම්බන්ධයක් නැති අයිතම තිබීම ආකෘතියේ ක්රියාකාරිත්වයට අහිතකර බලපෑමක් ඇති කළ හැකිය.
නිගමනය
අවසාන වශයෙන්, ඔබ අලාභය පුරෝකථනය කිරීමට උත්සාහ කරන්නේද, මූල්ය වංචා හඳුනා ගැනීමට හෝ වඩා හොඳ ගොඩනැගීමට උත්සාහ කරන්නේද යන්න රූප වර්ගීකරණය ආකෘති, දත්ත වැඩි කිරීම වඩාත් නිවැරදි, ශක්තිමත් ආකෘති ගොඩනැගීමට තීරණාත්මක මාර්ගයකි.
උසස් පුහුණු ක්රියා පටිපාටියක් හරහා, සරල පෙර සැකසුම් සහ දත්ත වැඩි කිරීම මගින් අති නවීන මාදිලි සංවර්ධනය කිරීමේදී කණ්ඩායම්වලට පවා සහාය විය හැක.
පුහුණු දත්ත සැකසීමට ගත කරන කාලය අඩු කිරීමට සහ වඩාත් නිවැරදි හා වඩා ඉක්මනින් යන්ත්ර ඉගෙනුම් ආකෘති නිර්මාණය කිරීමට ව්යාපාරවලට දත්ත වැඩි කිරීම භාවිත කළ හැක..
දත්ත කට්ටලයේ අදාළ දත්ත ප්රමාණය පුළුල් කිරීමෙන්, දත්ත වැඩි කිරීම මගින් දැනටමත් දත්ත විශාල ප්රමාණයක් ඇති යන්ත්ර ඉගෙනුම් ආකෘතීන්ට ද ප්රයෝජන ගත හැකිය.
ඔබමයි