Көптеген машиналық оқыту және терең оқыту үлгілері жақсы жұмыс істеуі үшін деректер көлеміне және әртүрлілігіне сүйенеді. Жаттығу кезінде берілген деректердің көлемі мен әртүрлілігі осы модельдердің болжам дәлдігіне айтарлықтай әсер етеді.
Күрделі тапсырмаларды тиімді орындауға үйретілген терең оқыту үлгілері жиі жасырын нейрондарды қамтиды. Жасырын нейрондардың санына сәйкес жаттықтырылатын параметрлердің саны артады.
Қажетті деректер көлемі үлгіні үйренуге болатын параметрлердің санына пропорционал. Шектеулі деректердің қиындықтарымен күресудің бір әдісі жаңа деректерді синтездеу үшін ағымдағы деректерге әртүрлі түрлендірулерді қолдану болып табылады.
Бар деректерден жаңа деректерді синтездеу әдісі «Деректерді кеңейту» деп аталады. Деректерді ұлғайту екі талапты да орындау үшін пайдаланылуы мүмкін: деректер көлемі және дәл әзірлеу үшін қажетті оқу деректерінің әртүрлілігі машиналық оқыту немесе терең оқыту үлгілері.
Бұл постта біз деректерді кеңейту, оның түрлерін, неліктен маңызды екенін және т.б. қарастырамыз.
Сонымен, деректерді кеңейту дегеніміз не?
Деректерді кеңейту - бұл бар деректерден жаңа және өкілдік деректерді әзірлеу процесі. Бұған бұрыннан бар деректердің өзгертілген нұсқаларын қосу немесе жаңа деректерді синтездеу арқылы қол жеткізуге болады.
Осы әдіс арқылы жасалған деректер жинақтары сіздің машиналық оқуыңызды жақсартады немесе терең оқыту үлгілері шамадан тыс орнату қаупін азайту арқылы. Бұл қосымша ақпаратпен деректер жинағын өзгерту немесе «көбейту» процесі.
Бұл қосымша енгізу кескіндерден мәтінге дейін болуы мүмкін және ол машиналық оқыту жүйелерінің өнімділігін арттырады.
Біз ит тұқымдарын санаттау үшін модель жасағымыз келеді делік және бізде иттерден басқа барлық сорттардың көптеген фотосуреттері бар. Нәтижесінде, модель сорғыштарды санаттауда қиындықтарға тап болады.
Коллекцияға қосымша (нақты немесе жалған) паг фотосуреттерін қосуға болады немесе қазіргі паг фотосуреттерімізді екі есе көбейте аламыз (мысалы, оларды жасанды түрде бірегей ету үшін көшіру және бұрмалау арқылы).
Қазіргі уақытта деректерді кеңейту қандай мақсатқа қызмет етеді?
Өтініштер машина оқыту қарқынды дамып, әртараптандыруда, әсіресе тереңдету саласында. Жасанды интеллект индустриясы кездесетін қиындықтарды деректерді кеңейту әдістері арқылы жеңуге болады.
Деректерді көбейту оқу деректер жиындарына жаңа және әртүрлі мысалдар қосу арқылы машиналық оқыту үлгілерінің өнімділігі мен нәтижелерін жақсарта алады.
Деректер жинағы үлкен және жеткілікті болғанда, машиналық оқыту үлгісі жақсырақ жұмыс істейді және дәлірек болады. Машиналық оқыту үлгілері үшін деректерді жинау және таңбалау көп уақытты қажет ететін және қымбат болуы мүмкін.
Компаниялар деректер жиынын өзгерту және деректерді кеңейту стратегияларын пайдалану арқылы өздерінің операциялық шығындарын азайта алады.
Деректерді тазалау деректер үлгісін әзірлеу кезеңдерінің бірі болып табылады және ол жоғары дәлдіктегі үлгілер үшін өте маңызды. Дегенмен, деректерді тазалау бейнелеу мүмкіндігін төмендетсе, модель нақты әлемнен тиісті кірістерді болжай алмайды.
Машиналық оқыту үлгілерін модель нақты әлемде кездесетін ауытқуларды тудыратын деректерді кеңейту тәсілдерін қолдану арқылы күшейтуге болады.
Деректерді көбейту түрлері
Нақты деректерді кеңейту
Деректер жиынына шынайы, қосымша деректерді қосқанда нақты деректерді кеңейту орын алады. Бұл қосымша атрибуттары бар мәтіндік файлдардан (белгіленген суреттер үшін) бастапқы нысанмен салыстырылатын басқа нысандардың кескіндеріне дейін немесе тіпті нақты заттың жазбаларына дейін болуы мүмкін.
Мысалы, кескін файлына тағы бірнеше мүмкіндіктерді қосу арқылы машиналық оқыту үлгісі элементті оңайырақ анықтай алады.
Әрбір кескін туралы қосымша метадеректер (мысалы, оның аты және сипаттамасы) қосылуы мүмкін, осылайша біздің AI моделіміз әр сурет сол фотосуреттерде жаттығуды бастамас бұрын не көрсететінін көбірек біледі.
Жаңа фотосуреттерді «мысық» немесе «ит» сияқты алдын ала белгіленген санаттарымыздың біріне жіктеу уақыты келгенде, модель кескінде бар элементтерді жақсырақ анықтай алады және нәтижесінде жалпы жақсырақ жұмыс істей алады.
Синтетикалық мәліметтер арттыру
Нақты деректерді қосудан басқа, сіз де үлес қоса аласыз синтетикалық деректер немесе шынайы болып көрінетін жасанды деректер.
Бұл нейрондық стильді тасымалдау сияқты қиын тапсырмалар үшін пайдалы, бірақ ол GANs (Generative Adversarial Networks), CNNs (Convolutional Neural Networks) немесе басқа терең нейрондық желілер архитектураларын пайдалансаңыз да, кез келген дизайн үшін жақсы.
Мысалы, егер біз сыртқа шығып, бірнеше фотосуретке түспей-ақ, иттерді дұрыс санаттағымыз келсе, ит суреттерінің жинағына жалған сорғыш фотосуреттерін қосуға болады.
Деректерді көбейтудің бұл түрі деректерді жинау қиын, қымбат немесе уақытты қажет ететін кезде үлгі дәлдігін арттыру үшін әсіресе тиімді. Бұл жағдайда біз деректер жинағын жасанды түрде кеңейтеміз.
Біздің 1000 ит тұқымының фотосуреттерінен тұратын бастапқы тобымызда тек 5 паг кескіні бар деп есептейік. Нағыз иттерден алынған қосымша фотосуреттерді қосудың орнына, қазіргілердің біреуін клондау және оны әлі күнге дейін сорғыш сияқты болып көрінуі үшін оны сәл бұрмалау арқылы жалған фотосуретті жасайық.
Деректерді көбейту әдістері
Деректерді кеңейту тәсілдері бар деректерге аздаған өзгерістер енгізуді талап етеді. Бұл мәлімдемені қайталаумен бірдей. Деректерді көбейтуді үш санатқа бөлуге болады:
мәтін
- Сөзді ауыстыру: бұл деректерді кеңейту тәсілі ағымдағы терминдерді синонимдермен ауыстыруды қамтиды. Мысал ретінде, «Бұл фильм ақымақ» «Бұл фильм ақымақ» болуы мүмкін.
- Сөйлем/сөзді араластыру: Бұл стратегия жалпы үйлесімділікті сақтай отырып, сөз тіркестерінің немесе сөздердің тізбегін ауыстыруды қамтиды.
- Синтаксис-ағашпен манипуляция: бірдей терминдерді пайдалану кезінде бұрыннан бар сөйлемді грамматикалық дәл болу үшін өзгертесіз.
- Кездейсоқ жою: Бұл стратегия жағымсыз жазуды тудырса да, ол тиімді. Нәтижесінде «Мен бұл жазбаны сызып алғандықтан сатып алмаймын» жолы «Мен бұны сатып алмаймын, себебі ол сызылған» болады. Фраза онша анық емес, бірақ ол ақылға қонымды қосымша болып қала береді.
- Кері аударма: Бұл тәсіл әрі тиімді әрі жағымды. Өз тіліңізде жазылған мәлімдемені алыңыз, оны басқа тілге аударыңыз, содан кейін оны түпнұсқа тіліңізге қайта аударыңыз.
Суреттер
- Ядро сүзгілері: Бұл тәсіл суретті айқындайды немесе бұлдыратады.
- Кескін комбинациясы: біртүрлі болып көрінсе де, фотосуреттерді араластыруға болады.
- Кездейсоқ өшіру: ағымдағы суреттің кішкене бөлігін жойыңыз.
- Геометриялық түрлендірулер: Бұл тәсіл басқа нәрселермен қатар суреттерді ерікті түрде аударуды, айналдыруды, қиюды немесе аударуды қамтиды.
- Суретті аудару: кескінді көлденеңінен тік бағдарға айналдыруға болады.
- Түс кеңістігін түрлендіру: RGB түс арналарын өзгертуге немесе кез келген ағымдағы түсті жақсартуға болады.
- Қайта масштабтау – визуалды масштабты реттеу процесі. Сізде ішке немесе кішірейту опциясы бар. Ішке қарай масштабтасаңыз, кескін бастапқы өлшемнен кішірейеді. Егер сіз оны сыртқа қарай масштабтасаңыз, сурет түпнұсқадан үлкенірек болады.
аудио
- Дыбыс: Бұл тәсіл дыбыс биіктігін өзгертуді қамтиды.
- Жылдамдықты өзгерту: аудио файлдың немесе жазбаның жылдамдығын өзгертіңіз.
- Көбірек шу: аудио файлға көбірек шу қосуға болады.
Пайдалану ережесі
Медициналық бейнелеу - дәл қазір деректерді кеңейту үшін көрнекті пайдалану жағдайы. Медициналық суреттер жинақтары аз, ал ережелер мен құпиялылық мәселелеріне байланысты деректерді бөлісу қиын.
Сонымен қатар, деректер жинақтары сирек кездесетін бұзылулар жағдайында әлдеқайда шектеулі. Медициналық бейнелеу компаниялары деректер жиынтығын әртараптандыру үшін деректерді кеңейтуді пайдаланады.
шақырулар
Масштабтылық, әртүрлі деректер жиыны және өзектілік - деректерді тиімді ұлғайту әдістерін әзірлеу үшін шешуді қажет ететін мәселелердің бірі.
Масштабтау тұрғысынан, кеңейтілген деректер көптеген әртүрлі үлгілер оны пайдалана алатындай масштабталатын болуы керек. Сіз мұны болашақ үлгілерде пайдалану үшін көшіруге болатынына көз жеткізгіңіз келеді, өйткені сәйкес, құнды, жақсартылған деректердің үлкен көлемін жасайтын деректерді кеңейту жүйесін орнату біраз уақытты алуы мүмкін.
Гетерогенділік тұрғысынан әр түрлі деректер жинақтары кеңейтілген деректерді әзірлеу кезінде ескерілуі керек ерекше белгілерге ие. Сәйкес жақсартылған деректерді әзірлеу үшін әрбір деректер жиынының сипаттары пайдаланылуы керек.
Басқаша айтқанда, деректерді кеңейту деректер жиындары мен пайдалану жағдайлары арасында әр түрлі болады.
Соңында, көбейтілген деректердің артықшылықтары кез келген қауіптерден асып түсетініне кепілдік беру үшін, кеңейтілген деректерді машиналық оқыту үлгілері пайдаланбас бұрын сәйкес көрсеткіштерді пайдаланып бағалау керек.
Мысалы, кескінге негізделген кеңейтілген деректерде маңызды фондық шудың немесе байланысты емес элементтердің болуы үлгінің өнімділігіне зиянды әсер етуі мүмкін.
қорытынды
Сайып келгенде, сіз шығынды болжауға, қаржылық алаяқтықты анықтауға немесе жақсырақ салуға тырысасыз ба кескін классификациясы модельдер, деректерді ұлғайту дәлірек, сенімді модельдерді құрудың маңызды жолы болып табылады.
Жоғары оқу процедурасы арқылы қарапайым алдын ала өңдеу және деректерді кеңейту тіпті командаларға озық үлгілерді әзірлеуге көмектесе алады.
Кәсіпорындар оқу деректерін дайындауға кететін уақытты азайту және дәлірек және жылдамырақ машиналық оқыту үлгілерін жасау үшін деректерді кеңейтуді пайдалана алады..
Деректер жиынындағы сәйкес деректердің санын ұлғайту арқылы деректерді кеңейту көптеген деректері бар машиналық оқыту үлгілеріне де пайдасын тигізуі мүмкін.
пікір қалдыру