Augmentasi Data: Penting untuk Model Pembelajaran Mesin

Daftar Isi[Bersembunyi][Menunjukkan]

Jadi, apa itu Augmentasi Data?
Apa gunanya augmentasi data saat ini?
Jenis Augmentasi Data+-
- Augmentasi data nyata
- Augmentasi Data Sintetis
Teknik Augmentasi Data+-
Use Case
Tantangan
Kesimpulan

Sebagian besar model pembelajaran mesin dan pembelajaran mendalam sangat bergantung pada jumlah dan variasi data agar berfungsi dengan baik. Volume dan keragaman data yang diberikan selama pelatihan memiliki dampak yang signifikan terhadap akurasi prediksi model ini.

Model pembelajaran mendalam yang telah diajarkan untuk tampil efektif pada tugas-tugas rumit sering kali menyertakan neuron tersembunyi. Jumlah parameter yang dapat dilatih meningkat sesuai dengan jumlah neuron tersembunyi.

Jumlah data yang dibutuhkan sebanding dengan jumlah parameter model yang dapat dipelajari. Salah satu metode untuk mengatasi kesulitan data yang terbatas adalah dengan menerapkan berbagai transformasi pada data saat ini untuk mensintesis data baru.

Teknik mensintesis data baru dari data yang ada disebut sebagai 'Augmentasi Data.' Augmentasi data dapat digunakan untuk memenuhi kedua persyaratan: volume data dan variasi data pelatihan yang diperlukan untuk mengembangkan akurasi pembelajaran mesin atau model pembelajaran mendalam.

Dalam posting ini, kita akan melihat lebih dekat pada augmentasi data, jenisnya, mengapa itu penting, dan banyak lagi.

Jadi, apa itu Augmentasi Data?

Augmentasi Data adalah proses mengembangkan data baru dan representatif dari data yang ada. Anda dapat melakukannya dengan menyertakan versi modifikasi dari data yang ada atau mensintesis data baru.

Kumpulan data yang dihasilkan oleh metode ini akan meningkatkan pembelajaran mesin Anda atau model pembelajaran mendalam dengan meminimalkan risiko overfitting. Ini adalah proses mengubah, atau "memperbesar," kumpulan data dengan informasi tambahan.

Masukan tambahan ini dapat berkisar dari gambar hingga teks, dan ini meningkatkan kinerja sistem pembelajaran mesin.

Asumsikan kita ingin membuat model untuk mengkategorikan ras anjing dan kita memiliki banyak foto dari semua varietas kecuali pug. Akibatnya, model akan kesulitan mengkategorikan pug.

Kami dapat menambahkan foto pug tambahan (asli atau palsu) ke koleksi, atau kami dapat menggandakan foto pug kami saat ini (misalnya dengan mereplikasi dan mendistorsinya untuk membuatnya unik secara artifisial).

Apa gunanya augmentasi data saat ini?

Aplikasi untuk Mesin belajar berkembang pesat dan beragam, terutama di bidang deep learning. Tantangan yang dihadapi industri kecerdasan buatan dapat diatasi melalui teknik augmentasi data.

Augmentasi data dapat meningkatkan performa dan hasil model machine learning dengan menambahkan contoh baru dan beragam ke set data pelatihan.

Jika set data besar dan memadai, model pembelajaran mesin berperforma lebih baik dan lebih akurat. Untuk model pembelajaran mesin, pengumpulan dan pelabelan data mungkin memakan waktu dan mahal.

Perusahaan dapat mengurangi biaya operasional mereka dengan mengubah kumpulan data dan memanfaatkan strategi augmentasi data.

Membersihkan data adalah salah satu tahap dalam pengembangan model data, dan sangat penting untuk model dengan akurasi tinggi. Namun, model tidak akan dapat mengantisipasi input yang tepat dari dunia nyata jika pembersihan data menurunkan keterwakilan.

Model pembelajaran mesin dapat diperkuat dengan menggunakan pendekatan augmentasi data, yang menghasilkan varians yang dapat ditemui model di dunia nyata.

Jenis Augmentasi Data

Augmentasi data nyata

Augmentasi data nyata terjadi saat Anda menambahkan data tambahan asli ke set data. Ini dapat berkisar dari file teks dengan atribut tambahan (untuk gambar yang ditandai) hingga gambar objek lain yang sebanding dengan objek aslinya, atau bahkan rekaman dari benda yang sebenarnya.

Misalnya, dengan menambahkan beberapa fitur lagi ke file gambar, model pembelajaran mesin dapat mendeteksi item dengan lebih mudah.

Lebih banyak metadata tentang setiap gambar (misalnya, nama dan deskripsinya) mungkin disertakan sehingga model AI kami tahu lebih banyak tentang apa yang diwakili setiap gambar sebelum memulai pelatihan pada foto-foto itu.

Ketika tiba saatnya untuk mengategorikan foto segar ke dalam salah satu kategori yang telah ditentukan sebelumnya, seperti "kucing" atau "anjing", model dapat lebih mampu mendeteksi item yang ada dalam gambar dan sebagai hasilnya, kinerjanya lebih baik secara keseluruhan.

Data Sintetis Augmentasi

Selain menambahkan lebih banyak data nyata, Anda juga dapat berkontribusi data sintetis atau data buatan yang tampak asli.

Ini bermanfaat untuk tugas-tugas sulit seperti transfer gaya saraf, tetapi juga bagus untuk desain apa pun, baik Anda menggunakan GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks), atau arsitektur jaringan saraf dalam lainnya.

Misalnya, jika kita ingin mengkategorikan pesek dengan benar tanpa harus keluar dan mengambil beberapa foto, kita dapat menambahkan beberapa foto pesek palsu ke koleksi gambar anjing.

Bentuk augmentasi data ini sangat efektif untuk meningkatkan akurasi model ketika pengumpulan data sulit, mahal, atau memakan waktu. Dalam situasi ini, kami secara artifisial memperluas kumpulan data.

Asumsikan bahwa grup awal kami yang terdiri dari 1000 foto ras anjing hanya berisi 5 gambar pug. Daripada menambahkan foto pesek asli dari anjing asli, mari kita buat foto palsu dengan mengkloning salah satu dari yang sekarang dan sedikit mendistorsinya sehingga masih terlihat seperti pesek.

Teknik Augmentasi Data

Pendekatan augmentasi data memerlukan sedikit modifikasi pada data yang ada. Ini sama dengan mengulang pernyataan. Kita dapat membagi augmentasi data menjadi tiga kategori:

Teks

Penggantian Kata: Pendekatan augmentasi data ini mencakup penggantian istilah saat ini dengan sinonim. Sebagai contoh, “Film ini bodoh” bisa menjadi “Film ini bodoh.”
Pengocokan Kalimat/Kata: Strategi ini melibatkan pergantian urutan frasa atau kata sambil mempertahankan koherensi keseluruhan.
Manipulasi Pohon Sintaks: Anda mengubah kalimat yang ada menjadi akurat secara tata bahasa saat menggunakan istilah yang sama.
Penghapusan Acak: Meskipun strategi ini menghasilkan tulisan yang jelek, ini efektif. Akibatnya, baris "Saya tidak akan membeli rekaman ini karena tergores" menjadi "Saya tidak akan membeli ini karena tergores." Ungkapan ini kurang jelas, tetapi tetap merupakan tambahan yang masuk akal.
Terjemahan Kembali: Pendekatan ini efektif dan menyenangkan. Ambil pernyataan yang ditulis dalam bahasa Anda, terjemahkan ke bahasa lain, lalu terjemahkan kembali ke bahasa asli Anda.

Images

Filter Kernel: Pendekatan ini mempertajam atau mengaburkan gambar.
Kombinasi Gambar: Meskipun mungkin tampak aneh, Anda dapat mencampur foto.
Menghapus secara Acak: Menghapus sebagian kecil dari gambar saat ini.
Transformasi Geometris: Pendekatan ini mencakup, antara lain, membalik, memutar, memotong, atau menerjemahkan gambar secara sewenang-wenang.
Membalik gambar: Anda dapat membalik gambar dari orientasi horizontal ke vertikal.
Transformasi Ruang Warna: Anda dapat memodifikasi saluran warna RGB atau meningkatkan warna apa pun saat ini.
Re-Scaling adalah proses menyesuaikan skala visual. Anda memiliki pilihan untuk memperbesar atau memperkecil. Saat Anda menskalakan ke dalam, gambar menjadi lebih kecil dari ukuran awalnya. Gambar akan lebih besar dari aslinya jika Anda menskalakannya ke luar.

Audio

Pitch: Pendekatan ini melibatkan perubahan nada audio.
Ubah kecepatan: Mengubah kecepatan file audio atau rekaman.
Lebih Banyak Kebisingan: Anda dapat menambahkan lebih banyak suara ke file audio.

Use Case

Pencitraan medis adalah kasus penggunaan yang menonjol untuk augmentasi data saat ini. Koleksi gambar medis kecil, dan berbagi data sulit karena aturan dan masalah privasi.

Selanjutnya, kumpulan data jauh lebih dibatasi dalam kasus gangguan yang tidak biasa. Perusahaan pencitraan medis menggunakan augmentasi data untuk mendiversifikasi kumpulan data mereka.

Tantangan

Skalabilitas, kumpulan data yang beragam, dan relevansi adalah beberapa masalah yang perlu diselesaikan untuk mengembangkan teknik augmentasi data yang efisien.

Dalam hal skalabilitas, data yang diperbesar harus dapat diskalakan sehingga banyak model yang berbeda dapat menggunakannya. Anda akan ingin memastikan bahwa ini dapat diduplikasi untuk digunakan dalam model mendatang karena menyiapkan sistem augmentasi data yang menghasilkan sejumlah besar data yang relevan, berharga, dan disempurnakan dapat memakan waktu.

Dalam hal heterogenitas, berbagai kumpulan data memiliki fitur berbeda yang harus dipertimbangkan saat mengembangkan data tambahan. Untuk mengembangkan data yang disempurnakan yang sesuai, properti dari setiap kumpulan data harus digunakan.

Dengan kata lain, augmentasi data akan berbeda antara kumpulan data dan kasus penggunaan.

Terakhir, untuk menjamin bahwa keuntungan dari peningkatan data melebihi bahaya apa pun, data yang ditambah harus dievaluasi menggunakan metrik yang sesuai sebelum digunakan oleh model pembelajaran mesin.

Misalnya, adanya kebisingan latar belakang yang signifikan atau item yang tidak terkait dalam data augmented berbasis gambar dapat berdampak buruk pada kinerja model.

Kesimpulan

Pada akhirnya, apakah Anda mencoba memperkirakan kerugian, mengidentifikasi penipuan keuangan, atau membangun dengan lebih baik klasifikasi gambar model, augmentasi data adalah cara penting untuk membangun model yang lebih akurat dan kuat.

Melalui prosedur pelatihan yang unggul, prapemrosesan sederhana dan augmentasi data bahkan dapat membantu tim dalam mengembangkan model mutakhir.

Bisnis dapat memanfaatkan augmentasi data untuk mengurangi jumlah waktu yang dihabiskan untuk menyiapkan data pelatihan dan untuk membuat model pembelajaran mesin yang lebih akurat dan lebih cepat.

Dengan memperluas kuantitas data terkait dalam kumpulan data, augmentasi data juga dapat menguntungkan model pembelajaran mesin yang sudah memiliki banyak data.

Augmentasi Data: Penting untuk Model Pembelajaran Mesin

Jadi, apa itu Augmentasi Data?

Apa gunanya augmentasi data saat ini?