Penjelasan Data Sintetis - Hal Besar Berikutnya dalam AI, ML, dan DL

Program analitik dan pembelajaran mesin tingkat lanjut didorong oleh data, tetapi akses ke data itu bisa jadi sulit bagi akademisi karena tantangan dengan privasi dan prosedur bisnis.

Data sintetis, yang dapat dibagikan dan digunakan dengan cara yang tidak dapat dilakukan oleh data aktual, merupakan arah baru yang potensial untuk dikejar. Namun, strategi baru ini bukannya tanpa bahaya atau kerugian, oleh karena itu penting bagi bisnis untuk mempertimbangkan dengan cermat di mana dan bagaimana mereka menggunakan sumber daya mereka.

Di era AI saat ini, kami juga dapat menyatakan bahwa data adalah minyak baru, tetapi hanya beberapa yang terpilih. Oleh karena itu, banyak orang memproduksi bahan bakar sendiri, yang terjangkau dan efisien. Ini dikenal sebagai data sintetis.

Dalam postingan ini, kita akan melihat detail data sintetik—mengapa Anda harus menggunakannya, cara memproduksinya, apa yang membuatnya berbeda dari data sebenarnya, kasus penggunaan apa yang dapat dilayaninya, dan banyak lagi.

Jadi, apa itu Data Sintetis?

Ketika kumpulan data asli tidak memadai dalam hal kualitas, jumlah, atau keragaman, data sintetis dapat digunakan untuk melatih model AI menggantikan data historis yang sebenarnya.

Ketika data yang ada tidak memenuhi persyaratan bisnis atau memiliki risiko privasi saat digunakan untuk pengembangan Mesin belajar model, perangkat lunak uji, atau sejenisnya, data sintetis dapat menjadi alat yang signifikan untuk upaya AI perusahaan.

Sederhananya, data sintetis sering digunakan sebagai pengganti data aktual. Lebih tepatnya, itu adalah data yang telah diberi tag artifisial dan diproduksi oleh simulasi atau algoritme komputer.

Data Sintetis

Data sintetik adalah informasi yang telah dibuat oleh program komputer secara artifisial dan bukan sebagai hasil dari kejadian yang sebenarnya. Perusahaan dapat menambahkan data sintetis ke data pelatihan mereka untuk mencakup semua penggunaan dan situasi tepi, mengurangi biaya pengumpulan data, atau memenuhi peraturan privasi.

Data buatan sekarang lebih mudah diakses dari sebelumnya berkat peningkatan dalam kekuatan pemrosesan dan metode penyimpanan data seperti cloud. Data sintetis meningkatkan pembuatan solusi AI yang lebih bermanfaat bagi semua pengguna akhir, dan itu tidak diragukan lagi merupakan perkembangan yang baik.

Seberapa penting data sintetis dan mengapa Anda harus menggunakannya?

Saat melatih model AI, pengembang sering kali membutuhkan kumpulan data besar dengan pelabelan yang tepat. Ketika diajarkan dengan data yang lebih bervariasi, jaringan saraf tampil lebih akurat.

Namun, mengumpulkan dan memberi label kumpulan data besar yang berisi ratusan atau bahkan jutaan item ini dapat menghabiskan waktu dan uang secara tidak wajar. Harga produksi data pelatihan dapat sangat dikurangi dengan menggunakan data sintetis. Misalnya, jika dibuat secara artifisial, gambar pelatihan yang berharga $5 saat dibeli dari a penyedia pelabelan data mungkin hanya berharga $0.05.

Data sintetis dapat meringankan masalah privasi terkait dengan data yang berpotensi sensitif yang dihasilkan dari dunia nyata sekaligus mengurangi biaya.

Dibandingkan dengan data asli, yang tidak dapat secara tepat mencerminkan spektrum lengkap fakta tentang dunia nyata, ini mungkin membantu mengurangi prasangka. Dengan memberikan kejadian tidak biasa yang mewakili kemungkinan yang masuk akal tetapi mungkin sulit didapat dari data yang sah, data sintetis dapat menawarkan keragaman yang lebih besar.

Data sintetis bisa sangat cocok untuk proyek Anda karena alasan yang tercantum di bawah ini:

1. Kekokohan model

Tanpa harus mendapatkannya, akses data yang lebih bervariasi untuk model Anda. Dengan data sintetis, Anda dapat melatih model Anda menggunakan varian orang yang sama dengan berbagai potongan rambut, rambut wajah, kacamata, pose kepala, dll., serta warna kulit, sifat etnis, struktur tulang, bintik-bintik, dan karakteristik lainnya untuk menghasilkan keunikan menghadapi dan memperkuatnya.

2. Kasus tepi diperhitungkan

Seimbang kumpulan data lebih disukai oleh pembelajaran mesin algoritma. Pikirkan kembali contoh pengenalan wajah kita. Keakuratan model mereka akan meningkat (dan pada kenyataannya, beberapa bisnis ini melakukan hal ini), dan mereka akan menghasilkan model yang lebih bermoral jika mereka telah menghasilkan data sintetis dari wajah berkulit lebih gelap untuk mengisi kesenjangan data mereka. Tim dapat mencakup semua kasus penggunaan, termasuk kasus tepi di mana data langka atau tidak ada, dengan bantuan data sintetis.

3. Dapat diperoleh lebih cepat daripada data "sebenarnya"

Tim dapat menghasilkan sejumlah besar data sintetis dengan cepat. Ini sangat berguna ketika data kehidupan nyata bergantung pada peristiwa sporadis. Tim mungkin merasa sulit untuk mendapatkan data dunia nyata yang cukup tentang kondisi jalan yang parah saat mengumpulkan data untuk mobil self-driving, misalnya, karena kelangkaannya. Untuk mempercepat proses anotasi yang melelahkan, ilmuwan data dapat memasang algoritme untuk secara otomatis memberi label pada data sintetis saat dihasilkan.

4. Ini mengamankan informasi privasi pengguna

Perusahaan mungkin mengalami kesulitan keamanan saat menangani data sensitif, tergantung pada bisnis dan jenis data. Informasi kesehatan pribadi (PHI), misalnya, sering disertakan dalam data rawat inap di industri perawatan kesehatan dan harus ditangani dengan keamanan tertinggi.

Karena data sintetis tidak menyertakan informasi tentang orang yang sebenarnya, masalah privasi berkurang. Pertimbangkan untuk menggunakan data sintetis sebagai alternatif jika tim Anda harus mematuhi undang-undang privasi data tertentu.

Data nyata Vs Data sintetis

Di dunia nyata, data nyata diperoleh atau diukur. Ketika seseorang menggunakan smartphone, laptop, atau komputer, memakai jam tangan, mengakses situs web, atau melakukan transaksi online, jenis data ini dihasilkan secara instan.

Selain itu, survei dapat digunakan untuk memberikan data asli (online dan offline). Pengaturan digital menghasilkan data sintetis. Dengan pengecualian bagian yang tidak diturunkan dari peristiwa dunia nyata apa pun, data sintetis dibuat dengan cara yang berhasil meniru data aktual dalam hal kualitas fundamental.

Ide untuk menggunakan data sintetik sebagai pengganti data aktual sangat menjanjikan karena dapat digunakan untuk menyediakan data pelatihan yang pembelajaran mesin model membutuhkan. Tapi belum tentu itu kecerdasan buatan dapat menyelesaikan setiap masalah yang muncul di dunia nyata.

Gunakan kasus

Data sintetis berguna untuk berbagai tujuan komersial, termasuk pelatihan model, validasi model, dan pengujian produk baru. Kami akan mencantumkan beberapa sektor yang telah memimpin dalam penerapannya pada pembelajaran mesin:

1. Peduli Kesehatan

Mengingat sensitivitas datanya, sektor perawatan kesehatan sangat cocok untuk penggunaan data sintetis. Data sintetis dapat digunakan oleh tim untuk merekam fisiologi setiap jenis pasien yang mungkin ada, sehingga membantu diagnosis penyakit yang lebih cepat dan akurat.

Kesehatan

Model deteksi melanoma Google adalah ilustrasi yang menarik karena menggabungkan data sintetis dari orang-orang dengan warna kulit lebih gelap (area data klinis yang sayangnya kurang terwakili) untuk memberikan model kemampuan untuk berfungsi secara efektif untuk semua jenis kulit.

2. Mobil

Simulator sering digunakan oleh perusahaan yang membuat mobil self-driving untuk mengevaluasi kinerja. Saat cuaca buruk, misalnya, mengumpulkan data jalan yang sebenarnya mungkin berisiko atau sulit.

Mobil Mengemudi Sendiri

Mengandalkan tes langsung dengan mobil yang sebenarnya di jalan umumnya bukan ide yang baik karena ada terlalu banyak variabel yang harus diperhitungkan dalam semua situasi mengemudi yang berbeda.

3. Portabilitas Data

Untuk dapat berbagi data pelatihan mereka dengan orang lain, organisasi memerlukan metode yang dapat dipercaya dan aman. Menyembunyikan informasi pengenal pribadi (PII) sebelum membuat kumpulan data publik adalah aplikasi menarik lainnya untuk data sintetis. Pertukaran set data penelitian ilmiah, data medis, data sosiologis, dan bidang lain yang dapat berisi PII, disebut sebagai data sintetis yang menjaga privasi.

4. Keamanan

Organisasi lebih aman berkat data sintetis. Mengenai contoh pengenalan wajah kami lagi, Anda mungkin akrab dengan frasa “palsu yang dalam”, yang menggambarkan foto atau video palsu. Palsu yang dalam dapat diproduksi oleh bisnis untuk menguji pengenalan wajah dan sistem keamanan mereka sendiri. Data sintetis juga digunakan dalam pengawasan video untuk melatih model lebih cepat dan dengan biaya lebih murah.

Data Sintetis dan Pembelajaran Mesin

Untuk membangun model yang solid dan tepercaya, algoritme pembelajaran mesin membutuhkan sejumlah besar data untuk diproses. Dengan tidak adanya data sintetis, menghasilkan volume data yang begitu besar akan menjadi tantangan.

Dalam domain seperti visi komputer atau pemrosesan gambar, di mana pengembangan model difasilitasi oleh pengembangan data sintetis awal, itu bisa sangat signifikan. Perkembangan baru di bidang pengenalan gambar adalah penggunaan Generative Adversarial Networks (GANs). Biasanya terdiri dari dua jaringan: generator dan diskriminator.

Sementara jaringan diskriminator bertujuan untuk memisahkan foto asli dari foto palsu, jaringan generator berfungsi untuk menghasilkan gambar sintetis yang jauh lebih mirip dengan gambar dunia nyata.

Dalam pembelajaran mesin, GAN adalah bagian dari keluarga jaringan saraf, di mana kedua jaringan terus belajar dan berkembang dengan menambahkan node dan lapisan baru.

Saat membuat data sintetis, Anda memiliki opsi untuk mengubah lingkungan dan jenis data sesuai kebutuhan untuk meningkatkan kinerja model. Sementara akurasi untuk data sintetis dapat dengan mudah dicapai dengan skor yang kuat, akurasi untuk data real-time berlabel terkadang bisa sangat mahal.

Bagaimana Anda dapat menghasilkan data sintetis?

Pendekatan yang digunakan untuk membuat kumpulan data sintetik adalah sebagai berikut:

Berdasarkan distribusi statistik

Strategi yang digunakan dalam hal ini adalah dengan mengambil angka dari sebaran atau dengan melihat sebaran statistik yang sebenarnya untuk membuat data palsu yang terlihat sebanding. Data nyata mungkin sama sekali tidak ada dalam beberapa keadaan.

Seorang ilmuwan data dapat menghasilkan kumpulan data yang berisi sampel acak dari distribusi apa pun jika ia memiliki pemahaman yang mendalam tentang distribusi statistik dalam data aktual. Distribusi normal, distribusi eksponensial, distribusi chi-kuadrat, distribusi lognormal, dan banyak lagi hanyalah beberapa contoh distribusi probabilitas statistik yang dapat digunakan untuk melakukan ini.

Tingkat pengalaman ilmuwan data dengan situasi tersebut akan berdampak signifikan pada akurasi model yang dilatih.

Tergantung modelnya

Teknik ini membangun model yang memperhitungkan perilaku yang diamati sebelum menggunakan model itu untuk menghasilkan data acak. Intinya, ini melibatkan pemasangan data nyata ke data dari distribusi yang diketahui. Pendekatan Monte Carlo kemudian dapat digunakan oleh perusahaan untuk membuat data palsu.

Selain itu, distribusi juga dapat dipasang menggunakan model pembelajaran mesin seperti pohon keputusan. Ilmuwan data harus memperhatikan ramalan, karena pohon keputusan biasanya overfit karena kesederhanaan dan perluasan kedalamannya.

Dengan pembelajaran yang mendalam

Belajar mendalam model yang menggunakan model Variational Autoencoder (VAE) atau Generative Adversarial Network (GAN) adalah dua cara untuk membuat data sintetis. Model pembelajaran mesin tanpa pengawasan mencakup VAE.

Mereka terdiri dari encoder, yang mengecilkan dan memadatkan data asli, dan decoder, yang meneliti data ini untuk memberikan representasi data nyata. Menjaga data input dan output seidentik mungkin adalah tujuan dasar VAE. Dua jaringan saraf yang berlawanan adalah model GAN dan jaringan permusuhan.

Jaringan pertama, yang dikenal sebagai jaringan generator, bertugas menghasilkan data palsu. Jaringan diskriminator, jaringan kedua, bekerja dengan membandingkan data sintetis yang dibuat dengan data aktual dalam upaya mengidentifikasi apakah kumpulan data tersebut curang. Diskriminator memberi tahu generator ketika menemukan kumpulan data palsu.

Kumpulan data berikut yang diberikan kepada diskriminator selanjutnya dimodifikasi oleh generator. Akibatnya, pembeda menjadi lebih baik dari waktu ke waktu dalam menemukan kumpulan data palsu. Model semacam ini sering digunakan di sektor keuangan untuk deteksi penipuan serta di sektor kesehatan untuk pencitraan medis.

Augmentasi Data adalah metode berbeda yang digunakan ilmuwan data untuk menghasilkan lebih banyak data. Namun, itu tidak boleh disalahartikan dengan data palsu. Sederhananya, augmentasi data adalah tindakan menambahkan data baru ke kumpulan data asli yang sudah ada.

Membuat beberapa gambar dari satu gambar, misalnya dengan mengatur orientasi, kecerahan, perbesaran, dan lainnya. Terkadang, kumpulan data aktual digunakan hanya dengan informasi pribadi yang tersisa. Anonimisasi data adalah apa adanya, dan sekumpulan data tersebut juga tidak dapat dianggap sebagai data sintetis.

Tantangan & batasan data Sintetis

Meskipun data sintetik memiliki berbagai manfaat yang dapat membantu perusahaan dengan aktivitas ilmu data, data sintetik juga memiliki keterbatasan tertentu:

Keandalan data: Sudah menjadi rahasia umum bahwa setiap model pembelajaran mesin/pembelajaran dalam hanya sebaik data yang dimasukkan. Kualitas data sintetik dalam konteks ini sangat terkait dengan kualitas data input dan model yang digunakan untuk menghasilkan data tersebut. Sangat penting untuk memastikan bahwa tidak ada bias dalam data sumber, karena bias ini dapat dicerminkan dengan sangat jelas dalam data sintetik. Selanjutnya, sebelum membuat prakiraan, kualitas data harus dikonfirmasi dan diverifikasi.
Membutuhkan pengetahuan, usaha, dan waktu: Meskipun membuat data sintetis bisa lebih sederhana dan lebih murah daripada membuat data asli, itu memang membutuhkan pengetahuan, waktu, dan usaha.
Mereplikasi anomali: Replika sempurna dari data dunia nyata tidak mungkin; data sintetis hanya dapat memperkirakannya. Oleh karena itu, beberapa outlier yang ada pada data nyata mungkin tidak tercakup oleh data sintetik. Anomali data lebih signifikan daripada data biasa.
Mengontrol produksi dan memastikan kualitas: Data sintetis dimaksudkan untuk mereplikasi data dunia nyata. Verifikasi manual data menjadi penting. Sangat penting untuk memverifikasi keakuratan data sebelum memasukkannya ke dalam model pembelajaran mesin/pembelajaran mendalam untuk kumpulan data rumit yang dibuat secara otomatis menggunakan algoritme.
Umpan balik pengguna: Karena data sintetis adalah konsep baru, tidak semua orang akan siap untuk memercayai perkiraan yang dibuat dengannya. Hal ini menunjukkan bahwa untuk meningkatkan akseptabilitas pengguna, pertama-tama perlu meningkatkan pengetahuan tentang kegunaan data sintetik.

Masa depan

Penggunaan data sintetis telah meningkat secara dramatis dalam dekade sebelumnya. Meskipun menghemat waktu dan uang perusahaan, itu bukan tanpa kekurangannya. Ini tidak memiliki outlier, yang terjadi secara alami dalam data aktual dan sangat penting untuk akurasi dalam beberapa model.

Perlu juga dicatat bahwa kualitas data sintetis sering kali bergantung pada data input yang digunakan untuk pembuatan; bias dalam data input dapat dengan cepat menyebar ke data sintetis, sehingga memilih data berkualitas tinggi sebagai titik awal tidak boleh berlebihan.

Akhirnya, perlu kontrol output lebih lanjut, termasuk membandingkan data sintetis dengan data nyata yang dianotasi manusia untuk memverifikasi bahwa tidak ada perbedaan. Terlepas dari hambatan ini, data sintetis tetap menjadi bidang yang menjanjikan.

Ini membantu kami membuat solusi AI baru bahkan ketika data dunia nyata tidak tersedia. Yang paling penting, ini memungkinkan perusahaan untuk membangun produk yang lebih inklusif dan menunjukkan keragaman konsumen akhir mereka.

Namun, di masa depan yang didorong oleh data, data sintetis bermaksud membantu para ilmuwan data untuk melakukan tugas-tugas baru dan kreatif yang akan menantang untuk diselesaikan dengan data dunia nyata saja.

Kesimpulan

Dalam kasus tertentu, data sintetis dapat mengurangi defisit data atau kekurangan data yang relevan di dalam bisnis atau organisasi. Kami juga melihat strategi mana yang dapat membantu dalam pembuatan data sintetis dan siapa yang dapat mengambil keuntungan darinya.

Kami juga berbicara tentang beberapa kesulitan yang datang dengan berurusan dengan data sintetis. Untuk pengambilan keputusan komersial, data nyata akan selalu disukai. Namun, data realistis adalah pilihan terbaik berikutnya ketika data mentah yang sebenarnya tidak dapat diakses untuk analisis.

Namun, harus diingat bahwa untuk menghasilkan data sintetik, diperlukan data scientist dengan pemahaman yang kuat tentang pemodelan data. Pemahaman menyeluruh tentang data nyata dan sekitarnya juga penting. Ini penting untuk memastikan bahwa, jika tersedia, data yang dihasilkan seakurat mungkin.

Penjelasan Data Sintetis – Hal Besar Berikutnya dalam AI, ML, dan DL

Jadi, apa itu Data Sintetis?