Data Sintetik Dijelaskan - Perkara Besar Seterusnya dalam AI, ML dan DL

Analitis lanjutan dan program pembelajaran mesin didorong oleh data, tetapi akses kepada data tersebut boleh menjadi sukar untuk ahli akademik disebabkan oleh cabaran dengan privasi dan prosedur perniagaan.

Data sintetik, yang boleh dikongsi dan digunakan dengan cara yang tidak boleh dilakukan oleh data sebenar, adalah arah baharu yang berpotensi untuk diteruskan. Walau bagaimanapun, strategi baharu ini bukan tanpa bahaya atau keburukan, oleh itu adalah penting bagi perniagaan mempertimbangkan dengan teliti di mana dan cara mereka menggunakan sumber mereka.

Dalam era AI semasa, kita juga boleh menyatakan bahawa data adalah minyak baharu, tetapi hanya segelintir terpilih yang duduk di atas pancaran. Oleh itu, ramai orang menghasilkan bahan api mereka sendiri, yang berpatutan dan cekap. Ia dikenali sebagai data sintetik.

Dalam siaran ini, kami akan melihat secara terperinci data sintetik—mengapa anda perlu menggunakannya, cara menghasilkannya, perkara yang membezakannya daripada data sebenar, kes penggunaan yang boleh digunakan dan banyak lagi.

Jadi, apakah itu Data Sintetik?

Apabila set data tulen tidak mencukupi dari segi kualiti, bilangan atau kepelbagaian, data sintetik boleh digunakan untuk melatih model AI menggantikan data sejarah sebenar.

Apabila data sedia ada tidak memenuhi keperluan perniagaan atau mempunyai risiko privasi apabila digunakan untuk membangun pembelajaran mesin model, perisian ujian, atau sebagainya, data sintetik boleh menjadi alat penting untuk usaha AI korporat.

Ringkasnya, data sintetik sering digunakan sebagai ganti data sebenar. Lebih tepat lagi, ia adalah data yang telah ditandakan secara buatan dan dihasilkan oleh simulasi atau algoritma komputer.

Data Sintetik

Data sintetik ialah maklumat yang telah dicipta oleh program komputer secara buatan dan bukannya hasil daripada kejadian sebenar. Syarikat boleh menambah data sintetik pada data latihan mereka untuk merangkumi semua situasi penggunaan dan kelebihan, mengurangkan kos pengumpulan data atau memenuhi peraturan privasi.

Data tiruan kini lebih mudah diakses berbanding sebelum ini berkat penambahbaikan dalam kuasa pemprosesan dan kaedah penyimpanan data seperti awan. Data sintetik meningkatkan penciptaan penyelesaian AI yang lebih bermanfaat untuk semua pengguna akhir, dan itu sudah pasti merupakan perkembangan yang baik.

Betapa pentingnya data sintetik dan mengapa anda perlu menggunakannya?

Apabila melatih model AI, pembangun kerap memerlukan set data yang besar dengan pelabelan yang tepat. Apabila diajar dengan data yang lebih pelbagai, rangkaian saraf melaksanakan dengan lebih tepat.

Walau bagaimanapun, mengumpul dan melabelkan set data besar-besaran ini yang mengandungi ratusan malah berjuta-juta item boleh memakan masa dan wang yang tidak munasabah. Harga untuk menghasilkan data latihan boleh dikurangkan dengan banyaknya dengan menggunakan data sintetik. Contohnya, jika dibuat secara buatan, imej latihan yang berharga $5 apabila dibeli daripada a pembekal pelabelan data mungkin hanya berharga $0.05.

Data sintetik boleh mengurangkan kebimbangan privasi yang berkaitan dengan data berpotensi sensitif yang dijana daripada dunia sebenar sambil juga mengurangkan perbelanjaan.

Berbanding dengan data tulen, yang tidak dapat menggambarkan dengan tepat spektrum fakta lengkap tentang dunia sebenar, ia mungkin membantu mengurangkan prasangka. Dengan menyediakan kejadian luar biasa yang mewakili kemungkinan yang munasabah tetapi mungkin mencabar untuk mendapatkan daripada data yang sah, data sintetik boleh menawarkan kepelbagaian yang lebih besar.

Data sintetik boleh menjadi sangat sesuai untuk projek anda atas sebab yang disenaraikan di bawah:

1. Kekukuhan model

Tanpa perlu memperolehnya, akses data yang lebih pelbagai untuk model anda. Dengan data sintetik, anda boleh melatih model anda menggunakan varian orang yang sama dengan pelbagai potongan rambut, rambut muka, cermin mata, pose kepala, dsb., serta ton kulit, sifat etnik, struktur tulang, jeragat dan ciri lain untuk menjana unik menghadapi dan menguatkannya.

2. Kes tepi diambil kira

Seimbang set data lebih disukai oleh pembelajaran mesin algoritma. Fikirkan kembali contoh pengecaman muka kami. Ketepatan model mereka akan bertambah baik (dan sebenarnya, sesetengah perniagaan ini melakukan perkara ini sahaja), dan mereka akan menghasilkan model yang lebih bermoral jika mereka telah menghasilkan data sintetik wajah berkulit gelap untuk mengisi jurang data mereka. Pasukan boleh merangkumi semua kes penggunaan, termasuk kes tepi apabila data terhad atau tiada, dengan bantuan data sintetik.

3. Ia boleh diperolehi lebih cepat daripada data "sebenar".

Pasukan dapat menjana sejumlah besar data sintetik dengan cepat. Ini amat berguna apabila data kehidupan sebenar bergantung pada peristiwa sporadis. Pasukan mungkin mendapati sukar untuk mendapatkan data dunia sebenar yang mencukupi mengenai keadaan jalan raya yang teruk semasa mengumpul data untuk kereta pandu sendiri, contohnya, kerana jarang berlaku. Untuk mempercepatkan proses anotasi yang susah payah, saintis data boleh menyediakan algoritma untuk melabelkan data sintetik secara automatik semasa ia dijana.

4. Ia menjamin maklumat privasi pengguna

Syarikat mungkin menghadapi masalah keselamatan semasa mengendalikan data sensitif, bergantung pada perniagaan dan jenis data. Maklumat kesihatan peribadi (PHI), misalnya, sering disertakan dalam data pesakit dalam dalam industri penjagaan kesihatan dan mesti dikendalikan dengan keselamatan yang terbaik.

Oleh kerana data sintetik tidak termasuk maklumat tentang orang sebenar, isu privasi dikurangkan. Pertimbangkan untuk menggunakan data sintetik sebagai alternatif jika pasukan anda perlu mematuhi undang-undang privasi data tertentu.

Data sebenar Vs Data sintetik

Dalam dunia sebenar, data sebenar diperoleh atau diukur. Apabila seseorang menggunakan telefon pintar, komputer riba atau komputer, memakai jam tangan, mengakses tapak web atau membuat transaksi dalam talian, jenis data ini dijana serta-merta.

Selain itu, tinjauan boleh digunakan untuk menyediakan data tulen (dalam talian dan luar talian). Tetapan digital menghasilkan data sintetik. Dengan pengecualian bahagian yang tidak diperoleh daripada sebarang peristiwa dunia nyata, data sintetik dicipta dengan cara yang berjaya meniru data sebenar dari segi kualiti asas.

Idea untuk menggunakan data sintetik sebagai pengganti kepada data sebenar adalah sangat menjanjikan kerana ia boleh digunakan untuk menyediakan data latihan bahawa pembelajaran mesin model memerlukan. Tetapi ia tidak pasti kecerdasan buatan dapat menyelesaikan setiap isu yang timbul di dunia sebenar.

Kes-kes penggunaan

Data sintetik berguna untuk pelbagai tujuan komersial, termasuk latihan model, pengesahan model dan ujian produk baharu. Kami akan menyenaraikan beberapa sektor yang telah menerajui penggunaannya kepada pembelajaran mesin:

1. Penjagaan Kesihatan

Memandangkan sensitiviti datanya, sektor penjagaan kesihatan sangat sesuai untuk penggunaan data sintetik. Data sintetik boleh digunakan oleh pasukan untuk merekodkan fisiologi setiap jenis pesakit yang mungkin wujud, sekali gus membantu dalam diagnosis penyakit yang lebih cepat dan tepat.

Healthcare

Model pengesanan melanoma Google ialah ilustrasi yang menarik kerana ia menggabungkan data sintetik orang yang mempunyai ton kulit yang lebih gelap (kawasan data klinikal yang malangnya kurang diwakili) untuk menyediakan model dengan kapasiti untuk berfungsi dengan berkesan untuk semua jenis kulit.

2. Automobiles

Simulator sering digunakan oleh syarikat yang mencipta kereta pandu sendiri untuk menilai prestasi. Apabila cuaca buruk, contohnya, mengumpul data jalan sebenar mungkin berisiko atau sukar.

Kereta Memandu Sendiri

Untuk bergantung pada ujian langsung dengan kereta sebenar di jalan raya secara amnya bukanlah idea yang baik kerana terdapat terlalu banyak pembolehubah untuk diambil kira dalam semua situasi pemanduan yang berbeza.

3. Kemudahalihan Data

Untuk dapat berkongsi data latihan mereka dengan orang lain, organisasi memerlukan kaedah yang boleh dipercayai dan selamat. Menyembunyikan maklumat pengenalan peribadi (PII) sebelum menjadikan set data awam ialah satu lagi aplikasi yang menarik untuk data sintetik. Pertukaran set data penyelidikan saintifik, data perubatan, data sosiologi dan bidang lain yang boleh mengandungi PII, dirujuk sebagai data sintetik yang memelihara privasi.

4. Keselamatan

Organisasi lebih selamat berkat data sintetik. Mengenai contoh pengecaman wajah kami sekali lagi, anda mungkin biasa dengan frasa "palsu mendalam", yang menerangkan foto atau video rekaan. Pemalsuan mendalam boleh dihasilkan oleh perniagaan untuk menguji pengecaman muka dan sistem keselamatan mereka sendiri. Data sintetik juga digunakan dalam pengawasan video untuk melatih model dengan lebih cepat dan pada kos yang lebih murah.

Data Sintetik dan Pembelajaran Mesin

Untuk membina model yang kukuh dan boleh dipercayai, algoritma pembelajaran mesin memerlukan sejumlah besar data untuk diproses. Sekiranya tiada data sintetik, menghasilkan volum data yang begitu besar akan menjadi mencabar.

Dalam domain seperti penglihatan komputer atau pemprosesan imej, di mana pembangunan model difasilitasi oleh pembangunan data sintetik awal, ia boleh menjadi sangat penting. Satu perkembangan baharu dalam bidang pengecaman gambar ialah penggunaan Generative Adversarial Networks (GAN). Biasanya terdiri daripada dua rangkaian: penjana dan diskriminator.

Walaupun rangkaian diskriminator bertujuan untuk memisahkan foto sebenar daripada foto palsu, rangkaian penjana berfungsi untuk menghasilkan imej sintetik yang jauh lebih serupa dengan imej dunia sebenar.

Dalam pembelajaran mesin, GAN ialah subset daripada keluarga rangkaian saraf, di mana kedua-dua rangkaian terus belajar dan berkembang dengan menambahkan nod dan lapisan baharu.

Apabila mencipta data sintetik, anda mempunyai pilihan untuk menukar persekitaran dan jenis data seperti yang diperlukan untuk meningkatkan prestasi model. Walaupun ketepatan untuk data sintetik boleh dicapai dengan mudah dengan skor yang kukuh, ketepatan untuk data masa nyata berlabel kadangkala boleh menjadi sangat mahal.

Bagaimanakah anda boleh menjana data sintetik?

Pendekatan yang digunakan untuk membuat pengumpulan data sintetik adalah seperti berikut:

Berdasarkan taburan statistik

Strategi yang digunakan dalam kes ini adalah untuk mengambil nombor daripada pengedaran atau melihat pengagihan statistik sebenar untuk mencipta data palsu yang kelihatan setanding. Data sebenar mungkin tiada sepenuhnya dalam beberapa keadaan.

Seorang saintis data boleh menjana set data yang mengandungi sampel rawak mana-mana taburan jika dia mempunyai pemahaman yang mendalam tentang taburan statistik dalam data sebenar. Taburan normal, taburan eksponen, taburan khi kuasa dua, taburan lognormal dan banyak lagi hanyalah beberapa contoh taburan kebarangkalian statistik yang boleh digunakan untuk melakukan ini.

Tahap pengalaman saintis data dengan situasi tersebut akan memberi kesan yang ketara pada ketepatan model terlatih.

Bergantung pada model

Teknik ini membina model yang mengambil kira tingkah laku yang diperhatikan sebelum menggunakan model tersebut untuk menjana data rawak. Pada dasarnya, ini melibatkan pemadanan data sebenar kepada data daripada pengedaran yang diketahui. Pendekatan Monte Carlo kemudiannya boleh digunakan oleh syarikat untuk mencipta data palsu.

Di samping itu, pengedaran juga boleh dipasang menggunakan model pembelajaran mesin seperti pokok keputusan. Saintis data mesti memberi perhatian kepada ramalan, walaupun, kerana pokok keputusan biasanya terlalu sesuai kerana kesederhanaan dan pengembangan mendalamnya.

Dengan pembelajaran yang mendalam

Pembelajaran yang mendalam model yang menggunakan model Variational Autoencoder (VAE) atau Generative Adversarial Network (GAN) ialah dua cara untuk mencipta data sintetik. Model pembelajaran mesin tanpa pengawasan termasuk VAE.

Mereka terdiri daripada pengekod, yang mengecil dan memampatkan data asal, dan penyahkod, yang meneliti data ini untuk memberikan perwakilan data sebenar. Mengekalkan data input dan output sama mungkin ialah objektif asas VAE. Dua rangkaian neural yang bertentangan ialah model GAN dan rangkaian lawan.

Rangkaian pertama, yang dikenali sebagai rangkaian penjana, bertanggungjawab untuk menghasilkan data palsu. Rangkaian diskriminator, rangkaian kedua, berfungsi dengan membandingkan data sintetik yang dicipta dengan data sebenar dalam usaha untuk mengenal pasti sama ada set data adalah penipuan. Diskriminator memberitahu penjana apabila ia menemui set data palsu.

Kumpulan data berikut yang diberikan kepada diskriminator kemudiannya diubah suai oleh penjana. Akibatnya, diskriminator menjadi lebih baik dari semasa ke semasa dalam mengesan set data palsu. Model jenis ini sering digunakan dalam sektor kewangan untuk pengesanan penipuan serta dalam sektor penjagaan kesihatan untuk pengimejan perubatan.

Pembesaran Data ialah kaedah berbeza yang digunakan oleh saintis data untuk menghasilkan lebih banyak data. Ia tidak sepatutnya disalah anggap dengan data palsu, walaupun. Ringkasnya, penambahan data ialah tindakan menambah data baharu pada set data tulen yang sudah wujud.

Mencipta beberapa gambar daripada satu imej, contohnya, dengan melaraskan orientasi, kecerahan, pembesaran dan banyak lagi. Kadangkala, set data sebenar digunakan dengan hanya maklumat peribadi yang tinggal. Anonimisasi data ialah ini, dan satu set data sedemikian juga tidak boleh dianggap sebagai data sintetik.

Cabaran & had data Sintetik

Walaupun data sintetik mempunyai pelbagai faedah yang boleh membantu firma dengan aktiviti sains data, data ini juga mempunyai batasan tertentu:

Kebolehpercayaan data: Umum mengetahui bahawa setiap model pembelajaran mesin/pembelajaran mendalam hanya sebaik data yang diberikan. Kualiti data sintetik dalam konteks ini sangat berkaitan dengan kualiti data input dan model yang digunakan untuk menghasilkan data. Adalah penting untuk memastikan bahawa tiada berat sebelah wujud dalam data sumber, kerana ini boleh dicerminkan dengan jelas dalam data sintetik. Selain itu, sebelum membuat sebarang ramalan, kualiti data hendaklah disahkan dan disahkan.
Memerlukan ilmu, usaha, dan masa: Walaupun mencipta data sintetik mungkin lebih mudah dan lebih murah daripada mencipta data tulen, ia memerlukan sedikit pengetahuan, masa dan usaha.
Meniru anomali: Replika sempurna data dunia sebenar tidak mungkin; data sintetik hanya boleh menghampirinya. Oleh itu, beberapa outlier yang wujud dalam data sebenar mungkin tidak dilindungi oleh data sintetik. Anomali data adalah lebih ketara daripada data biasa.
Mengawal pengeluaran dan memastikan kualiti: Data sintetik bertujuan untuk mereplikasi data dunia sebenar. Pengesahan manual data menjadi penting. Adalah penting untuk mengesahkan ketepatan data sebelum memasukkannya ke dalam model pembelajaran mesin/pembelajaran mendalam untuk set data rumit yang dibuat secara automatik menggunakan algoritma.
Maklum balas pengguna: Memandangkan data sintetik adalah konsep baru, tidak semua orang akan bersedia untuk mempercayai ramalan yang dibuat dengannya. Ini menunjukkan bahawa untuk meningkatkan kebolehterimaan pengguna, pertama sekali perlu meningkatkan pengetahuan tentang kegunaan data sintetik.

Masa depan

Penggunaan data sintetik telah meningkat secara mendadak dalam dekad sebelumnya. Walaupun ia menjimatkan masa dan wang syarikat, ia bukan tanpa kelemahannya. Ia tidak mempunyai outlier, yang berlaku secara semula jadi dalam data sebenar dan penting untuk ketepatan dalam sesetengah model.

Perlu diingatkan juga bahawa kualiti data sintetik selalunya bergantung pada data input yang digunakan untuk penciptaan; berat sebelah dalam data input boleh merebak dengan cepat ke dalam data sintetik, oleh itu memilih data berkualiti tinggi sebagai titik permulaan tidak boleh dilebih-lebihkan.

Akhir sekali, ia memerlukan kawalan keluaran selanjutnya, termasuk membandingkan data sintetik dengan data sebenar beranotasi manusia untuk mengesahkan bahawa percanggahan tidak diperkenalkan. Walaupun terdapat halangan ini, data sintetik kekal sebagai medan yang menjanjikan.

Ia membantu kami mencipta penyelesaian AI baharu walaupun data dunia sebenar tidak tersedia. Paling ketara, ia membolehkan perusahaan membina produk yang lebih inklusif dan menunjukkan kepelbagaian pengguna akhir mereka.

Walau bagaimanapun, pada masa hadapan yang dipacu data, data sintetik berhasrat untuk membantu saintis data melaksanakan tugas-tugas baru dan kreatif yang akan mencabar untuk diselesaikan dengan data dunia sebenar sahaja.

Kesimpulan

Dalam kes tertentu, data sintetik boleh mengurangkan defisit data atau kekurangan data yang berkaitan dalam perniagaan atau organisasi. Kami juga melihat strategi yang boleh membantu dalam penjanaan data sintetik dan siapa yang boleh mendapat keuntungan daripadanya.

Kami juga bercakap tentang beberapa kesukaran yang datang dengan menangani data sintetik. Untuk membuat keputusan komersial, data sebenar akan sentiasa diutamakan. Walau bagaimanapun, data realistik ialah pilihan terbaik seterusnya apabila data mentah yang benar itu tidak boleh diakses untuk analisis.

Walau bagaimanapun, perlu diingat bahawa untuk menghasilkan data sintetik, saintis data dengan pemahaman yang kukuh tentang pemodelan data diperlukan. Pemahaman menyeluruh tentang data sebenar dan persekitarannya juga penting. Ini penting untuk memastikan bahawa, jika tersedia, data yang dihasilkan adalah setepat yang mungkin.

Data Sintetik Dijelaskan – Perkara Besar Seterusnya dalam AI, ML dan DL

Jadi, apakah itu Data Sintetik?