Pelabelan Data - Penting untuk model AI

Ramai membayangkan robot seperti yang terdapat dalam filem fiksyen sains yang meniru atau bahkan mengatasi intelek manusia apabila mereka mendengar istilah kecerdasan buatan, pembelajaran mendalam dan pembelajaran mesin.

Orang lain berpendapat bahawa peranti ini hanya mengambil maklumat dan belajar daripadanya sendiri. Nah… Ia sedikit menipu. Pelabelan data ialah kaedah yang digunakan untuk melatih komputer menjadi "pintar", kerana ia mempunyai keupayaan terhad tanpa arahan manusia.

Untuk melatih komputer untuk bertindak "bijak", kami memasukkan data dalam pelbagai bentuk dan mengajarnya pelbagai strategi dengan bantuan pelabelan data.

Set data mesti diberi anotasi atau dilabelkan dengan pelbagai pilih atur maklumat yang sama sebagai sebahagian daripada pelabelan data asas sains.

Usaha dan dedikasi yang dimasukkan ke dalam produk akhir patut dipuji, walaupun ia mengejutkan dan menjadikan kehidupan seharian kita lebih mudah.

Ketahui tentang pelabelan data dalam artikel ini untuk mengetahui maksudnya, cara ia berfungsi, jenis pelabelan data yang berbeza, halangan dan banyak lagi.

Jadi, apakah itu Pelabelan Data?

In pembelajaran mesin, kaliber dan sifat data input menentukan kaliber dan sifat keluaran. Ketepatan model AI anda dipertingkatkan oleh kaliber data yang digunakan untuk melatihnya.

Dalam istilah lain, pelabelan data ialah tindakan melabel atau menganotasi set data tidak berstruktur atau berstruktur yang berbeza untuk mengajar komputer mengenal pasti perbezaan dan corak antara mereka.

Ilustrasi akan membantu anda memahami perkara ini. Ia adalah perlu untuk menandakan setiap lampu merah dalam pelbagai imej untuk komputer mengetahui bahawa lampu merah adalah isyarat untuk berhenti.

Atas dasar ini, AI membangunkan algoritma yang, dalam setiap situasi, akan mentafsir lampu merah sebagai petunjuk berhenti. Ilustrasi lain ialah keupayaan untuk mengkategorikan set data yang berbeza di bawah tajuk jazz, pop, rock, klasik dan banyak lagi untuk memisahkan genre muzik yang berbeza.

Ringkasnya, pelabelan data dalam pembelajaran mesin merujuk kepada proses mengesan data tidak berlabel (seperti foto, fail teks, video, dll.) dan menambah satu atau lebih label yang berkaitan untuk menawarkan konteks supaya model pembelajaran mesin boleh belajar daripada ia.

Label boleh menyatakan, sebagai contoh, jika x-ray menunjukkan tumor atau tidak, perkataan yang disebut dalam klip audio, atau jika gambar burung atau kereta.

Pelabelan data adalah penting untuk beberapa kes penggunaan, termasuk pengecaman pertuturan, penglihatan komputer, dan pemprosesan bahasa semula jadi.

Pelabelan data: Mengapa ia Penting?

Pertama, revolusi perindustrian keempat tertumpu kepada kemahiran mesin latihan. Akibatnya, ia berada di kedudukan antara kemajuan perisian yang paling ketara pada masa kini.

Sistem pembelajaran mesin anda perlu dibuat, yang melibatkan pelabelan data. Ia menetapkan keupayaan sistem. Tiada sistem jika data tidak dilabel.

Kemungkinan dengan pelabelan data hanya dihadkan oleh kreativiti anda. Sebarang tindakan yang anda boleh petakan ke dalam sistem akan berulang dengan maklumat baharu.

Maksudnya jenis, kuantiti dan kepelbagaian data yang anda boleh ajar sistem akan menentukan kecerdasan dan keupayaannya.

Yang kedua ialah kerja pelabelan data datang sebelum kerja sains data. Sehubungan itu, pelabelan data adalah perlu untuk sains data. Kegagalan dan kesilapan dalam pelabelan data menjejaskan sains data. Sebagai alternatif, gunakan klise yang lebih kasar, "masuk sampah, buang sampah."

Ketiga, Seni Pelabelan Data menandakan perubahan dalam cara orang mendekati pembangunan sistem AI. Kami secara serentak memperhalusi struktur pelabelan data untuk memenuhi matlamat kami dengan lebih baik daripada hanya cuba mempertingkatkan teknik matematik.

Automasi moden adalah berdasarkan ini, dan ia merupakan pusat Transformasi AI yang sedang dijalankan. Kini lebih daripada sebelumnya, kerja pengetahuan sedang dijenterakan.

Bagaimanakah pelabelan data berfungsi?

Susunan kronologi berikut diikuti semasa prosedur pelabelan data.

Pengumpulan data

Data adalah asas kepada sebarang usaha pembelajaran mesin. Peringkat awal dalam pelabelan data terdiri daripada mengumpul jumlah data mentah yang sesuai dalam bentuk yang berbeza.

Pengumpulan data boleh mengambil salah satu daripada dua bentuk: sama ada ia datang daripada sumber dalaman yang telah digunakan oleh perniagaan atau ia datang daripada sumber luaran yang boleh diakses secara umum.

Memandangkan ia dalam bentuk mentah, data ini perlu dibersihkan dan diproses sebelum label set data dibuat. Model tersebut kemudiannya dilatih menggunakan data yang telah dibersihkan dan dipraproses ini. Penemuan akan lebih tepat lebih besar dan lebih pelbagai set data.

Menganotasi data

Selepas pembersihan data, pakar domain memeriksa data dan menggunakan label menggunakan beberapa teknik pelabelan data. Model ini mempunyai konteks yang bermakna yang boleh digunakan sebagai kebenaran asas.

Ini ialah pembolehubah yang anda mahu model ramalkan, seperti foto.

Jaminan kualiti

Kualiti data, yang sepatutnya boleh dipercayai, tepat dan konsisten, adalah penting untuk kejayaan latihan model ML. Ujian QA biasa mesti dilaksanakan untuk menjamin pelabelan data yang tepat dan betul ini.

Anda boleh menilai ketepatan anotasi ini dengan menggunakan teknik QA seperti ujian alfa Konsensus dan Cronbach. Ketepatan keputusan dipertingkatkan dengan ketara oleh pemeriksaan QA rutin.

Model latihan & ujian

Prosedur yang disebutkan di atas hanya masuk akal jika data diperiksa untuk ketepatannya. Teknik ini akan diuji dengan memasukkan set data tidak berstruktur untuk menyemak sama ada ia menghasilkan hasil yang diingini.

Strategi pelabelan data

Pelabelan data adalah proses yang sukar yang memerlukan perhatian terhadap perincian. Kaedah yang digunakan untuk menganotasi data akan berbeza-beza bergantung pada pernyataan isu, jumlah data yang perlu ditanda, betapa rumitnya data dan gaya.

Mari kita lihat beberapa pilihan yang ada pada perniagaan anda, bergantung pada sumber yang dimiliki dan masa yang tersedia.

Pelabelan data secara dalaman

Seperti namanya, pelabelan data dalaman dilakukan oleh pakar dalam syarikat. Apabila anda mempunyai masa, kakitangan dan sumber kewangan yang mencukupi, ini adalah pilihan terbaik kerana ia memastikan pelabelan yang paling tepat. Namun, ia bergerak perlahan.

Outsourcing

Pilihan lain untuk menyelesaikan sesuatu ialah mengupah pekerja bebas untuk tugas pelabelan data yang boleh ditemui di pelbagai pasaran mencari pekerjaan dan bebas seperti Upwork.

Penyumberan luar ialah pilihan pantas untuk mendapatkan perkhidmatan pelabelan data, walau bagaimanapun, kualiti mungkin terjejas, sama seperti kaedah sebelumnya.

crowdsourcing

Anda boleh log masuk sebagai peminta dan mengedarkan pelbagai kerja pelabelan kepada kontraktor yang tersedia pada platform penyumberan ramai khusus seperti Amazon Mechanical Turk (MTurk).

Kaedah ini, walaupun agak cepat dan murah, tidak dapat memberikan data beranotasi yang berkualiti.

Pelabelan data secara automatik.

Prosedur ini mungkin dibantu oleh perisian selain dijalankan secara manual. Menggunakan pendekatan pembelajaran aktif, teg boleh ditemui secara automatik dan ditambah pada set data latihan.

Pada dasarnya, pakar manusia membangunkan model AI Auto-label untuk menandakan data mentah yang tidak berlabel. Kemudian mereka memutuskan sama ada model itu menggunakan pelabelan dengan sewajarnya. Manusia membetulkan kesilapan selepas kegagalan dan melatih semula algoritma.

Pembangunan data sintetik.

Sebagai ganti data dunia sebenar, data sintetik ialah set data berlabel yang dihasilkan secara buatan. Ia dihasilkan oleh algoritma atau simulasi komputer dan sering digunakan untuk melatih model pembelajaran mesin.

Data sintetik ialah jawapan yang sangat baik kepada isu kekurangan dan kepelbagaian data dalam konteks prosedur pelabelan. Penciptaan data sintetik dari awal menawarkan penyelesaian.

Penciptaan tetapan 3D dengan item dan sekeliling model mesti dapat dikenali oleh pembangun set data. Sebanyak data sintetik yang diperlukan untuk projek boleh diberikan.

Cabaran Pelabelan Data

Memerlukan lebih banyak masa dan usaha

Selain mencabar untuk mendapatkan sejumlah besar data (terutamanya untuk industri yang sangat khusus seperti penjagaan kesihatan), melabel setiap data dengan tangan adalah intensif buruh dan susah payah, memerlukan bantuan pelabel manusia.

Hampir 80% daripada masa yang dibelanjakan untuk projek sepanjang keseluruhan kitaran pembangunan ML dibelanjakan untuk penyediaan data, yang termasuk pelabelan.

Kemungkinan untuk tidak konsisten

Selalunya, pelabelan silang, yang berlaku apabila ramai orang melabel set data yang sama, menghasilkan ketepatan yang lebih tinggi.

Walau bagaimanapun, disebabkan individu kadangkala mempunyai tahap kecekapan yang berbeza-beza, piawaian pelabelan dan label itu sendiri boleh menjadi tidak konsisten, yang merupakan isu lain, Ada kemungkinan untuk dua atau lebih anotor tidak bersetuju dengan beberapa teg.

Sebagai contoh, seorang pakar boleh menilai ulasan hotel sebagai baik manakala yang lain akan menganggapnya sebagai sindiran dan memberikannya penilaian yang rendah.

Pengetahuan domain

Anda akan merasakan keperluan untuk mengupah pelabel dengan pengetahuan industri khusus untuk beberapa sektor.

Anotasi tanpa pengetahuan domain yang diperlukan, misalnya, akan menghadapi masa yang sangat sukar untuk menandai item dengan sewajarnya semasa membuat aplikasi ML untuk sektor penjagaan kesihatan.

Kecenderungan kepada kesilapan

Pelabelan manual tertakluk kepada kesilapan manusia, tidak kira betapa berpengetahuan dan berhati-hati pelabel anda. Disebabkan fakta bahawa anotor kerap bekerja dengan set data mentah yang besar, ini tidak dapat dielakkan.

Bayangkan seseorang menganotasi 100,000 imej dengan sehingga 10 perkara berbeza.

Jenis biasa Pelabelan Data

Visi Komputer

Untuk membangunkan set data latihan anda, anda mesti terlebih dahulu melabelkan gambar, piksel atau titik penting, atau mewujudkan sempadan yang melampirkan sepenuhnya imej digital, yang dikenali sebagai kotak sempadan, apabila membina sistem penglihatan komputer.

Gambar boleh dikategorikan dalam pelbagai cara, termasuk mengikut kandungan (apa yang sebenarnya dalam imej itu sendiri) dan kualiti (seperti gambar produk vs gaya hidup).

Imej juga boleh dibahagikan kepada segmen pada tahap piksel. Model penglihatan komputer yang dibangunkan menggunakan data latihan ini kemudiannya boleh digunakan untuk mengklasifikasikan imej secara automatik, menentukan lokasi objek, menyerlahkan kawasan utama dalam imej, dan membahagikan imej.

Pemprosesan Bahasa Asli

Sebelum menghasilkan set data latihan pemprosesan bahasa semula jadi anda, anda mesti memilih serpihan teks yang berkaitan secara manual atau mengelaskan bahan tersebut dengan label tertentu.

Sebagai contoh, anda mungkin ingin mengenali corak pertuturan, mengklasifikasikan kata nama khas seperti tempat dan orang, dan mengenal pasti teks dalam imej, PDF atau media lain. Anda juga mungkin ingin menentukan sentimen atau niat bagi blurb teks.

Buat kotak sempadan di sekeliling teks dalam set data latihan anda untuk mencapai ini, dan kemudian transkripsikannya secara manual.

Pengecaman aksara optik, pengenalan nama entiti dan analisis sentimen semuanya dilakukan menggunakan model pemprosesan bahasa semula jadi.

Pemprosesan Audio

Pemprosesan audio mengubah semua jenis bunyi ke dalam format berstruktur supaya ia boleh digunakan dalam pembelajaran mesin, termasuk pertuturan, bunyi haiwan (salak, wisel atau kicauan) dan bunyi bangunan (kaca pecah, imbasan atau siren).

Selalunya, sebelum anda boleh mengendalikan audio, anda mesti menukarnya secara manual kepada teks. Selepas itu, dengan mengkategorikan dan menambahkan teg pada audio, anda boleh mengetahui maklumat yang lebih mendalam tentangnya. awak set data latihan adakah ini audio terperingkat.

Kesimpulan

Kesimpulannya, mengenal pasti data anda adalah bahagian penting dalam melatih mana-mana model AI. Organisasi yang pantas, bagaimanapun, tidak mampu meluangkan masa untuk melakukannya secara manual kerana ia memakan masa dan intensif tenaga.

Selain itu, ia adalah prosedur yang terdedah kepada ketidaktepatan dan tidak menjanjikan ketepatan yang tinggi. Ia tidak perlu begitu sukar, yang merupakan berita yang sangat baik.

Teknologi pelabelan data hari ini membolehkan kerjasama antara manusia dan mesin untuk menyediakan data yang tepat dan berguna untuk pelbagai aplikasi pembelajaran mesin.

Pelabelan Data – Penting untuk model AI

Jadi, apakah itu Pelabelan Data?

Pelabelan data: Mengapa ia Penting?