فهرست مندرجات[پنهان شدن][نمایش]
بسیاری با شنیدن اصطلاحات هوش مصنوعی، یادگیری عمیق و یادگیری ماشینی، روبات هایی مانند ربات های موجود در فیلم های علمی تخیلی را تصور می کنند که از عقل انسان تقلید می کنند یا حتی از آن پیشی می گیرند.
برخی دیگر فکر می کنند که این دستگاه ها صرفاً اطلاعات را دریافت می کنند و به تنهایی از آنها یاد می گیرند. خب... کمی فریبنده است. برچسبگذاری دادهها روشی است که برای آموزش رایانهها برای «هوشمند شدن» استفاده میشود، زیرا آنها بدون آموزش انسانی قابلیتهای محدودی دارند.
برای آموزش رایانه برای عمل «هوشمندانه»، دادهها را به اشکال مختلف وارد میکنیم و با کمک برچسبگذاری دادهها، استراتژیهای مختلفی را به آن آموزش میدهیم.
مجموعه دادهها باید به عنوان بخشی از علم زیربنایی برچسبگذاری دادهها، با جابهجاییهای متعدد از همان اطلاعات، حاشیهنویسی یا برچسبگذاری شوند.
تلاش و فداکاری که برای محصول نهایی انجام می شود ستودنی است، حتی زمانی که باعث تعجب و زندگی روزمره ما می شود.
در این مقاله با برچسب گذاری داده ها آشنا شوید تا بفهمید که چیست، چگونه کار می کند، انواع مختلف برچسب گذاری داده ها، موانع و موارد دیگر.
بنابراین، برچسب گذاری داده چیست؟
In فراگیری ماشین، کالیبر و ماهیت داده های ورودی، کالیبر و ماهیت خروجی را دیکته می کند. دقت مدل هوش مصنوعی شما با کالیبر داده های مورد استفاده برای آموزش آن افزایش می یابد.
به عبارت دیگر، برچسبگذاری دادهها عبارت است از برچسبگذاری یا حاشیهنویسی مجموعههای مختلف دادههای بدون ساختار یا ساختارمند به منظور آموزش رایانه برای شناسایی تفاوتها و الگوهای بین آنها.
یک تصویر به شما در درک این موضوع کمک می کند. لازم است که هر چراغ قرمز را در تصاویر مختلف برچسب گذاری کنید تا کامپیوتر یاد بگیرد که نور قرمز سیگنالی برای توقف است.
بر این اساس، هوش مصنوعی الگوریتمی را توسعه می دهد که در هر موقعیتی، چراغ قرمز را به عنوان نشانه توقف تفسیر می کند. مثال دیگر توانایی دسته بندی مجموعه داده های مختلف تحت عنوان های جاز، پاپ، راک، کلاسیک و موارد دیگر برای جداسازی ژانرهای مختلف موسیقی است.
به بیان ساده، برچسبگذاری دادهها در یادگیری ماشینی به فرآیند شناسایی دادههای بدون برچسب (مانند عکسها، فایلهای متنی، ویدئوها و غیره) و افزودن یک یا چند برچسب مرتبط برای ارائه زمینه بهگونهای که یک مدل یادگیری ماشینی بتواند از آن بیاموزد، اشاره دارد. آی تی.
برچسبها میتوانند بهعنوان مثال بگویند که آیا اشعه ایکس تومور را نشان میدهد یا نه، کدام کلمات در یک کلیپ صوتی گفته شده است، یا اگر تصویری از یک پرنده یا یک خودرو وجود دارد.
برچسب گذاری داده ها برای تعدادی از موارد استفاده ضروری است، از جمله تشخیص گفتار، بینایی کامپیوترو پردازش زبان طبیعی
برچسب گذاری داده ها: چرا مهم است؟
اول، چهارمین انقلاب صنعتی بر مهارت ماشینهای آموزشی متمرکز شده است. در نتیجه، در میان مهمترین پیشرفت های نرم افزاری حال حاضر قرار می گیرد.
سیستم یادگیری ماشین شما باید ایجاد شود که شامل برچسب گذاری داده ها می شود. قابلیت های سیستم را مشخص می کند. اگر داده ها برچسب گذاری نشده باشند، هیچ سیستمی وجود ندارد.
امکانات با برچسب گذاری داده ها فقط با خلاقیت شما محدود می شود. هر اقدامی که بتوانید در سیستم نقشه برداری کنید با اطلاعات تازه تکرار می شود.
به این معنی که نوع، کمیت و تنوع دادههایی که میتوانید به سیستم آموزش دهید، هوشمندی و قابلیت آن را تعیین میکند.
دوم این است که کار برچسب گذاری داده ها قبل از کار علم داده است. بر این اساس، برچسب گذاری داده ها برای علم داده ضروری است. شکست ها و اشتباهات در برچسب گذاری داده ها بر علم داده تأثیر می گذارد. روش دیگر، استفاده از یک کلیشه خام تر، "سطل زباله، زباله بیرون".
سوم، هنر برچسب گذاری داده ها نشان دهنده تغییر در نحوه رویکرد مردم به توسعه سیستم های هوش مصنوعی است. ما به طور همزمان ساختار برچسب گذاری داده ها را برای دستیابی بهتر به اهداف خود به جای تلاش برای تقویت تکنیک های ریاضی اصلاح می کنیم.
اتوماسیون مدرن بر این اساس است و مرکز تحول هوش مصنوعی است که در حال حاضر در حال انجام است. اکنون بیش از هر زمان دیگری، کار دانش در حال مکانیزه شدن است.
برچسب گذاری داده ها چگونه عمل می کند؟
ترتیب زمانی زیر در طی مراحل برچسب گذاری داده ها دنبال می شود.
جمع آوری داده ها
داده سنگ بنای هر تلاش یادگیری ماشینی است. مرحله اولیه در برچسب گذاری داده ها شامل جمع آوری مقدار مناسب داده های خام در اشکال مختلف است.
جمعآوری دادهها میتواند یکی از دو شکل باشد: یا از منابع داخلی که کسبوکار از آنها استفاده میکند، یا از منابع خارجی در دسترس عموم.
از آنجایی که به شکل خام است، این داده ها باید قبل از ساخته شدن برچسب های مجموعه داده، تمیز و پردازش شوند. سپس مدل با استفاده از این داده های تمیز شده و پیش پردازش شده آموزش داده می شود. هر چه مجموعه دادهها بزرگتر و متنوعتر باشند، یافتهها دقیقتر خواهند بود.
حاشیه نویسی داده ها
پس از پاکسازی داده ها، کارشناسان دامنه داده ها را بررسی کرده و با استفاده از چندین تکنیک برچسب گذاری داده، برچسب ها را اعمال می کنند. مدل دارای زمینه معناداری است که می تواند به عنوان حقیقت پایه مورد استفاده قرار گیرد.
اینها متغیرهایی هستند که می خواهید مدل پیش بینی کند، مانند عکس ها.
تضمین کیفیت
کیفیت داده ها، که باید قابل اعتماد، دقیق و سازگار باشد، برای موفقیت آموزش مدل ML بسیار مهم است. به منظور تضمین این برچسب گذاری دقیق و صحیح داده ها، باید تست های QA منظم اجرا شود.
ارزیابی دقت این حاشیهنویسیها با استفاده از تکنیکهای QA مانند آزمون اجماع و آلفای کرونباخ امکانپذیر است. صحت نتایج به طور قابل توجهی با بازرسی های معمول QA بهبود می یابد.
مدل های آموزشی و آزمایشی
رویه های ذکر شده تنها در صورتی معنا پیدا می کنند که داده ها از نظر صحت بررسی شوند. این تکنیک با گنجاندن مجموعه داده های بدون ساختار مورد آزمایش قرار می گیرد تا بررسی شود که آیا نتایج مورد نظر را به همراه دارد یا خیر.
استراتژی های برچسب گذاری داده ها
برچسب گذاری داده ها یک فرآیند پر زحمت است که نیازمند توجه به جزئیات است. روش مورد استفاده برای حاشیه نویسی داده ها بسته به بیانیه شماره، تعداد داده هایی که باید برچسب گذاری شوند، پیچیدگی داده ها و سبک متفاوت است.
بیایید برخی از گزینههای کسبوکار شما را، بسته به منابعی که دارد و زمانی که در دسترس دارد، مرور کنیم.
برچسب گذاری داده ها در داخل
همانطور که از نام آن پیداست، برچسبگذاری دادههای داخلی توسط متخصصان یک شرکت انجام میشود. هنگامی که شما زمان، پرسنل و منابع مالی کافی دارید، بهترین گزینه است زیرا دقیق ترین برچسب زدن را تضمین می کند. با این حال، به آرامی حرکت می کند.
برون سپاری
گزینه دیگر برای انجام کارها استخدام فریلنسرها برای کارهای برچسب گذاری داده است که می توانند در بازارهای مختلف جستجوی کار و مشاغل آزاد مانند Upwork کشف شوند.
برون سپاری یک گزینه سریع برای دریافت خدمات برچسب گذاری داده است، با این حال، کیفیت ممکن است مانند روش قبلی آسیب ببیند.
جمع آوری اطلاعات
میتوانید بهعنوان یک درخواستکننده وارد شوید و مشاغل مختلف برچسبگذاری را بین پیمانکاران موجود در پلتفرمهای تخصصی جمعسپاری مانند توزیع کنید. آمازون مکانیک ترک (MTurk).
این روش، اگرچه تا حدودی سریع و ارزان است، نمی تواند داده های حاشیه نویسی با کیفیت خوبی ارائه دهد.
برچسب گذاری داده ها به صورت خودکار
این روش علاوه بر اینکه به صورت دستی انجام می شود، ممکن است توسط نرم افزار نیز کمک کند. با استفاده از رویکرد یادگیری فعال، برچسب ها را می توان به طور خودکار پیدا کرد و به مجموعه داده های آموزشی اضافه کرد.
در اصل، متخصصان انسانی یک مدل برچسب خودکار هوش مصنوعی برای علامتگذاری دادههای خام و بدون برچسب ایجاد میکنند. سپس آنها تصمیم می گیرند که آیا مدل به طور مناسب برچسب گذاری را اعمال کرده است یا خیر. انسان ها بعد از شکست اشتباهات را برطرف می کنند و الگوریتم را دوباره آموزش می دهند.
توسعه داده های مصنوعی
به جای داده های دنیای واقعی، داده های مصنوعی مجموعه داده ای برچسب گذاری شده است که به صورت مصنوعی ساخته شده است. این توسط الگوریتم ها یا شبیه سازی های کامپیوتری تولید می شود و اغلب برای آن استفاده می شود آموزش مدل های یادگیری ماشینی.
داده های ترکیبی پاسخی عالی به مسائل کمیاب و تنوع داده ها در زمینه رویه های برچسب گذاری است. خلق داده های مصنوعی از ابتدا یک راه حل ارائه می دهد.
ایجاد تنظیمات سه بعدی با موارد و اطراف مدل باید توسط توسعه دهندگان مجموعه داده قابل تشخیص باشد. هر اندازه که برای پروژه نیاز است داده مصنوعی قابل ارائه است.
چالش های برچسب گذاری داده ها
نیاز به زمان و تلاش بیشتری دارد
علاوه بر چالش برانگیز بودن بدست آوردن مقادیر زیادی از داده ها (به ویژه برای صنایع بسیار تخصصی مانند مراقبت های بهداشتی)، برچسب زدن هر قطعه از داده ها با دست، هم کار فشرده و هم پر زحمت است، و نیاز به کمک برچسب زن های انسانی دارد.
تقریباً 80 درصد از زمان صرف شده برای پروژه در کل چرخه توسعه ML صرف آمادهسازی دادهها میشود که شامل برچسبگذاری نیز میشود.
احتمال ناهماهنگی
اغلب اوقات، برچسبگذاری متقابل، که زمانی اتفاق میافتد که بسیاری از افراد مجموعههای یکسانی از دادهها را برچسبگذاری میکنند، منجر به دقت بیشتر میشود.
با این حال، از آنجایی که افراد گاهی درجات متفاوتی از شایستگی دارند، استانداردهای برچسبگذاری و خود برچسبها ممکن است ناسازگار باشند، که موضوع دیگری است، ممکن است دو یا چند حاشیهنویس در مورد برخی از برچسبها با هم اختلاف نظر داشته باشند.
به عنوان مثال، یک کارشناس میتواند نظر هتل را مطلوب ارزیابی کند در حالی که دیگری آن را طعنهآمیز میداند و به آن امتیاز پایینی میدهد.
دانش دامنه
شما نیاز به استخدام برچسبها با دانش تخصصی صنعت برای برخی از بخشها را احساس خواهید کرد.
به عنوان مثال، حاشیه نویسان بدون دانش لازم دامنه، هنگام ایجاد یک برنامه ML برای بخش مراقبت های بهداشتی، زمان بسیار دشواری برای برچسب گذاری مناسب موارد خواهند داشت.
تمایل به خطا
برچسب زدن دستی در معرض اشتباهات انسانی است، صرف نظر از اینکه برچسبزنان شما چقدر آگاه و دقیق هستند. با توجه به این واقعیت که حاشیه نویس ها اغلب با مجموعه داده های خام عظیم کار می کنند، این امر اجتناب ناپذیر است.
تصور کنید شخصی 100,000 تصویر را با حداکثر 10 چیز مختلف حاشیه نویسی می کند.
انواع متداول برچسب گذاری داده ها
چشم انداز کامپیوتر
برای توسعه مجموعه داده های آموزشی خود، ابتدا باید تصاویر، پیکسل ها یا نقاط کلیدی را برچسب گذاری کنید، یا در هنگام ساختن یک سیستم بینایی کامپیوتری، مرزی را مشخص کنید که به طور کامل یک تصویر دیجیتال را در بر می گیرد که به عنوان جعبه مرزی شناخته می شود.
عکسها را میتوان به روشهای مختلفی دستهبندی کرد، از جمله بر اساس محتوا (آنچه در واقع در خود تصویر وجود دارد) و کیفیت (مانند عکسهای محصول در مقابل سبک زندگی).
همچنین می توان تصاویر را در سطح پیکسل به بخش هایی تقسیم کرد. مدل بینایی کامپیوتری که با استفاده از این دادههای آموزشی ایجاد شده است، میتواند متعاقباً برای طبقهبندی خودکار تصاویر، تعیین مکان اشیاء، برجسته کردن مناطق کلیدی در یک تصویر، و بخشبندی تصاویر استفاده شود.
پردازش زبان طبیعی
قبل از تولید مجموعه داده های آموزشی پردازش زبان طبیعی خود، باید به صورت دستی قطعات متنی مرتبط را انتخاب کنید یا مطالب را با برچسب های مشخص طبقه بندی کنید.
به عنوان مثال، میتوانید الگوهای گفتار را تشخیص دهید، اسامی مناسب مانند مکانها و افراد را طبقهبندی کنید، و متن را در تصاویر، فایلهای PDF یا رسانههای دیگر شناسایی کنید. همچنین ممکن است بخواهید احساس یا هدف یک تار متن را تعیین کنید.
برای انجام این کار، کادرهای محدودی را در اطراف متن در مجموعه داده آموزشی خود ایجاد کنید و سپس به صورت دستی آن را رونویسی کنید.
تشخیص شخصیت نوری، شناسایی نام موجودیت و تحلیل احساسات همه با استفاده از مدل های پردازش زبان طبیعی انجام می شود.
پردازش صوت
پردازش صدا همه انواع صداها را به یک قالب ساختاریافته تبدیل میکند تا بتوان از آنها در یادگیری ماشینی، از جمله گفتار، صداهای حیوانات ( پارس، سوت، یا صدای جیر جیر) و صداهای ساختمان (شیشه شکسته، اسکن یا آژیر) استفاده کرد.
اغلب، قبل از اینکه بتوانید صدا را کنترل کنید، باید آن را به صورت دستی به متن تبدیل کنید. پس از آن، با دسته بندی و افزودن برچسب به صدا، می توانید اطلاعات عمیق تری در مورد آن کسب کنید. شما مجموعه داده های آموزشی این صوتی طبقه بندی شده است
نتیجه
در نتیجه، شناسایی داده های شما بخش مهمی از آموزش هر مدل هوش مصنوعی است. با این حال، یک سازمان سریع، به سادگی نمیتواند برای انجام آن به صورت دستی وقت بگذارد، زیرا زمانبر و انرژی بر است.
علاوه بر این، این روشی است که مستعد عدم دقت است و دقت بالایی را نوید نمی دهد. لازم نیست خیلی سخت باشد، که خبر بسیار خوبی است.
فناوریهای برچسبگذاری دادههای امروزی، همکاری بین انسان و ماشین را برای ارائه دادههای دقیق و مفید برای انواع کاربردهای یادگیری ماشینی امکانپذیر میسازد.
پاسخ دهید