Mundarija[Yashirish][Show]
Biz har doim eshitganimizda yoki o'qiganimizda so'zlarni tanib olish va ularni shaxslar, joylar, joylar, qadriyatlar va boshqalarga ajratish qobiliyatiga egamiz. Odamlar so'zlarni tezda tasniflash, aniqlash va tushunishga qodir.
Masalan, siz “Stiv Jobs” nomini eshitganingizda ob’ektni toifalarga ajratishingiz va tezda kamida XNUMX-XNUMX sifatga ega bo‘lishingiz mumkin.
- Shaxs: "Stiv Jobs"
- Tashkilot: "Apple"
- Manzil: "Kaliforniya"
Kompyuterlarda bu tug'ma qobiliyat yo'qligi sababli, biz ularga so'zlarni yoki matnni tanib olish va ularni tasniflashda yordam berishimiz kerak. Bunday vaziyatda nomli ob'ektni tan olish (NER) qo'llaniladi.
Ushbu maqolada biz NERni (Nomli shaxsni tan olish) batafsil ko'rib chiqamiz, jumladan uning ahamiyati, afzalliklari, eng yaxshi NER API-lari va boshqalar.
NER (Nomli shaxsni tan olish) nima?
Tabiiy tilni qayta ishlash (NLP) usuli, baʼzan obʼyekt identifikatsiyasi yoki obʼyektni ajratib olish deb nomlanuvchi nomli obʼyektlarni tanib olish (NER) deb nomlanadi, matndagi nomli obʼyektlarni avtomatik ravishda taniydi va ularni oldindan belgilangan toifalarga guruhlaydi.
Shaxslar nomi, guruhlar, joylar, sanalar, miqdorlar, dollar miqdori, foizlar va boshqalarni o'z ichiga oladi. Nomlangan ob'ektni tan olish bilan siz undan ma'lumotlar bazasi uchun muhim ma'lumotlarni to'plash yoki hujjat nima haqida ekanligini tushunish uchun muhim ma'lumotlarni olish uchun foydalanishingiz mumkin.
NER matnni nisbiy semantika va hissiyotlar uchun tahlil qilish uchun sun'iy intellekt tizimi bog'liq bo'lgan asos bo'lib, hatto NLP matn tahlili jarayonida sezilarli yutuq bo'lsa ham.
NERning ahamiyati nimada?
Matnni tahlil qilish yondashuvining asosi NER hisoblanadi. ML modeli ingliz tilini tushunishi uchun avvaliga oldindan belgilangan toifalarga ega millionlab namunalar berilishi kerak.
API birinchi marta o'qiyotgan matnlarda ushbu komponentlarni tanib olishda vaqt o'tishi bilan yaxshilanadi. Matnni tahlil qilish mexanizmining kuchi NER qobiliyatining malakasi va kuchi bilan ortadi.
Bu erda ko'rinib turibdiki, NER tomonidan bir nechta ML operatsiyalari ishga tushiriladi.
Semantik qidiruv
Semantik qidiruv endi Googleda mavjud. Siz savol kiritishingiz mumkin va u javob bilan javob berishga harakat qiladi. Ma'lumotni topish uchun foydalanuvchi izlayotgan raqamli yordamchilar, masalan, Alexa, Siri, chatbotlar va boshqalar semantik qidiruv turidan foydalanadilar.
Ushbu funktsiyani urish yoki o'tkazib yuborish mumkin, ammo undan foydalanish soni ortib bormoqda va ularning samaradorligi tez sur'atlar bilan o'sib bormoqda.
Ma'lumotlar tahlili
Bu tuzilmagan ma'lumotlardan tahlil yaratish uchun algoritmlardan foydalanish uchun umumiy ibora. U ushbu ma'lumotlarni ko'rsatish usullarini tegishli ma'lumotlarni topish va yig'ish jarayoni bilan birlashtiradi.
Bu natijalarning to'g'ridan-to'g'ri statistik tushuntirishi yoki ma'lumotlarning vizual tasviri shaklida bo'lishi mumkin. Muayyan mavzuga bo'lgan qiziqish va ishtirokni tahlil qilish YouTube tomoshalaridagi ma'lumotlardan, jumladan, tomoshabinlar ma'lum bir videoni bosganda ham amalga oshirilishi mumkin.
Mahsulotning yulduzcha reytinglari mahsulot qanchalik yaxshi ishlayotgani haqida umumiy baho berish uchun elektron tijorat saytlaridan olingan ma'lumotlardan foydalanib tahlil qilinishi mumkin.
Hissiy tahlil
NERni qo'shimcha o'rganish, hissiyotlarni tahlil qilish yulduzlar reytingidan ma'lumot yo'q bo'lganda ham yaxshi va yomon sharhlarni ajrata oladi.
Ma'lumki, "ortiqcha baholangan", "bepul" va "ahmoq" kabi atamalar salbiy ma'noga ega, "foydali", "tez" va "oson" kabi atamalar. Kompyuter o'yinida "oson" so'zini salbiy talqin qilish mumkin.
Murakkab algoritmlar narsalar orasidagi munosabatni ham taniy oladi.
Matn tahlili
Ma'lumotlar tahliliga o'xshab, matn tahlili tuzilmagan matn satrlaridan ma'lumotlarni chiqaradi va muhim ma'lumotlarni nolga kiritish uchun NER dan foydalanadi.
U mahsulot haqida eslatmalar, o'rtacha narx yoki mijozlar ma'lum bir brendni tavsiflash uchun tez-tez ishlatadigan atamalar haqida ma'lumotlarni to'plash uchun ishlatilishi mumkin.
Video mazmunini tahlil qilish
Eng murakkab tizimlar yuzni aniqlash, audio tahlil qilish va tasvirni aniqlashdan foydalangan holda video ma'lumotlardan ma'lumotlarni chiqaradigan tizimlardir.
Video kontent tahlilidan foydalanib, siz YouTube-dan "qutidan chiqarish" videolarini, Twitch o'yin namoyishlarini, Reels-dagi audio materialingizning labda sinxronlashini va boshqalarni topishingiz mumkin.
Onlayn video materiallar hajmi oshgani sayin odamlar sizning mahsulotingiz yoki xizmatingizga qanday ulanishi haqidagi muhim ma'lumotlarni o'tkazib yubormaslik uchun NER-ga asoslangan video kontent tahlilining tezroq va ixtirochi usullari juda muhimdir.
NERning haqiqiy dunyo ilovasi
Nomlangan ob'ektni tan olish (NER) matndagi odamlar ismlari, joylashuvlar, brendlar, pul qiymatlari va boshqalar kabi muhim jihatlarni aniqlaydi.
Matndagi asosiy ob'ektlarni ajratib olish tuzilmagan ma'lumotlarni saralashga va katta ma'lumotlar to'plamlari bilan ishlashda muhim ahamiyatga ega bo'lgan muhim ma'lumotlarni aniqlashga yordam beradi.
Bu erda nomli ob'ektlarni tanib olishning ba'zi ajoyib haqiqiy misollari:
Mijozlarning fikr-mulohazalarini tahlil qilish
Onlayn sharhlar iste'molchilarning fikr-mulohazalarining ajoyib manbaidir, chunki ular sizga tovarlaringiz haqida mijozlar nimani yoqtirishi va nafratlanishi, shuningdek kompaniyangizning qaysi sohalarini yaxshilash kerakligi haqida batafsil ma'lumot beradi.
Mijozning ushbu ma'lumotlarini NER tizimlari yordamida tashkil qilish mumkin, bu esa takroriy muammolarni aniqlashi mumkin.
Misol uchun, mijozlarning salbiy sharhlarida tez-tez tilga olinadigan joylarni aniqlash uchun NER-dan foydalanib, siz ma'lum bir ofis filialiga e'tiboringizni qaratishga qaror qilishingiz mumkin.
Kontent uchun tavsiya
Siz oʻqiyotgan maqolaga bogʻlangan maqolalar roʻyxatini BBC va CNN kabi veb-saytlarda biror narsani oʻqiganingizda topish mumkin.
Ushbu veb-saytlar NER yordamida siz o'qiyotgan kontentdan olingan ob'ektlar haqida ma'lumot taklif qiladigan qo'shimcha veb-saytlar uchun tavsiyalar beradi.
Mijozlarni qo'llab-quvvatlash xizmatida chiptalarni tashkil qiling
Mijozlar tomonidan qo'llab-quvvatlash chiptalari sonining ko'payishini boshqarayotgan bo'lsangiz, mijoz so'rovlariga tezroq javob berish uchun nomli ob'ektni aniqlash algoritmlaridan foydalanishingiz mumkin.
Pulni tejash, mijozlar baxtini oshirish va hal qilish tezligini oshirish uchun mijozlarning shikoyatlari va so'rovlarini tasniflash kabi ko'p vaqt talab qiladigan mijozlarga xizmat ko'rsatish ishlarini avtomatlashtiring.
Ob'ektni ajratib olish, shuningdek, ushbu muammoni hal qilish uchun chiptalarni kerakli agent yoki jamoaga yo'naltirishni osonlashtirish uchun mahsulot nomlari yoki seriya raqamlari kabi tegishli ma'lumotlarni olish uchun ham ishlatilishi mumkin.
Qidiruv algoritmi
Millionlab ma'lumotlarga ega veb-saytlar sizning qidiruvingizga mos keladigan natijalarni qanday yaratishi mumkinligi haqida hech so'raganmisiz? Vikipediya veb-saytini ko'rib chiqing.
Vikipediya oldindan belgilangan ob'ektlarni o'z ichiga olgan sahifani ko'rsatadi, ularda "ish o'rinlari" so'zi bo'lgan barcha maqolalarni qaytarish o'rniga, siz "ish o'rinlari" ni qidirganingizda qidiruv atamasi tegishli bo'lishi mumkin.
Shunday qilib, Vikipediya "kasb" ni belgilaydigan maqolaga havolani, Jobs ismli odamlar uchun bo'limni va filmlar kabi ommaviy axborot vositalari uchun boshqa sohani taklif qiladi. video O'yinlar, va "ish" atamasi paydo bo'lgan boshqa o'yin-kulgi shakllari.
Qidiruv so'zini o'z ichiga olgan joylar uchun boshqa segmentni ham ko'rasiz.
Rezyumelarga g'amxo'rlik qilish
Ideal da'vogarni izlash uchun yollovchilar kunning muhim qismini rezyumelarni ko'rib chiqishga sarflaydilar. Har bir rezyume bir xil ma'lumotga ega, ammo ularning barchasi boshqacha tarzda taqdim etiladi va tartibga solinadi, bu tuzilmagan ma'lumotlarning odatiy namunasidir.
Nomzodlar haqidagi eng tegishli ma'lumotlarni ishga qabul qilish bo'yicha guruhlar tomonidan, jumladan, shaxsiy ma'lumotlar (masalan, ism, manzil, telefon raqami, tug'ilgan sanasi va elektron pochta kabi) hamda ularning ma'lumoti va tajribasi (sertifikatlar, darajalar kabi) haqidagi ma'lumotlar yuridik shaxslardan foydalangan holda tezda olinishi mumkin. , kompaniya nomlari, ko'nikmalar va boshqalar).
E-tijorat
Mahsulotlarni qidirish algoritmiga kelsak, yuzlab yoki minglab tovarlarga ega onlayn chakana sotuvchilar NERdan foyda olishadi.
NER bo'lmasa, "qora charm etiklar" uchun qidiruv natijalari qora bo'lmagan charm va poyabzallarni ham o'z ichiga olgan natijalarni beradi. Agar shunday bo'lsa, elektron tijorat veb-saytlari mijozlarni yo'qotish xavfi bor.
IBizning holatda, NER qidiruv so'zini charm etiklar uchun mahsulot turi va qora rang sifatida tasniflaydi.
Eng yaxshi Entity Extraction API
Google Cloud NLP
Allaqachon o'qitilgan vositalar uchun Google Cloud NLP o'zining Natural Language API bilan ta'minlaydi. Yoki AutoML Natural Language API koʻp turdagi matnlarni chiqarish va tahlil qilish uchun moslashtiriladi, agar siz oʻz sohangiz terminologiyasi boʻyicha asboblaringizni oʻrgatmoqchi boʻlsangiz.
API'lar Gmail, Google Sheets va boshqa Google ilovalari bilan osongina o'zaro ishlaydi, ammo ularni uchinchi tomon dasturlari bilan ishlatish murakkabroq kodni talab qilishi mumkin.
Ideal biznes varianti Google ilovalari va bulutli xotirani boshqariladigan xizmatlar va API sifatida ulashdir.
IBM Watson
IBM Watson - bu juda tez ishlaydigan va oldindan o'rnatilgan imkoniyatlarni taqdim etuvchi ko'p bulutli platformadir, masalan, nutqdan matnga, yozib olingan audio va telefon qo'ng'iroqlarini avtomatik tahlil qila oladigan ajoyib dastur.
CSV ma'lumotlaridan foydalangan holda, Watson Natural Language Understanding chuqur o'rganuvchi AI ob'ektlar yoki kalit so'zlarni ajratib olish uchun ekstraktsiya modellarini yaratishi mumkin.
Va amaliyot bilan siz ancha murakkab modellarni yaratishingiz mumkin. Uning barcha funktsiyalariga API orqali kirish mumkin, ammo kodlash bo'yicha keng bilim talab etiladi.
U katta ma'lumotlar to'plamini o'rganishni talab qiladigan va ichki texnik resurslarga ega bo'lgan yirik korxonalar uchun yaxshi ishlaydi.
Cortical.io
Nevrologiya tushunchasi bo'lgan Semantic Folding yordamida Cortical.io matnni chiqarish va NLU yechimlarini taqdim etadi.
Bu "semantik barmoq izlari" ni yaratish uchun amalga oshiriladi, bu matnning ma'nosini butun va o'ziga xos atamalarda ko'rsatadi. So'z klasterlari o'rtasidagi munosabatlarni ko'rsatish uchun semantik barmoq izlari matn ma'lumotlarini tasvirlaydi.
Cortical.io ning interaktiv API hujjatlari matn tahlili yechimlarining har birining funksionalligini qamrab oladi va Java, Python va Javascript API-lari yordamida kirish oson.
Cortical.io-dan Contract Intelligence vositasi semantik qidiruvlar qilish, skanerlangan hujjatlarni o'zgartirish va izohlar bilan yordam berish va yaxshilash uchun huquqiy tahlil qilish uchun maxsus yaratilgan.
Bu sun'iy intellekt bo'yicha bilimga muhtoj bo'lmagan, ayniqsa yuridik sohada foydalanish uchun oddiy API izlayotgan korxonalar uchun ideal.
Maymun o'rganish
Barcha asosiy kompyuter tillari MonkeyLearn-ning API-lari tomonidan qo'llab-quvvatlanadi va siz chiqarilgan ob'ektlarni o'z ichiga olgan JSON faylini yaratish uchun faqat bir necha qator kodlarni o'rnatadi. Oldindan ta'lim olgan ekstraktorlar va matn tahlilchilari uchun interfeys foydalanuvchilar uchun qulay.
Yoki bir necha oddiy qadamda siz noyob ekstraktor yaratishingiz mumkin. Vaqtni qisqartirish va aniqlikni yaxshilash uchun chuqurlashtirilgan tabiiy tilni qayta ishlash (NLP). kompyuterni o'rganish matnni inson kabi baholash imkonini beradi.
Bundan tashqari, SaaS API'lari Google Sheets, Excel, Zapier, Zendesk va boshqalar kabi vositalar bilan ulanishni o'rnatish uchun ko'p yillik kompyuter fanlari bilimini talab qilmasligini ta'minlaydi.
Brauzeringizda hozirda nom chiqarish, kompaniyani chiqarish va joylashuvni aniqlash mavjud. O'zingizni qanday qurish haqida ma'lumot olish uchun ob'ektni tanib olish haqidagi blog maqolasiga qarang.
Bu texnologiya, chakana savdo va elektron tijorat bilan shug'ullanadigan barcha o'lchamdagi biznes uchun ideal bo'lib, ular matnni chiqarish va matnni tahlil qilishning har xil turlari uchun oson amalga oshiriladigan API-larga muhtoj.
Amazon tushunish
Amazon Comprehend-ning oldindan o'rnatilgan vositalarini darhol ulash va ulardan foydalanishni osonlashtirish uchun ular yuzlab turli sohalarda o'qitiladi.
Hech qanday ichki serverlar talab qilinmaydi, chunki bu nazorat qilinadigan xizmatdir. Ayniqsa, agar siz hozirda Amazon bulutidan ma'lum darajada foydalansangiz, ularning API-lari ilgari mavjud ilovalar bilan osongina integratsiyalanadi. Va biroz ko'proq mashq qilish bilan ekstraktsiya aniqligini oshirish mumkin.
Tibbiy yozuvlar va klinik sinovlardan ma'lumotlarni olish uchun eng ishonchli matn tahlil usullaridan biri bu Comprehend's Medical Named Entity and Relationship Extraction (NERe) bo'lib, u dorilar, shartlar, test natijalari va protseduralar haqida ma'lumot olishi mumkin.
Tashxisni baholash va aniq sozlash uchun bemor ma'lumotlarini taqqoslash juda foydali bo'lishi mumkin. Oldindan o'qitilgan vositalar bilan boshqariladigan xizmatni qidirayotgan korxonalar uchun eng yaxshi variant.
Aylien
Mashinani o'rganish matn tahliliga oson kirishni ta'minlash uchun AYLIEN ettita mashhur dasturlash tilida uchta API plaginini taklif qiladi.
Ularning News API butun dunyo bo'ylab o'n minglab yangiliklar manbalaridan real vaqt rejimida qidiruv va ob'ektlarni ajratib olishni ta'minlaydi.
Hujjatlarda matnni tahlil qilish API yordamida ob'ektni ajratib olish va boshqa bir nechta matn tahlili vazifalarini bajarish mumkin, ijtimoiy media platformalar, iste'molchilar so'rovlari va boshqalar.
Va nihoyat, Matnni tahlil qilish platformasidan foydalanib, siz o'zingizning brauzeringizda (TAP) o'zingizning ekstraktorlaringizni yaratishingiz mumkin. U asosan qattiq API-larni tezda integratsiyalashi kerak bo'lgan kompaniyalar uchun yaxshi ishlaydi.
SpaCy
SpaCy - bu Python Natural Language Processing (NLP) to'plami bo'lib, u ochiq manbali, bepul va ko'plab o'rnatilgan xususiyatlarga ega.
Buning uchun tobora keng tarqalgan NLP ma'lumotlari qayta ishlash va tahlil qilish. Strukturaviy bo'lmagan matnli ma'lumotlar juda katta miqyosda yaratilgan, shuning uchun ularni tahlil qilish va undan tushunchalar olish juda muhimdir.
Buni amalga oshirish uchun siz faktlarni kompyuterlar tushunadigan tarzda tasvirlashingiz kerak. Buni NLP orqali qilishingiz mumkin. Bu juda tez, kechikish vaqti atigi 30 ms, lekin muhimi, u HTTPS sahifalarida foydalanish uchun mo'ljallanmagan.
Bu o'z serverlaringizni yoki intranetingizni skanerlash uchun yaxshi variant, chunki u mahalliy darajada ishlaydi, lekin u butun internetni o'rganish uchun vosita emas.
Xulosa
Nomlangan ob'ektni aniqlash (NER) - bu korxonalar mijozlarni qo'llab-quvvatlash so'rovlarida tegishli ma'lumotlarni belgilash, mijozlarning fikr-mulohazalarida havola qilingan ob'ektlarni topish va boshqa narsalar qatori aloqa ma'lumotlari, manzillar va sanalar kabi muhim ma'lumotlarni tezda olish uchun foydalanishi mumkin bo'lgan tizimdir.
Ob'ektni tanib olishning eng keng tarqalgan yondashuvi ob'ektni ajratib olish API-laridan foydalanishdir (ular ochiq manba kutubxonalari yoki SaaS mahsulotlari tomonidan taqdim etilganmi).
Biroq, eng yaxshi muqobilni tanlash sizning vaqtingizga, moliyangizga va mahoratingizga tayanadi. Har qanday biznes uchun ob'ektni ajratib olish va yanada murakkab matnni tahlil qilish texnologiyalari foydali bo'lishi mumkin.
Mashinani o'rganish vositalari to'g'ri o'rgatilsa, ular aniq va hech qanday ma'lumotni e'tiborsiz qoldirmaydi, bu sizga vaqt va pulni tejaydi. API-larni integratsiyalash orqali ushbu yechimlarni doimiy va avtomatik ravishda ishlashi uchun sozlashingiz mumkin.
Shunchaki kompaniyangiz uchun eng maqbul bo'lgan harakat yo'nalishini tanlang.
Leave a Reply