Clàr-innse[Falaich][Seall]
Tha an comas inneach againn faclan aithneachadh agus a sheòrsachadh gu daoine fa leth, àiteachan, àiteachan, luachan, agus barrachd nuair a chluinneas sinn no a leughas sinn iad. Tha e comasach dha mac an duine faclan a sheòrsachadh, aithneachadh agus a thuigsinn gu sgiobalta.
Mar eisimpleir, faodaidh tu rud a sheòrsachadh agus gu sgiobalta tighinn suas le co-dhiù trì no ceithir buadhan nuair a chluinneas tu an t-ainm “Steve Jobs,”
- Duine: "Steve Jobs"
- Buidheann: "Apple"
- Àite: "California"
Leis nach eil an sgil dhùthchasach seo aig coimpiutairean, feumaidh sinn an cuideachadh le bhith ag aithneachadh fhaclan no teacsa agus ga sheòrsachadh. Bithear a’ cleachdadh Aithneachadh Aonad Ainmichte (NER) san t-suidheachadh seo.
San artaigil seo, nì sinn sgrùdadh mionaideach air NER (Aithneachadh Aonad Ainmichte), a’ toirt a-steach cho cudromach sa tha e, buannachdan, prìomh APIan NER, agus mòran a bharrachd.
Dè a th’ ann an NER (Aithneachadh eintiteas ainmichte)?
Bidh dòigh-obrach giollachd cànain nàdarra (NLP) ris an canar aithneachadh eintiteas ainmichte (NER), ris an canar uaireannan comharrachadh eintiteas no toirt a-mach eintiteas, ag aithneachadh gu fèin-ghluasadach buidhnean ainmichte ann an teacsa agus gan cruinneachadh ann an roinnean ro-shuidhichte.
Am measg bhuidhnean tha ainmean dhaoine fa leth, buidhnean, àiteachan, cinn-latha, suimean, suimean dolar, ceudadan, agus barrachd. Le aithne eintiteas ainmichte, faodaidh tu an dàrna cuid a chleachdadh gus dàta cudromach a chruinneachadh airson stòr-dàta no gus fiosrachadh deatamach a tharraing gus tuigsinn cò mu dheidhinn a tha sgrìobhainn.
Is e NER a’ chlach-oisinn air a bheil siostam AI an urra gus teacsa a mhion-sgrùdadh airson semantics agus faireachdainn càirdeach, eadhon ged a tha NLP a’ riochdachadh adhartas mòr anns a’ phròiseas anailis teacsa.
Dè cho cudromach sa tha NER?
Is e bunait dòigh-obrach anailis teacsa NER. Feumaidh modal ML an toiseach milleanan de shamhlaichean a thoirt seachad le roinnean ro-mhìnichte mus tuig e Beurla.
Bidh an API a’ leasachadh le ùine ann a bhith ag aithneachadh nam pàirtean sin ann an teacsaichean a tha e a’ leughadh airson a’ chiad uair. Bidh cumhachd an einnsean anailis teacsa ag àrdachadh le comas agus neart comas NER.
Mar a chithear an seo, tha grunn obrachaidhean ML air am piobrachadh le NER.
Rannsachadh Semantic
Tha sgrùdadh semantach a-nis ri fhaighinn air Google. Faodaidh tu ceist a chuir a-steach, agus feuchaidh e a dhìcheall freagairt le freagairt. Gus am fiosrachadh a lorg, tha neach-cleachdaidh a’ coimhead airson, bidh luchd-cuideachaidh didseatach mar Alexa, Siri, chatbots, agus feadhainn eile a’ cleachdadh seòrsa de sgrùdadh semantach.
Faodar an gnìomh seo a bhualadh no a chall, ach tha àireamh de chleachdaidhean a tha a’ sìor fhàs air a shon, agus tha an èifeachdas ag èirigh gu luath.
Anailis ann an dàta
Is e abairt coitcheann a tha seo airson algorithms a chleachdadh gus mion-sgrùdadh a chruthachadh bho dhàta neo-structaraichte. Bidh e a’ fighe a-steach dhòighean airson an dàta seo a thaisbeanadh leis a’ phròiseas lorg agus cruinneachadh dàta iomchaidh.
Dh’ fhaodadh seo a bhith ann an cruth mìneachadh staitistigeil neo-fhillte air na toraidhean no riochdachadh lèirsinneach den dàta. Faodar mion-sgrùdadh air ùidh agus conaltradh le cuspair sònraichte a dhèanamh a’ cleachdadh fiosrachadh bho bheachdan YouTube, a’ toirt a-steach nuair a phutas luchd-amhairc air bhidio sònraichte.
Faodar rangachadh rionnag toraidh a sgrùdadh le bhith a’ sgrìobadh dàta bho làraich e-malairt gus sgòr iomlan a thoirt seachad air dè cho math ‘s a tha an toradh a’ dèanamh.
Mion-sgrùdadh sentiment
Nas fhaide air rannsachadh NER, mion-sgrùdadh faireachdainn eadar-dhealachadh a dhèanamh eadar lèirmheasan math agus dona eadhon às aonais fiosrachadh bho rangachadh rionnagan.
Tha e mothachail gu bheil comharran àicheil aig teirmean mar “overrated,” “fiddly,” agus “gòrach”, ach tha briathran mar “feumail,” “luath,” agus “furasta”. Dh’ fhaodadh am facal “furasta” a bhith air a mhìneachadh gu h-àicheil ann an geama coimpiutair.
Faodaidh algorithms sofaisticichte cuideachd an dàimh eadar rudan aithneachadh.
Analytics teacsa
Coltach ri mion-sgrùdadh dàta, bidh mion-sgrùdadh teacsa a’ tarraing fiosrachadh bho shreathan teacsa neo-structaraichte agus a’ cleachdadh NER gu neoni a-steach air an dàta cudromach.
Faodar a chleachdadh gus dàta a chruinneachadh mu iomradh toraidh, prìs chuibheasach, no na teirmean a bhios luchd-ceannach a’ cleachdadh as trice airson cunntas a thoirt air brannd sònraichte.
Mion-sgrùdadh susbaint bhidio
Is e na siostaman as toinnte an fheadhainn a bhios a’ tarraing dàta bho fhiosrachadh bhidio a’ cleachdadh aithne aghaidh, mion-sgrùdadh claisneachd, agus aithneachadh dhealbhan.
A’ cleachdadh mion-sgrùdadh susbaint bhidio, gheibh thu bhideothan “unboxing” YouTube, taisbeanaidhean geama Twitch, sioncranachadh bilean den stuth claisneachd agad air Reels, agus barrachd.
Gus nach caill thu fiosrachadh cudromach mu mar a bhios daoine a’ ceangal ris an toradh no an t-seirbheis agad mar a bhios meud stuth bhidio air-loidhne a’ fàs, tha dòighean nas luaithe agus nas innleachdaiche airson mion-sgrùdadh susbaint bhidio stèidhichte air NER riatanach.
Iarrtas NER san t-saoghal fhìor
Bidh aithne eintiteas ainmichte (NER) a’ comharrachadh nithean riatanach ann an teacsa leithid ainmean dhaoine, àiteachan, suaicheantasan, luachan airgid, agus barrachd.
Le bhith a’ toirt a-mach na prìomh bhuidhnean ann an teacsa a’ cuideachadh le bhith a’ rèiteach dàta neo-structaraichte agus a’ lorg fiosrachadh cudromach, rud a tha deatamach nuair a thathar a’ dèiligeadh ri stòran-dàta mòra.
Seo eisimpleirean fìor inntinneach de dh’ aithneachadh eintiteas ainmichte:
A' mion-sgrùdadh fios air ais bho luchd-cleachdaidh
Tha lèirmheasan air-loidhne nan deagh thùs de fhios air ais bho luchd-cleachdaidh oir is urrainn dhaibh fiosrachadh mionaideach a thoirt dhut mu na tha luchd-ceannach a’ còrdadh agus a’ fuath mun bhathar agad a bharrachd air na raointean den chompanaidh agad a dh’ fheumar a leasachadh.
Faodar an cuir a-steach teachdaiche seo gu lèir a chuir air dòigh le bhith a’ cleachdadh siostaman NER, a dh’ aithnicheas cùisean a tha a’ nochdadh a-rithist.
Mar eisimpleir, le bhith a’ cleachdadh NER gus àiteachan a chomharrachadh a tha gu tric air an ainmeachadh ann an lèirmheasan teachdaiche mì-fhàbharach, faodaidh tu co-dhùnadh fòcas a chuir air meur oifis sònraichte.
Moladh airson susbaint
Gheibhear liosta de na h-artaigilean a tha ceangailte ris an fhear a tha thu a’ leughadh air làraich-lìn leithid BBC agus CNN nuair a leughas tu rud an sin.
Bidh na làraich-lìn sin a’ dèanamh mholaidhean airson làraich-lìn a bharrachd a bheir seachad fiosrachadh mu na buidhnean a tharraing iad bhon t-susbaint a tha thu a’ leughadh a’ cleachdadh NER.
Cuir air dòigh tiogaidean ann an Taic teachdaiche
Faodaidh tu algorithms aithneachaidh eintiteas ainmichte a chleachdadh gus freagairt a thoirt do iarrtasan teachdaiche nas luaithe ma tha thu a’ riaghladh àrdachadh anns an àireamh de thiogaidean taic bho luchd-ceannach.
Dèan fèin-ghluasad air gnìomhan cùram teachdaiche a bheir ùine, leithid a bhith a’ seòrsachadh ghearanan agus rannsachaidhean luchd-ceannach, gus airgead a shàbhaladh dhut fhèin, gus toileachas teachdaiche àrdachadh, agus ìrean fuasglaidh àrdachadh.
Faodar às-tharraing eintiteas a chleachdadh cuideachd gus dàta buntainneach a tharraing, leithid ainmean toraidh no àireamhan sreathach, gus a dhèanamh nas sìmplidh tiogaidean a chuir chun neach-ionaid no sgioba cheart airson a’ chùis sin a rèiteach.
An algairim lorg
An robh thu a-riamh a’ ceasnachadh ciamar as urrainn do làraich-lìn le milleanan de phìosan fiosrachaidh toraidhean a thoirt gu buil a tha iomchaidh don rannsachadh agad? Beachdaich air an làrach-lìn Wikipedia.
Tha Wikipedia a’ taisbeanadh duilleag anns a bheil nithean ro-mhìnichte ris am faod an teirm sgrùdaidh buntainn nuair a bhios tu a’ lorg “obraichean,” an àite a bhith a’ tilleadh a h-uile artaigil leis an fhacal “obraichean” annta.
Mar sin, tha Wikipedia a’ tabhann ceangal ris an artaigil a tha a’ mìneachadh “dreuchd,” earrann airson daoine air a bheil Jobs, agus raon eile airson meadhanan leithid filmichean, video Games, agus seòrsaichean dibhearsain eile far a bheil am facal “obraichean” a’ nochdadh.
Chitheadh tu earrann eile cuideachd airson àiteachan anns a bheil am facal rannsachaidh.
A 'gabhail cùram airson ath-thòiseachadh
A’ lorg an tagraiche freagarrach, bidh luchd-fastaidh a’ caitheamh cuid mhath den latha aca ag ath-sgrùdadh ath-thòiseachadh. Tha an aon fhiosrachadh aig a h-uile geàrr-chunntas, ach tha iad uile air an taisbeanadh agus air an eagrachadh ann an dòigh eadar-dhealaichte, a tha na eisimpleir àbhaisteach de dhàta neo-structaraichte.
Faodar am fiosrachadh as buntainniche mu thagraichean a thoirt a-mach gu sgiobalta le bhith a’ fastadh sgiobaidhean a’ cleachdadh luchd-tarraing eintiteas, a’ toirt a-steach dàta pearsanta (leithid ainm, seòladh, àireamh fòn, ceann-latha breith, agus post-d) agus fiosrachadh mun fhoghlam agus an eòlas (leithid teisteanasan, ceum). , ainmean chompanaidhean, sgilean, msaa).
E-malairt
A thaobh an algairim sgrùdaidh toraidh aca, gheibheadh luchd-reic air-loidhne le ceudan no mìltean de bhathar buannachd bho NER.
Às aonais NER, bheireadh rannsachadh airson “bòtannan leathair dubha” toraidhean a bha a’ toirt a-steach an dà chuid leathar agus brògan nach robh dubh. Ma tha, tha cunnart ann gun caill làraich-lìn e-malairt teachdaichean.
IAnns a’ chùis againn, bhiodh NER a’ seòrsachadh am facal sgrùdaidh mar sheòrsa toraidh airson bòtannan leathair agus dubh mar an dath.
APIs Extraction eintiteas as fheàrr
NLP Google Cloud
Airson innealan a tha air an trèanadh mu thràth, tha Google Cloud NLP a’ toirt seachad an API Cànan Nàdarra aige. No, tha an AutoML Natural Language API comasach air atharrachadh airson iomadh seòrsa às-tharraing agus mion-sgrùdadh teacsa ma tha thu airson na h-innealan agad oideachadh mu bhriathrachas do ghnìomhachas.
Bidh na APIan ag eadar-obrachadh gu furasta le Gmail, Google Sheets, agus aplacaidean Google eile, ach le bhith gan cleachdadh le prògraman treas-phàrtaidh faodaidh feum a bhith aca air còd nas iom-fhillte.
Is e an roghainn gnìomhachais air leth freagarrach tagraidhean Google agus Cloud Storage a cheangal mar sheirbheisean stiùirichte agus APIan.
IBM MacBhàtair
Tha IBM Watson na àrd-ùrlar ioma-sgòthan a bhios a’ coileanadh gu h-iongantach luath agus a bheir seachad comasan ro-thogte, leithid cainnt-gu-teacsa, a tha na bhathar-bog iongantach as urrainn sgrùdadh a dhèanamh gu fèin-ghluasadach air fiosan claisneachd is fòn clàraichte.
Le bhith a’ cleachdadh dàta CSV, faodaidh AI ionnsachaidh domhainn Watson Natural Language Understanding modalan às-tharraing a chruthachadh gus buidhnean no prìomh fhaclan a thoirt a-mach.
Agus le cleachdadh, faodaidh tu modalan a chruthachadh a tha fada nas ionnsaichte. Gheibhear a h-uile gnìomh aige tro APIan, ged a tha feum air eòlas còdaidh farsaing.
Bidh e ag obair gu math airson gnìomhachasan mòra a dh’ fheumas sgrùdadh a dhèanamh air stòran-dàta fìor mhòr agus aig a bheil goireasan teicnigeach a-staigh.
Cortical.io
A ’cleachdadh Semantic Folding, beachd bho neurology, tha Cortical.io a’ toirt seachad às-tharraing teacsa agus fuasglaidhean NLU.
Tha seo air a dhèanamh gus “lorgan-meòir semantach” a ghineadh a tha a’ nochdadh an dà chuid brìgh teacsa gu h-iomlan agus gu sònraichte. Gus na dàimhean eadar cruinneachaidhean fhaclan a nochdadh, bidh lorgan-meòir semantach a’ sealltainn dàta teacsa.
Tha na sgrìobhainnean API eadar-ghnìomhach aig Cortical.io a’ còmhdach comasachd gach aon de na fuasglaidhean anailis teacsa, agus tha e furasta faighinn thuige le bhith a’ cleachdadh Java, Python, agus Javascript APIs.
Chaidh an inneal Cùmhnant Intelligence bho Cortical.io a chruthachadh gu sònraichte airson mion-sgrùdadh laghail gus rannsachaidhean semantach a dhèanamh, cruth-atharrachadh a dhèanamh air sgrìobhainnean a chaidh a sganadh, agus cuideachadh agus àrdachadh le notaichean.
Tha e air leth freagarrach airson gnìomhachasan a tha a’ coimhead airson APIan a tha furasta an cleachdadh agus nach eil feumach air eòlas AI, gu sònraichte san roinn laghail.
Monkey Ionnsaich
Tha na prìomh chànanan coimpiutair uile a’ faighinn taic bho APIan MonkeyLearn agus dìreach beagan loidhnichean de chòd a stèidheachadh gus faidhle JSON a thoirt gu buil anns a bheil na h-aonadan a chaidh a tharraing às. Airson luchd-tarraing agus sgrùdairean teacsa le trèanadh ro-làimh, tha an eadar-aghaidh furasta a chleachdadh.
No, ann am beagan cheumannan sìmplidh, faodaidh tu inneal-tarraing sònraichte a chruthachadh. Gus ùine a lughdachadh agus cruinneas a leasachadh, giollachd cànan nàdarra adhartach (NLP) le domhainn ionnsachadh innealan a’ toirt cothrom dhut teacsa a mheasadh mar a dhèanadh duine.
A bharrachd air an sin, bidh SaaS APIs a’ dèanamh cinnteach nach fheum stèidheachadh cheanglaichean le innealan leithid Google Sheets, Excel, Zapier, Zendesk, agus feadhainn eile bliadhnaichean de eòlas saidheans coimpiutair.
Ri fhaighinn sa bhrobhsair agad an-dràsta tha an inneal-tarraing ainm, inneal-tarraing companaidh, agus inneal-àite. Airson fiosrachadh air mar a thogas tu do chuid fhèin, faic an artaigil blog aithneachadh eintiteas ainmichte.
Tha e air leth freagarrach airson gnìomhachasan de gach meud a tha an sàs ann an teicneòlas, reic, agus e-malairt a dh’ fheumas APIan sìmplidh a chuir an gnìomh airson diofar sheòrsan às-tharraing teacsa agus mion-sgrùdadh teacsa.
Tuigse Amazon
Gus a dhèanamh sìmplidh a bhith a 'cur a-steach agus a' cleachdadh innealan ro-thogte Amazon Comprehend sa bhad, tha iad air an trèanadh ann an ceudan de raointean eadar-dhealaichte.
Chan eil feum air frithealaichean a-staigh oir is e seirbheis sgrùdaichte a tha seo. Gu sònraichte ma chleachdas tu sgòth Amazon an-dràsta gu ìre air choreigin, bidh na APIan aca a’ fighe a-steach gu furasta le aplacaidean a bha ann roimhe. Agus le dìreach beagan trèanaidh a bharrachd, faodar cruinneas às-tharraing àrdachadh.
Is e aon de na dòighean sgrùdaidh teacsa as earbsaiche airson dàta fhaighinn bho chlàran meidigeach agus deuchainnean clionaigeach Comprehend's Aonad Ainmichte Meidigeach agus Tarraing Càirdeas (NERe), a dh’ fhaodas mion-fhiosrachadh a tharraing mu chungaidh-leigheis, cumhaichean, toraidhean deuchainn, agus modhan-obrach.
Faodaidh e a bhith gu math buannachdail nuair a thathar a’ dèanamh coimeas eadar dàta euslaintich gus breithneachadh a mheasadh agus a ghleusadh. An roghainn as fheàrr do ghnìomhachasan a tha a’ sireadh seirbheis stiùirichte le innealan ro-thrèanadh.
Ailein
Gus cothrom furasta a thoirt do mhion-sgrùdadh teacsa ionnsachadh inneal làidir, tha AYLIEN a’ tabhann trì plug-ins API ann an seachd cànanan prògramaidh mòr-chòrdte.
Bidh an News API aca a’ toirt seachad sgrùdadh fìor-ùine agus toirt a-mach eintiteas bho deichean de mhìltean de stòran naidheachdan bho air feadh na cruinne.
Faodar toirt a-mach eintiteas agus grunn ghnìomhan mion-sgrùdadh teacsa eile a’ cleachdadh an Text Analysis API air sgrìobhainnean, meadhanan sòisealta àrd-ùrlaran, suirbhidhean luchd-cleachdaidh, agus barrachd.
Mu dheireadh, a’ cleachdadh an Àrd-ùrlar Mion-sgrùdadh Teacs, faodaidh tu na h-innealan-tarraing agad fhèin a chruthachadh agus nas dìriche sa bhrobhsair agad (TAP). Bidh e ag obair gu math dha companaidhean a dh’ fheumas APIan stèidhichte gu sònraichte fhilleadh a-steach gu sgiobalta.
SpaCaidh
Is e pasgan Python Natural Language Processing (NLP) a th’ ann an SpaCy a tha fosgailte, an-asgaidh, agus aig a bheil tunna de fheartan togte.
Tha e a’ fàs nas cumanta airson Stòr-dàta NLP giollachd agus mion-sgrùdadh. Tha dàta teacsa neo-structaraichte air a chruthachadh air sgèile mhòr, agus mar sin tha e deatamach mion-sgrùdadh a dhèanamh air agus seallaidhean fhaighinn bhuaithe.
Gus sin a choileanadh, feumaidh tu an fhìrinn innse ann an dòigh a thuigeas coimpiutairean. Faodaidh tu a dhèanamh tro NLP. Tha e gu math sgiobalta, le ùine lag de dìreach 30ms, ach gu deatamach, chan eilear an dùil a chleachdadh le duilleagan HTTPS.
Is e deagh roghainn a tha seo airson na frithealaichean no an eadra-lìon agad fhèin a sganadh oir tha e ag obair gu h-ionadail, ach chan e inneal a th’ ann airson an eadar-lìn gu lèir a sgrùdadh.
Co-dhùnadh
Is e siostam a th’ ann an aithneachadh eintiteas ainmichte (NER) a dh’ fhaodas gnìomhachasan a chleachdadh gus fiosrachadh iomchaidh a chomharrachadh ann an iarrtasan taic teachdaiche, lorg buidhnean air a bheil iomradh ann am fios air ais bho luchd-cleachdaidh, agus gu luath a’ toirt a-mach dàta deatamach leithid fiosrachadh conaltraidh, àiteachan, agus cinn-latha, am measg rudan eile.
Is e an dòigh as cumanta air a bhith air ainmeachadh mar aithneachadh eintiteas tro bhith a’ cleachdadh APIan às-tharraing eintiteas (co dhiubh a tha iad air an toirt seachad le leabharlannan stòr fosgailte no toraidhean SaaS).
Ach, bidh taghadh an roghainn as fheàrr an urra ri d’ ùine, ionmhas agus seata sgilean. Airson seòrsa sam bith de ghnìomhachas, tha e soilleir gum bi e na bhuannachd às-tharraing eintiteas agus teicneòlasan mion-sgrùdadh teacsa nas ionnsaichte.
Nuair a tha innealan ionnsachaidh innealan air an teagasg gu ceart, tha iad ceart agus chan eil iad a 'coimhead thairis air dàta sam bith, a' sàbhaladh ùine agus airgead dhut. Faodaidh tu na fuasglaidhean sin a rèiteachadh airson ruith gu leantainneach agus gu fèin-ghluasadach le bhith ag amalachadh APIan.
Dìreach tagh an cùrsa gnìomh as fheàrr airson do chompanaidh.
Leave a Reply