Ko te Tukatuka Reo Maori (NLP) kei te kite i te ngaru hou o nga whakapainga. A, ko nga huingararaunga awhi Mata kei mua i tenei ahuatanga. I roto i tenei tuhinga, ka titiro tatou ki te hiranga o te Hugging Face datasets.
Ano, ka kite tatou me pehea te whakamahi ki te whakangungu me te aromatawai i nga tauira NLP.
Ko te Hugging Face he kamupene e tuku ana i nga kaiwhakawhanake me nga momo huingararaunga.
Ahakoa he tauhou koe, he tohunga mohio ranei mo te NLP, ka whai hua nga raraunga e whakaratohia ana ki te Hugging Face ki a koe. Hono mai ki a matou i a matou e torotoro ana i te mara o te NLP me te ako mo te kaha o nga huingararaunga Hugging Face.
Tuatahi, He aha te NLP?
Ko te Tukatuka Reo Maori (NLP) he peka o mātauranga horihori. Ka rangahau i te mahi a te rorohiko ki nga reo tangata (maori). Ko te NLP te hanga tauira e mohio ana me te whakamaori i te reo tangata. No reira, ka taea e nga algorithms te whakahaere i nga mahi penei i te whakamaoritanga reo, tātaritanga whakaaro, me te hanga tuhinga.
Ka whakamahia te NLP ki nga waahi maha, tae atu ki te ratonga kaihoko, hokohoko, me te hauora. Ko te whainga o te NLP he tuku i nga rorohiko ki te whakamaori me te mohio ki te reo tangata i te mea e tuhia ana, e korerohia ana ranei i runga i te ahua tata ki to te tangata.
Tuhinga o mua Kanohi Kohia
Kanohi Kohia he mahi tukatuka reo maori (NLP) me te pakihi hangarau ako miihini. Ka whakaratohia e ratou te whānuitanga o nga rauemi hei awhina i nga kaiwhakawhanake ki te whakapiki ake i te rohe o NLP. Ko ta ratou hua tino rongonui ko te whare pukapuka Transformers.
I hangaia mo nga tono tukatuka reo maori. Ano, ka whakarato tauira kua whakangungua mo nga momo mahi NLP penei i te whakamaori reo me te whakautu patai.
Ko te Hugging Face, i tua atu i te whare pukapuka Transformers, ka tuku he papa mo te tiri i nga huingararaunga ako miihini. Ma tenei ka taea te uru tere ki te kounga teitei nga raraunga mo te whakangungu o ratou tauira.
Ko te kaupapa a Hugging Face kia whai waahi atu te tukatuka reo maori (NLP) mo nga kaihanga.
Ko nga Raraunga Raraunga Mata awhi tino rongonui
Cornell Movie-Dialogs Corpus
He huinga raraunga rongonui tenei mai i a Hugging Face. Ko Cornell Movie-Dialogs Corpus nga korero i tangohia mai i nga whakaaturanga kiriata. Ko nga tauira tukatuka reo maori (NLP) ka taea te whakangungu ma te whakamahi i te maha o nga raraunga kuputuhi.
Neke atu i te 220,579 nga huihuinga korero i waenga i te 10,292 takirua kiriata kei roto i te kohinga.
Ka taea e koe te whakamahi i tenei huingararaunga mo nga momo mahi NLP. Hei tauira, ka taea e koe te hanga kaupapa hanga reo me nga kaupapa whakautu patai. Ano, ka taea e koe te hanga i nga punaha korero. no te mea he maha nga kaupapa kei roto i nga korero. Ko te huinga raraunga kua whakamahia nuitia ki nga kaupapa rangahau.
No reira, he taputapu tino whai hua tenei mo nga kairangahau NLP me nga kaihanga.
OpenWebText Corpus
Ko te OpenWebText Corpus he kohinga wharangi ipurangi ka kitea e koe i runga i te turanga Hugging Face. Kei roto i tenei huingararaunga te whānuitanga o nga wharangi ipurangi, penei i nga tuhinga, blogs, me nga huihuinga. I tua atu, ko enei katoa i whiriwhiria mo o raatau kounga teitei.
He mea tino nui te huingararaunga mo te whakangungu me te aromatawai i nga tauira NLP. No reira, ka taea e koe te whakamahi i tenei huingararaunga mo nga mahi penei i te whakamaoritanga, me te whakarapopototanga. Ano hoki, ka taea e koe te mahi tātari karekau ma te whakamahi i tenei huinga raraunga he taonga nui mo nga tono maha.
Na te roopu Hugging Face i whakarite te OpenWebText Corpus ki te whakarato tauira kounga teitei mo te whakangungu. He huinga raraunga nui nui atu i te 570GB o nga raraunga kuputuhi.
BERT
BERT (Bidirectional Encoder Representations from Transformers) he tauira NLP. Kua whakangungua i mua, e waatea ana i runga i te turanga Hugging Face. I hangaia a BERT e te roopu Google AI Language. Ano, kua whakangungua i runga i te huinga raraunga kuputuhi nui kia mau ki te horopaki o nga kupu i roto i te rerenga korero.
Na te mea he tauira hurihanga a BERT, ka taea e ia te tukatuka i te raupapa whakauru katoa i te wa kotahi, kaua ki te kupu kotahi i te wa kotahi. Ka whakamahia e te tauira hurihanga tikanga aro ki te whakamaori i te whakauru raupapa.
Ma tenei ahuatanga ka taea e BERT te hopu i te horopaki o nga kupu i roto i te kianga.
Ka taea e koe te whakamahi i te BERT mo te whakarōpūtanga kupu, te mohio ki te reo, ingoa hinonga te tautuhi, me te whakatau tohu, me etahi atu tono NLP. Ano, he painga ki te whakaputa tuhinga me te mohio ki te panui miihini.
SQUA
Ko te SQuAD (Stanford Question Answering Dataset) he putunga korero mo nga patai me nga whakautu. Ka taea e koe te whakamahi ki te whakangungu i nga tauira mohio panui miihini. Neke atu i te 100,000 nga paatai me nga whakautu mo nga momo kaupapa kei roto i te huingararaunga. He rereke te SQuAD i nga huingararaunga o mua.
E aro ana ki nga patai e hiahia ana kia mohio ki te horopaki o te tuhinga, kaua ki nga kupu matua e rite ana.
Ko te mutunga mai, he rauemi tino pai mo te hanga me te whakamatautau tauira mo te whakautu patai me etahi atu mahi mohio miihini. Ka tuhia e te tangata nga patai ki te SQuAD hoki. Ka whakarato tenei i te kounga teitei me te riterite.
I roto i te katoa, he tino rauemi a SQuAD mo nga kairangahau NLP me nga kaihanga.
MNLI
Ko te MNLI, ko te Inference o te Reo Maori Momo-maha ranei, he huingararaunga kua whakamahia hei whakangungu me te whakamatautau tauira miihini akoranga mo te whakatau i te reo maori. Ko te kaupapa o te MNLI he tohu he pono, he teka, he koretake ranei tetahi korero i runga i tetahi atu korero.
He rereke te MNLI mai i nga huingararaunga o mua na te mea kei te kapi te whānuitanga o nga tuhinga mai i nga momo momo maha. He rereke enei momo mai i nga korero pakiwaitara ki nga purongo, me nga pepa a te kawanatanga. Na tenei rereketanga, ko te MNLI he tauira tohu mo nga tuhinga o te ao. He pai ake i te maha atu o nga huinga huinga huinga huinga reo maori.
Neke atu i te 400,000 nga keehi kei roto i te huingararaunga, ka whakaratohia e MNLI te maha o nga tauira mo nga tauira whakangungu. Kei roto hoki nga korero mo ia tauira hei awhina i nga tauira i roto i a raatau akoranga.
Thoughts Final
Ka mutu, ko te Hugging Face he rauemi tino nui mo nga kairangahau NLP me nga kaihanga. Ko te Hugging Face he anga mo te whakawhanaketanga NLP ma te whakamahi i te tini o nga huinga huingararaunga.
Ki ta matou whakaaro ko te huingararaunga nui a Hugging Face ko te OpenWebText Corpus.
Neke atu i te 570GB o nga raraunga kuputuhi kei roto i tenei huingararaunga kounga teitei. He rauemi tino nui mo te whakangungu me te arotake i nga tauira NLP. Ka taea e koe te ngana ki te whakamahi i te OpenWebText me etahi atu i o kaupapa e whai ake nei.
Waiho i te Reply