Clár na nÁbhar[Folaigh][Taispeáin]
Ar theastaigh uait riamh do charachtar is fearr leat a chloisteáil ag caint leat? Tá téacs-go-hurlabhra a fhuaimniú nádúrtha ag teacht chun cinn go mall le cabhair ó mheaisínfhoghlaim.
Mar shampla, tá samhail NAT TTS de chuid Google á úsáid chun cumhacht a thabhairt dá nua Guth Saincheaptha seirbhíse. Úsáideann an tseirbhís seo líonraí néaracha chun guth oilte ó thaifeadtaí a ghiniúint. Aipeanna gréasáin ar nós Uberduck cuir na céadta guthanna ar fáil duit le roghnú astu chun do théacs sintéiseithe féin a chruthú.
San Airteagal seo, féachfaimid ar an tsamhail AI mórthaibhseach agus chomh enigmatic ar a dtugtar 15.ai. Cruthaithe ag forbróir gan ainm, d'fhéadfadh sé a bheith ar cheann de na cinn is éifeachtaí agus is mhothúchánach samhlacha téacs-go-hurlabhra go dtí seo.
Cad é 15.ai?
15.ai is feidhmchlár gréasáin AI é atá in ann guthanna téacs-go-hurlabhra ard-dhílseachta a ghiniúint. Is féidir le húsáideoirí guthanna éagsúla a roghnú ó Spongebob Squarepants go HAL 9000 ó 2001: A Space Odyssey.
D'fhorbair iar-thaighdeoir gan ainm MIT an clár a bhí ag obair faoin ainm 15. Tá sé ráite ag an bhforbróir gur ceapadh an tionscadal ar dtús mar chuid de Chlár Deiseanna Taighde Fochéime na hollscoile.
Tá go leor de na guthanna atá ar fáil i 15.ai oilte ar thacar sonraí poiblí de charachtair ó My Little Pony: Friendship is Magic. Tá comhiarracht déanta ag lucht leanúna díograiseach an tseó chun uaireanta dialóige a bhailiú, a thrascríobh agus a phróiseáil agus é mar sprioc gineadóirí téacs-go-hurlabhra cruinn a chruthú dá gcarachtar is fearr leo.
Cad is féidir le 15.ai a dhéanamh?
Oibríonn feidhmchlár gréasáin 15.ai trí cheann amháin den iliomad carachtar ficseanúil a bhfuil an tsamhail oilte orthu a roghnú agus téacs ionchuir a chur isteach. Tar éis dó cliceáil ar Gin, ba cheart go bhfaigheadh an t-úsáideoir trí ghearrthóg fuaime den charachtar ficseanúil ag labhairt na línte tugtha.
Ós rud é foghlaim domhain tá an tsamhail a úsáidtear neamhchinntitheach, aschuir 15.ai óráid beagán difriúil gach uair. Cosúil leis an gcaoi a bhféadfadh go n-éileoidh aisteoir go leor glacanna chun an seachadadh ceart a fháil, gineann 15.ai stíleanna seachadta éagsúla gach uair go dtí go bhfaighidh an t-úsáideoir aschur is maith leo.
Áiríonn an tionscadal gné uathúil a ligeann d’úsáideoirí mothúchán na líne ginte a athrú de láimh ag baint úsáide as comhthéacsóirí mothúcháin. Tá na paraiméadair seo in ann meon emojis ionchuir úsáideora a bhaint as MIT DeepMoji samhail.
De réir an fhorbróra, is é an rud a leagann 15.ai amach ó chláir TTS eile dá samhail ná go mbraitheann an tsamhail ar fíorbheagán sonraí chun guthanna a chlónáil go beacht agus “mothúcháin agus nádúrthacht a choinneáil slán”.
Conas a Oibríonn 15.ai?
Breathnaímid ar an teicneolaíocht taobh thiar de 15.ai.
Ar an gcéad dul síos, deir príomhfhorbróir 15.ai go n-úsáideann an clár múnla saincheaptha chun guthanna a bhfuil staideanna éagsúla mothúcháin acu a ghiniúint. Ós rud é go bhfuil páipéar mionsonraithe fós le foilsiú ag an údar faoin tionscadal, ní féidir linn ach boinn tuisceana leathana a dhéanamh ar cad atá ag tarlú sa chúlra.
Na Fóinéimí a Fháil
Ar dtús, déanaimis féachaint ar conas a pharsáil an clár an téacs ionchuir. Sula bhféadfaidh an clár caint a ghiniúint, ní mór dó gach focal aonair a thiontú ina bhailiúchán fóinéimí faoi seach. Mar shampla, tá an focal “madra” comhdhéanta de thrí fhóinéim: /d/, /ɒ/, agus /ɡ/.
Ach conas a bhíonn a fhios ag 15.ai cé na fóinéimí is cóir a úsáid do gach focal?
De réir leathanach Maidir le 15.ai, úsáideann an clár tábla cuardaigh foclóir. Úsáideann an tábla an Oxford Dictionaries API, Vicífhoclóir, agus an CMU Pronouncing Dictionary mar fhoinsí. Úsáideann 15.ai suíomhanna gréasáin eile ar nós Reddit agus Urban Dictionary mar fhoinsí do théarmaí agus frásaí nuachumtha.
Mura bhfuil aon fhocal tugtha sa bhfoclóir, déantar a fhuaimniú a bhaint as rialacha fóineolaíochta a d’fhoghlaim an tsamhail ón LibriTTS tacar sonraí. Corpas atá sa tacar sonraí seo – tacar sonraí d’fhocail scríofa nó labhartha i dteanga dhúchais nó i gcanúint – de thart ar 585 uair an chloig de dhaoine ag labhairt Béarla.
Mothúcháin a Leabú
De réir an fhorbróra, déanann an tsamhail iarracht buille faoi thuairim a dhéanamh ar mhothúchán braite an téacs ionchuir. Comhlíonann an tsamhail an tasc seo tríd an DeepMoji anailís meon Mionsamhail. Cuireadh oiliúint ar an tsamhail áirithe seo ar na billiúin tweets le emojis agus é mar sprioc aige tuiscint a fháil ar an gcaoi a n-úsáidtear teanga chun mothúcháin a chur in iúl. Tá toradh na samhla leabaithe sa mhúnla TTS chun an t-aschur a ionramháil i dtreo na mothúchán inmhianaithe.
Nuair a bheidh na fóinéimí agus an meon bainte as an téacs ionchuir, tá sé in am anois an chaint a shintéisiú.
Clónáil Gutha agus Sintéis
Tugtar samhlacha ilchainteoir ar mhúnlaí téacs-go-hurlabhra ar nós 15.ai. Tógtar na samhlacha seo le bheith in ann foghlaim conas labhairt i nguthanna éagsúla. Chun ár múnla a oiliúint i gceart, ní mór dúinn bealach a aimsiú chun na gnéithe uathúla gutha a bhaint amach agus é a léiriú ar bhealach a thuigeann ríomhaire. Tugtar leabú cainteoir ar an bpróiseas seo.
Úsáideann samhlacha téacs-go-hurlabhra reatha líonraí neural chun an t-aschur fuaime iarbhír a chruthú. De ghnáth bíonn dhá phríomhchuid sa líonra néarúil: ionchódóir agus díchódóir.
Déanann an t-ionchódóir iarracht veicteoir achoimre amháin a thógáil bunaithe ar veicteoirí ionchuir éagsúla. Cuirtear faisnéis faoi na fóinéimí, gnéithe mothúchánacha, agus gnéithe gutha isteach san ionchódóir chun léiriú a chruthú ar cad ba cheart don aschur a bheith. Tiontaíonn an díchódóir an léiriú seo ina fhuaim agus aschuireann sé scór muiníne.
Tugann an t-iarratas gréasáin 15.ai ar ais ansin na trí thoradh is fearr leis an scór muiníne is fearr.
Ceisteanna
Leis an méadú ar ábhar AI-ghinte ar nós deepfakes, is saincheist thromchúiseach eiticiúil é AI a fhorbairt a fhéadfaidh aithris a dhéanamh ar dhaoine fíor.
Faoi láthair, is carachtair fhicseanúla iad na guthanna is féidir leat a roghnú ón bhfeidhmchlár gréasáin 15.ai. Mar sin féin, níor chuir sé sin stop leis an aip ó roinnt conspóide a bhailiú ar líne.
Tá brú ar ais ag roinnt aisteoirí gutha ar úsáid na teicneolaíochta clónála gutha. I measc na n-ábhar imní a bhaineann leo tá pearsanú, úsáid a nguth in ábhar follasach, agus an fhéidearthacht go bhféadfadh an teicneolaíocht ról an aisteoir gutha a fhágáil as feidhm.
Tharla conspóid eile níos luaithe in 2022 nuair a fuarthas amach go raibh cuideachta ar a dtugtar Voiceverse NFT ag úsáid 15.ai chun ábhar a ghiniúint dá bhfeachtas margaíochta.
Conclúid
Tá téacs-go-hurlabhra an-choitianta cheana féin sa saol laethúil. Cúntóirí gutha, loingseoireachtaí GPS. agus tá glaonna gutháin uathoibrithe tar éis éirí coitianta cheana féin. Mar sin féin, tá na feidhmchláir seo neamhdhaonna go leor gur féidir linn a rá gur urlabhra de dhéantús an duine iad.
D’fhéadfadh go n-osclódh teicneolaíocht TTS nádúrtha-fhuaimneach agus mhothúchánach an doras d’fheidhmchláir nua. Mar sin féin, tá an eitic a bhaineann le clónáil gutha fós amhrasach sa chás is fearr. Is cinnte go ndéanann sé ciall cén fáth a raibh leisce ar go leor de na taighdeoirí seo an algartam a roinnt leis an bpobal.
Leave a Reply