మీకు ఇష్టమైన పాత్ర మీతో మాట్లాడడాన్ని మీరు ఎప్పుడైనా వినాలనుకుంటున్నారా? మెషీన్ లెర్నింగ్ సహాయంతో సహజంగా ధ్వనించే టెక్స్ట్-టు-స్పీచ్ నెమ్మదిగా వాస్తవికతగా మారుతోంది.
ఉదాహరణకు, Google యొక్క NAT TTS మోడల్ వారి కొత్త శక్తిని అందించడానికి ఉపయోగించబడుతోంది అనుకూల వాయిస్ సేవ. ఈ సేవ రికార్డింగ్ల నుండి శిక్షణ పొందిన వాయిస్ని రూపొందించడానికి న్యూరల్ నెట్వర్క్లను ఉపయోగిస్తుంది. వంటి వెబ్ యాప్లు ఉబెర్డక్ మీ స్వంత సంశ్లేషణ వచనాన్ని సృష్టించడానికి మీరు ఎంచుకోవడానికి వందల కొద్దీ స్వరాలను అందించండి.
ఈ కథనంలో, మేము 15.ai అని పిలిచే ఆకట్టుకునే మరియు సమానంగా సమస్యాత్మకమైన AI మోడల్ను పరిశీలిస్తాము. అనామక డెవలపర్ ద్వారా సృష్టించబడినది, ఇది అత్యంత సమర్థవంతమైన మరియు భావావేశపూరితమైనది కావచ్చు టెక్స్ట్-టు-స్పీచ్ మోడల్స్ ఇప్పటివరకు.
15.AI అంటే ఏమిటి?
15.AI ఉద్వేగభరితమైన అధిక-విశ్వసనీయత టెక్స్ట్-టు-స్పీచ్ వాయిస్లను రూపొందించగల సామర్థ్యం ఉన్న AI వెబ్ అప్లికేషన్. వినియోగదారులు 9000: ఎ స్పేస్ ఒడిస్సీ నుండి స్పాంజెబాబ్ స్క్వేర్ప్యాంట్స్ నుండి HAL 2001 వరకు వివిధ రకాల వాయిస్లను ఎంచుకోవచ్చు.
15 పేరుతో పని చేస్తున్న అనామక మాజీ MIT పరిశోధకుడు ఈ ప్రోగ్రామ్ను అభివృద్ధి చేశారు. డెవలపర్ ఈ ప్రాజెక్ట్ మొదట యూనివర్సిటీ యొక్క అండర్ గ్రాడ్యుయేట్ రీసెర్చ్ ఆపర్చునిటీస్ ప్రోగ్రామ్లో భాగంగా రూపొందించబడిందని పేర్కొన్నారు.
15.aiలో అందుబాటులో ఉన్న చాలా వాయిస్లు మై లిటిల్ పోనీ: ఫ్రెండ్షిప్ ఈజ్ మ్యాజిక్ నుండి క్యారెక్టర్ల పబ్లిక్ డేటాసెట్లపై శిక్షణ పొందాయి. ప్రదర్శన యొక్క ఆసక్తిగల అభిమానులు తమకు ఇష్టమైన పాత్రల యొక్క ఖచ్చితమైన టెక్స్ట్-టు-స్పీచ్ జనరేటర్లను సృష్టించే లక్ష్యంతో గంటల కొద్దీ డైలాగ్లను సేకరించడానికి, లిప్యంతరీకరించడానికి మరియు ప్రాసెస్ చేయడానికి సహకార ప్రయత్నాన్ని ఏర్పరుచుకున్నారు.
15.AI ఏమి చేయగలదు?
15.ai వెబ్ అప్లికేషన్ మోడల్పై శిక్షణ పొందిన డజన్ల కొద్దీ కల్పిత పాత్రలలో ఒకదాన్ని ఎంచుకోవడం ద్వారా మరియు ఇన్పుట్ వచనాన్ని సమర్పించడం ద్వారా పని చేస్తుంది. జనరేట్ పై క్లిక్ చేసిన తర్వాత, వినియోగదారు ఇచ్చిన పంక్తులను మాట్లాడే కల్పిత పాత్ర యొక్క మూడు ఆడియో క్లిప్లను అందుకోవాలి.
నుండి లోతైన అభ్యాసం ఉపయోగించిన మోడల్ నిశ్చయాత్మకమైనది, 15.ai ప్రతిసారీ కొద్దిగా భిన్నమైన ప్రసంగాన్ని అందిస్తుంది. సరైన డెలివరీని పొందడానికి ఒక నటుడికి బహుళ టేక్లు ఎలా అవసరమో అదే విధంగా, వినియోగదారు తమకు నచ్చిన అవుట్పుట్ను కనుగొనే వరకు 15.ai ప్రతిసారీ విభిన్న డెలివరీ స్టైల్లను రూపొందిస్తుంది.
ప్రాజెక్ట్ ఎమోషనల్ సందర్భోచితాలను ఉపయోగించి ఉత్పత్తి చేయబడిన లైన్ యొక్క భావోద్వేగాన్ని మాన్యువల్గా మార్చడానికి వినియోగదారులను అనుమతించే ప్రత్యేక లక్షణాన్ని కలిగి ఉంది. ఈ పారామితులు MITలను ఉపయోగించి వినియోగదారు-ఇన్పుట్ ఎమోజీల సెంటిమెంట్ను తగ్గించగలవు డీప్మోజీ మోడల్.
డెవలపర్ ప్రకారం, ఇతర సారూప్య TTS ప్రోగ్రామ్ల నుండి 15.aiని వేరుగా ఉంచేది ఏమిటంటే, "భావోద్వేగాలు మరియు సహజత్వం చెక్కుచెదరకుండా" వాయిస్లను ఖచ్చితంగా క్లోన్ చేయడానికి మోడల్ చాలా తక్కువ డేటాపై ఆధారపడుతుంది.
15.ai ఎలా పని చేస్తుంది?
15.AI వెనుక ఉన్న సాంకేతికతను పరిశీలిద్దాం.
మొదట, 15.ai యొక్క ప్రధాన డెవలపర్ మాట్లాడుతూ, ప్రోగ్రామ్ వివిధ భావోద్వేగ స్థితులతో స్వరాలను రూపొందించడానికి అనుకూల నమూనాను ఉపయోగిస్తుందని చెప్పారు. ప్రాజెక్ట్పై రచయిత ఇంకా వివరణాత్మక పత్రాన్ని ప్రచురించనందున, మేము తెరవెనుక ఏమి జరుగుతుందో విస్తృతమైన అంచనాలను మాత్రమే చేయగలము.
ఫోన్లను తిరిగి పొందుతోంది
ముందుగా, ప్రోగ్రామ్ ఇన్పుట్ టెక్స్ట్ను ఎలా అన్వయించాలో చూద్దాం. ప్రోగ్రామ్ ప్రసంగాన్ని రూపొందించడానికి ముందు, అది ప్రతి ఒక్క పదాన్ని దాని సంబంధిత ఫోనెమ్ల సేకరణగా మార్చాలి. ఉదాహరణకు, "కుక్క" అనే పదం మూడు ఫోనెమ్లతో కూడి ఉంటుంది: /d/, /ɒ/, మరియు /ɡ/.
అయితే ప్రతి పదానికి ఏ ఫోనెమ్లను ఉపయోగించాలో 15.aiకి ఎలా తెలుసు?
15.ai గురించి పేజీ ప్రకారం, ప్రోగ్రామ్ నిఘంటువు శోధన పట్టికను ఉపయోగిస్తుంది. పట్టిక ఆక్స్ఫర్డ్ డిక్షనరీస్ API, విక్షనరీ మరియు CMU ఉచ్చారణ నిఘంటువులను మూలాలుగా ఉపయోగిస్తుంది. 15.ai కొత్తగా రూపొందించిన నిబంధనలు మరియు పదబంధాల కోసం Reddit మరియు అర్బన్ డిక్షనరీ వంటి ఇతర వెబ్సైట్లను ఉపయోగిస్తుంది.
డిక్షనరీలో ఏదైనా పదం లేనట్లయితే, దాని ఉచ్చారణ నమూనా నుండి నేర్చుకున్న ఫోనోలాజికల్ నియమాలను ఉపయోగించి తీసివేయబడుతుంది. LibriTTS డేటాసెట్. ఈ డేటాసెట్ కార్పస్-మాతృభాష లేదా మాండలికంలో వ్రాసిన లేదా మాట్లాడే పదాల డేటాసెట్-దాదాపు 585 గంటలు ఇంగ్లీష్ మాట్లాడే వ్యక్తుల.
భావోద్వేగాలను పొందుపరచడం
డెవలపర్ ప్రకారం, మోడల్ ఇన్పుట్ టెక్స్ట్ యొక్క గ్రహించిన భావోద్వేగాన్ని అంచనా వేయడానికి ప్రయత్నిస్తుంది. మోడల్ DeepMoji ద్వారా ఈ పనిని పూర్తి చేస్తుంది సెంటిమెంట్ విశ్లేషణ మోడల్. భావోద్వేగాలను వ్యక్తీకరించడానికి భాష ఎలా ఉపయోగించబడుతుందో అర్థం చేసుకునే లక్ష్యంతో ఈ ప్రత్యేక మోడల్ ఎమోజీలతో కూడిన బిలియన్ల ట్వీట్లపై శిక్షణ పొందింది. కావలసిన భావోద్వేగం వైపు అవుట్పుట్ను మార్చేందుకు మోడల్ యొక్క ఫలితం TTS మోడల్లో పొందుపరచబడింది.
ఇన్పుట్ టెక్స్ట్ నుండి ఫోనెమ్లు మరియు సెంటిమెంట్లు సంగ్రహించబడిన తర్వాత, ఇప్పుడు ప్రసంగాన్ని సంశ్లేషణ చేయడానికి ఇది సమయం.
వాయిస్ క్లోనింగ్ మరియు సింథసిస్
15.ai వంటి టెక్స్ట్-టు-స్పీచ్ మోడల్లను మల్టీ-స్పీకర్ మోడల్స్ అంటారు. విభిన్న స్వరాలతో ఎలా మాట్లాడాలో నేర్చుకునేలా ఈ నమూనాలు నిర్మించబడ్డాయి. మా మోడల్కు సరిగ్గా శిక్షణ ఇవ్వడానికి, ప్రత్యేకమైన వాయిస్ ఫీచర్లను సంగ్రహించడానికి మరియు కంప్యూటర్ అర్థం చేసుకునే విధంగా దానిని సూచించడానికి మేము తప్పనిసరిగా ఒక మార్గాన్ని కనుగొనాలి. ఈ ప్రక్రియను స్పీకర్ ఎంబెడింగ్ అంటారు.
ప్రస్తుత టెక్స్ట్-టు-స్పీచ్ మోడల్లు ఉపయోగించబడుతున్నాయి నరాల నెట్వర్క్ అసలు ఆడియో అవుట్పుట్ని సృష్టించడానికి. న్యూరల్ నెట్వర్క్ సాధారణంగా రెండు ప్రధాన భాగాలను కలిగి ఉంటుంది: ఎన్కోడర్ మరియు డీకోడర్.
ఎన్కోడర్ వివిధ ఇన్పుట్ వెక్టర్ల ఆధారంగా ఒకే సారాంశ వెక్టర్ను రూపొందించడానికి ప్రయత్నిస్తుంది. ఫోనెమ్లు, భావోద్వేగ అంశాలు మరియు వాయిస్ ఫీచర్ల గురించిన సమాచారం అవుట్పుట్ ఎలా ఉండాలో సూచించడానికి ఎన్కోడర్లో ఉంచబడుతుంది. డీకోడర్ ఈ ప్రాతినిధ్యాన్ని ఆడియోగా మారుస్తుంది మరియు కాన్ఫిడెన్స్ స్కోర్ను అవుట్పుట్ చేస్తుంది.
15.ai వెబ్ అప్లికేషన్ ఉత్తమ కాన్ఫిడెన్స్ స్కోర్తో మొదటి మూడు ఫలితాలను అందిస్తుంది.
సమస్యలు
వంటి AI-ఉత్పత్తి కంటెంట్ పెరుగుదలతో deepfakes, నిజమైన వ్యక్తులను అనుకరించే అధునాతన AIని అభివృద్ధి చేయడం తీవ్రమైన నైతిక సమస్య.
ప్రస్తుతం, మీరు 15.ai వెబ్ అప్లికేషన్ నుండి ఎంచుకోగల వాయిస్లు అన్నీ కల్పిత పాత్రలే. అయినప్పటికీ, ఇది ఆన్లైన్లో కొంత వివాదాన్ని పొందకుండా యాప్ను ఆపలేదు.
కొంతమంది వాయిస్ యాక్టర్స్ వాయిస్ క్లోనింగ్ టెక్నాలజీని ఉపయోగించడాన్ని వెనక్కి నెట్టారు. వారి నుండి వచ్చిన ఆందోళనలలో వేషధారణ, స్పష్టమైన కంటెంట్లో వారి వాయిస్ని ఉపయోగించడం మరియు సాంకేతికత వాయిస్ నటుడి పాత్రను వాడుకలో లేకుండా చేసే అవకాశం ఉంది.
2022లో వాయిస్వర్స్ NFT అనే కంపెనీ తమ మార్కెటింగ్ ప్రచారం కోసం కంటెంట్ను రూపొందించడానికి 15.aiని ఉపయోగిస్తున్నట్లు కనుగొనబడినప్పుడు మరొక వివాదం జరిగింది.
ముగింపు
రోజువారీ జీవితంలో టెక్స్ట్-టు-స్పీచ్ ఇప్పటికే చాలా ప్రబలంగా ఉంది. వాయిస్ అసిస్టెంట్లు, GPS నావిగేటర్లు. మరియు స్వయంచాలక ఫోన్ కాల్లు ఇప్పటికే సాధారణ ప్రదేశంగా మారాయి. అయినప్పటికీ, ఈ అప్లికేషన్లు స్పష్టంగా మానవులు కానివి కాబట్టి అవి మెషిన్-మేడ్ స్పీచ్ అని మనం చెప్పగలం.
సహజంగా ధ్వనించే మరియు భావోద్వేగ TTS సాంకేతికత కొత్త అనువర్తనాలకు తలుపులు తెరవవచ్చు. అయినప్పటికీ, వాయిస్ క్లోనింగ్ యొక్క నైతికత ఇప్పటికీ సందేహాస్పదంగా ఉంది. ఈ అల్గారిథమ్ను ప్రజలతో పంచుకోవడానికి చాలా మంది పరిశోధకులు ఎందుకు ఇష్టపడరు అనేది ఖచ్చితంగా అర్ధమే.
సమాధానం ఇవ్వూ