کی میز کے مندرجات[چھپائیں][دکھائیں]
کیا آپ نے کبھی اپنے پسندیدہ کردار کو آپ سے بات کرنا سننا چاہا ہے؟ مشین لرننگ کی مدد سے قدرتی آواز والی ٹیکسٹ ٹو اسپیچ آہستہ آہستہ حقیقت بن رہی ہے۔
مثال کے طور پر، گوگل کا NAT TTS ماڈل ان کے نئے کو طاقت دینے کے لیے استعمال کیا جا رہا ہے۔ حسب ضرورت آواز سروس یہ سروس ریکارڈنگ سے تربیت یافتہ آواز پیدا کرنے کے لیے اعصابی نیٹ ورکس کا استعمال کرتی ہے۔ ویب ایپس جیسے اوبرڈک۔ آپ کو سینکڑوں آوازیں فراہم کریں جن میں سے آپ اپنا خود ساختہ متن تخلیق کریں۔
اس آرٹیکل میں، ہم 15.ai کے نام سے جانے والے متاثر کن اور اتنے ہی پراسرار AI ماڈل کو دیکھیں گے۔ ایک گمنام ڈویلپر کے ذریعہ تخلیق کیا گیا، یہ سب سے زیادہ موثر اور جذباتی ہوسکتا ہے۔ ٹیکسٹ ٹو اسپیچ ماڈلز اب تک.
15.ai کیا ہے؟
15.ai ایک AI ویب ایپلیکیشن ہے جو جذباتی ہائی فیڈیلیٹی ٹیکسٹ ٹو اسپیچ آوازیں پیدا کرنے کی صلاحیت رکھتی ہے۔ صارفین 9000 سے Spongebob Squarepants سے HAL 2001 تک مختلف آوازوں میں سے انتخاب کر سکتے ہیں: A Space Odyssey۔
یہ پروگرام 15 کے نام سے کام کرنے والے ایک گمنام سابق MIT محقق کی طرف سے تیار کیا گیا تھا۔ ڈویلپر نے کہا ہے کہ اس منصوبے کا ابتدائی طور پر یونیورسٹی کے انڈرگریجویٹ ریسرچ مواقع پروگرام کے حصے کے طور پر تصور کیا گیا تھا۔
15.ai میں دستیاب بہت سی آوازیں My Little Pony: Friendship is Magic کے کرداروں کے عوامی ڈیٹا سیٹس پر تربیت یافتہ ہیں۔ شو کے شوقین شائقین نے اپنے پسندیدہ کرداروں کے درست ٹیکسٹ ٹو اسپیچ جنریٹرز بنانے کے مقصد کے ساتھ ڈائیلاگ کے اوقات کو اکٹھا کرنے، نقل کرنے اور عمل کرنے کے لیے ایک مشترکہ کوشش کی ہے۔
15.ai کیا کر سکتا ہے؟
15.ai ویب ایپلیکیشن درجنوں افسانوی کرداروں میں سے ایک کو منتخب کر کے کام کرتی ہے جس پر ماڈل کو تربیت دی گئی ہے اور ان پٹ ٹیکسٹ جمع کرایا جاتا ہے۔ جنریٹ پر کلک کرنے کے بعد، صارف کو دی گئی لائنوں کو بولنے والے افسانوی کردار کے تین آڈیو کلپس موصول ہونے چاہئیں۔
چونکہ گہری سیکھنے استعمال شدہ ماڈل غیر متزلزل ہے، 15.ai ہر بار تھوڑی مختلف تقریر کرتا ہے۔ اسی طرح جس طرح ایک اداکار کو صحیح ڈیلیوری حاصل کرنے کے لیے ایک سے زیادہ ٹیکوں کی ضرورت پڑ سکتی ہے، 15.ai ہر بار مختلف ڈیلیوری اسٹائل تیار کرتا ہے جب تک کہ صارف کو اپنی پسند کا آؤٹ پٹ نہ مل جائے۔
اس پروجیکٹ میں ایک انوکھی خصوصیت شامل ہے جو صارفین کو جذباتی سیاق و سباق کے استعمال سے تیار کردہ لائن کے جذبات کو دستی طور پر تبدیل کرنے کی اجازت دیتی ہے۔ یہ پیرامیٹرز ایم آئی ٹی کا استعمال کرتے ہوئے صارف کے ان پٹ ایموجیز کے جذبات کا اندازہ لگانے کے قابل ہیں۔ ڈیپ موجی ماڈل.
ڈویلپر کے مطابق، جو چیز 15.ai کو دوسرے اسی طرح کے TTS پروگراموں سے الگ کرتی ہے وہ یہ ہے کہ یہ ماڈل آوازوں کو درست طریقے سے کلون کرنے کے لیے بہت کم ڈیٹا پر انحصار کرتا ہے جبکہ "جذبات اور فطرت کو برقرار رکھتے ہوئے"۔
15.ai کیسے کام کرتا ہے؟
آئیے 15.ai کے پیچھے کی ٹیکنالوجی کو دیکھتے ہیں۔
سب سے پہلے، 15.ai کے مرکزی ڈویلپر کا کہنا ہے کہ یہ پروگرام جذبات کی مختلف حالتوں کے ساتھ آوازیں پیدا کرنے کے لیے ایک حسب ضرورت ماڈل استعمال کرتا ہے۔ چونکہ مصنف نے ابھی تک اس منصوبے پر ایک تفصیلی مقالہ شائع کرنا ہے، اس لیے ہم صرف اس بات کے وسیع قیاس کر سکتے ہیں کہ پردے کے پیچھے کیا ہو رہا ہے۔
فونیمز کو بازیافت کرنا
پہلے، آئیے دیکھتے ہیں کہ پروگرام ان پٹ ٹیکسٹ کو کیسے پارس کرتا ہے۔ اس سے پہلے کہ پروگرام تقریر پیدا کر سکے، اسے ہر ایک لفظ کو اس کے متعلقہ صوتی مجموعہ میں تبدیل کرنا چاہیے۔ مثال کے طور پر، لفظ "کتا" تین فونیم پر مشتمل ہے: /d/، /ɒ/، اور /ɡ/۔
لیکن 15.ai کو کیسے معلوم ہوگا کہ ہر لفظ کے لیے کون سے فونیم استعمال کیے جائیں؟
15.ai کے بارے میں صفحہ کے مطابق، پروگرام لغت تلاش کرنے کی میز کا استعمال کرتا ہے۔ جدول میں آکسفورڈ ڈکشنری API، Wiktionary، اور CMU Pronouncing Dictionary کو بطور ماخذ استعمال کیا گیا ہے۔ 15.ai دوسری ویب سائٹس جیسے Reddit اور Urban Dictionary کو نئے بنائے گئے اصطلاحات اور فقروں کے ذرائع کے طور پر استعمال کرتا ہے۔
اگر کوئی بھی لفظ لغت میں موجود نہیں ہے تو اس کا تلفظ صوتی اصولوں کے ذریعے اخذ کیا جاتا ہے جو ماڈل نے اس سے سیکھا ہے۔ LibriTTS ڈیٹاسیٹ یہ ڈیٹا سیٹ تقریباً 585 گھنٹے انگریزی بولنے والے لوگوں کا ایک کارپس – مادری زبان یا بولی میں لکھے یا بولے جانے والے الفاظ کا ڈیٹا سیٹ ہے۔
جذبات کو سرایت کرنا
ڈویلپر کے مطابق، ماڈل ان پٹ ٹیکسٹ کے سمجھے جانے والے جذبات کا اندازہ لگانے کی کوشش کرتا ہے۔ ماڈل ڈیپ موجی کے ذریعے اس کام کو پورا کرتا ہے۔ جذبات تجزیہ ماڈل اس مخصوص ماڈل کو ایموجیز کے ساتھ اربوں ٹویٹس پر تربیت دی گئی تھی جس کا مقصد یہ سمجھنا تھا کہ جذبات کے اظہار کے لیے زبان کا استعمال کیسے کیا جاتا ہے۔ ماڈل کا نتیجہ مطلوبہ جذبات کی طرف آؤٹ پٹ کو جوڑتوڑ کرنے کے لیے TTS ماڈل میں سرایت کرتا ہے۔
ایک بار جب ان پٹ ٹیکسٹ سے فونیمز اور جذبات نکال لیے جائیں، اب وقت آ گیا ہے کہ تقریر کو سنتھیسائز کیا جائے۔
صوتی کلوننگ اور ترکیب
ٹیکسٹ ٹو اسپیچ ماڈل جیسے کہ 15.ai کو ملٹی اسپیکر ماڈل کہا جاتا ہے۔ یہ ماڈلز مختلف آوازوں میں بولنے کا طریقہ سیکھنے کے لیے بنائے گئے ہیں۔ اپنے ماڈل کو صحیح طریقے سے تربیت دینے کے لیے، ہمیں آواز کی منفرد خصوصیات کو نکالنے کا طریقہ تلاش کرنا چاہیے اور اسے اس طریقے سے پیش کرنا چاہیے جس سے کمپیوٹر سمجھ سکے۔ اس عمل کو اسپیکر ایمبیڈنگ کے نام سے جانا جاتا ہے۔
موجودہ ٹیکسٹ ٹو اسپیچ ماڈل استعمال کرتے ہیں۔ نیند نیٹ ورک اصل آڈیو آؤٹ پٹ بنانے کے لیے۔ نیورل نیٹ ورک عام طور پر دو اہم حصوں پر مشتمل ہوتا ہے: ایک انکوڈر اور ایک ڈیکوڈر۔
انکوڈر مختلف ان پٹ ویکٹرز کی بنیاد پر ایک سمری ویکٹر بنانے کی کوشش کرتا ہے۔ فونیمز، جذباتی پہلوؤں، اور آواز کی خصوصیات کے بارے میں معلومات کو انکوڈر میں رکھا جاتا ہے تاکہ یہ ظاہر کیا جا سکے کہ آؤٹ پٹ کیا ہونا چاہیے۔ ڈیکوڈر پھر اس نمائندگی کو آڈیو میں تبدیل کرتا ہے اور اعتماد کا سکور نکالتا ہے۔
15.ai ویب ایپلیکیشن پھر بہترین اعتماد کے اسکور کے ساتھ ٹاپ تین نتائج واپس کرتی ہے۔
مسائل
جیسے کہ AI سے تیار کردہ مواد کے عروج کے ساتھ deepfakes، جدید ترین AI تیار کرنا جو حقیقی لوگوں کی نقل کر سکتا ہے ایک سنگین اخلاقی مسئلہ ہو سکتا ہے۔
فی الحال، آپ 15.ai ویب ایپلیکیشن سے جن آوازوں کا انتخاب کر سکتے ہیں وہ سب فرضی کردار ہیں۔ تاہم، اس نے ایپ کو آن لائن کچھ تنازعات پیدا کرنے سے نہیں روکا۔
آواز کے چند اداکاروں نے صوتی کلوننگ ٹیکنالوجی کے استعمال کو پیچھے دھکیل دیا ہے۔ ان کے خدشات میں نقالی، صریح مواد میں ان کی آواز کا استعمال، اور یہ امکان شامل ہے کہ ٹیکنالوجی صوتی اداکار کے کردار کو متروک کر سکتی ہے۔
ایک اور تنازعہ 2022 کے شروع میں ہوا جب وائسورس NFT نامی کمپنی کو اپنی مارکیٹنگ مہم کے لیے مواد تیار کرنے کے لیے 15.ai کا استعمال کرتے ہوئے دریافت کیا گیا۔
نتیجہ
ٹیکسٹ ٹو اسپیچ پہلے سے ہی روز مرہ کی زندگی میں کافی مقبول ہے۔ وائس اسسٹنٹس، GPS نیویگیٹرز۔ اور خودکار فون کالز پہلے ہی عام ہو چکی ہیں۔ تاہم، یہ ایپلی کیشنز واضح طور پر اتنی غیر انسانی ہیں کہ ہم بتا سکتے ہیں کہ یہ مشین سے بنی ہوئی تقریر ہیں۔
قدرتی آواز اور جذباتی TTS ٹیکنالوجی نئی ایپلی کیشنز کے لیے دروازہ کھول سکتی ہے۔ تاہم، صوتی کلوننگ کی اخلاقیات اب بھی قابل اعتراض ہے۔ یہ یقینی طور پر سمجھ میں آتا ہے کہ ان محققین میں سے بہت سے لوگ الگورتھم کو عوام کے ساتھ شیئر کرنے سے کیوں گریزاں ہیں۔
جواب دیجئے