আপনি কি কখনও আপনার প্রিয় চরিত্রের সাথে কথা বলতে চেয়েছেন? মেশিন লার্নিংয়ের সাহায্যে প্রাকৃতিক-শব্দযুক্ত পাঠ্য থেকে বক্তৃতা ধীরে ধীরে বাস্তবে পরিণত হচ্ছে।
উদাহরণস্বরূপ, গুগলের ন্যাট টিটিএস মডেল তাদের নতুন শক্তির জন্য ব্যবহার করা হচ্ছে কাস্টম ভয়েস সেবা এই পরিষেবাটি রেকর্ডিং থেকে প্রশিক্ষিত একটি ভয়েস তৈরি করতে নিউরাল নেটওয়ার্ক ব্যবহার করে। ওয়েব অ্যাপ যেমন উবারডাক আপনার নিজস্ব সংশ্লেষিত টেক্সট তৈরি করতে আপনাকে বেছে নিতে শত শত ভয়েস প্রদান করে।
এই নিবন্ধে, আমরা 15.ai নামে পরিচিত চিত্তাকর্ষক এবং সমানভাবে রহস্যময় এআই মডেলটি দেখব। একটি বেনামী বিকাশকারী দ্বারা তৈরি, এটি সবচেয়ে দক্ষ এবং আবেগপূর্ণ এক হতে পারে টেক্সট-টু-স্পিচ মডেল যতদূর.
15.ai কি?
15.ai একটি AI ওয়েব অ্যাপ্লিকেশন যা আবেগপূর্ণ উচ্চ-বিশ্বস্ত টেক্সট-টু-স্পিচ ভয়েস তৈরি করতে সক্ষম। ব্যবহারকারীরা 9000 থেকে Spongebob Squarepants থেকে HAL 2001 পর্যন্ত বিভিন্ন ধরনের ভয়েস থেকে বেছে নিতে পারেন: A Space Odyssey।
প্রোগ্রামটি 15 নামে কর্মরত একজন বেনামী প্রাক্তন এমআইটি গবেষক দ্বারা তৈরি করা হয়েছিল। বিকাশকারী বলেছেন যে প্রকল্পটি প্রাথমিকভাবে বিশ্ববিদ্যালয়ের স্নাতক গবেষণা সুযোগ প্রোগ্রামের অংশ হিসাবে কল্পনা করা হয়েছিল।
15.ai-তে উপলব্ধ অনেক ভয়েস মাই লিটল পনি: ফ্রেন্ডশিপ ইজ ম্যাজিক-এর পাবলিক ডেটাসেটে অক্ষরগুলির জন্য প্রশিক্ষিত। অনুষ্ঠানের উত্সাহী ভক্তরা তাদের প্রিয় চরিত্রগুলির সঠিক পাঠ্য থেকে বক্তৃতা জেনারেটর তৈরি করার লক্ষ্যে সংলাপের ঘন্টাগুলি সংগ্রহ, প্রতিলিপি এবং প্রক্রিয়া করার জন্য একটি সহযোগী প্রচেষ্টা তৈরি করেছে।
15.ai কি করতে পারে?
15.ai ওয়েব অ্যাপ্লিকেশানটি কয়েক ডজন কাল্পনিক চরিত্রের মধ্যে একটি বেছে নিয়ে কাজ করে যে মডেলটিতে প্রশিক্ষণ দেওয়া হয়েছে এবং ইনপুট পাঠ্য জমা দেওয়া হয়েছে। Generate-এ ক্লিক করার পর, ব্যবহারকারীর প্রদত্ত লাইনে কথা বলা কাল্পনিক চরিত্রের তিনটি অডিও ক্লিপ পাওয়া উচিত।
যেহেতু গভীর জ্ঞানার্জন ব্যবহৃত মডেলটি ননডিটারমিনিস্টিক, 15.ai প্রতিবার একটু ভিন্ন বক্তৃতা দেয়। যেভাবে একজন অভিনেতাকে সঠিক ডেলিভারি পাওয়ার জন্য একাধিক টেকের প্রয়োজন হতে পারে, একইভাবে 15.ai প্রতিবার বিভিন্ন ডেলিভারি স্টাইল তৈরি করে যতক্ষণ না ব্যবহারকারী তাদের পছন্দের আউটপুট খুঁজে পায়।
প্রকল্পটিতে একটি অনন্য বৈশিষ্ট্য রয়েছে যা ব্যবহারকারীদের আবেগগত প্রসঙ্গ ব্যবহার করে তৈরি করা লাইনের আবেগকে ম্যানুয়ালি পরিবর্তন করতে দেয়। এই পরামিতিগুলি এমআইটি ব্যবহার করে ব্যবহারকারী-ইনপুট ইমোজির অনুভূতি বের করতে সক্ষম ডিপমোজি মডেল.
বিকাশকারীর মতে, অন্যান্য অনুরূপ TTS প্রোগ্রামগুলি থেকে 15.ai যা আলাদা করে তা হল যে মডেলটি "আবেগ এবং স্বাভাবিকতা অক্ষুণ্ণ রেখে" সঠিকভাবে ভয়েস ক্লোন করতে খুব কম ডেটার উপর নির্ভর করে।
কিভাবে 15.ai কাজ করে?
আসুন 15.ai এর পিছনের প্রযুক্তিটি দেখুন।
প্রথমত, 15.ai এর প্রধান বিকাশকারী বলেছেন যে প্রোগ্রামটি আবেগের বিভিন্ন অবস্থার সাথে ভয়েস তৈরি করতে একটি কাস্টম মডেল ব্যবহার করে। যেহেতু লেখক এখনও প্রকল্পের উপর একটি বিস্তারিত কাগজ প্রকাশ করতে পারেনি, তাই আমরা কেবল পর্দার আড়ালে কী ঘটছে তার বিস্তৃত অনুমান করতে পারি।
Phonemes পুনরুদ্ধার করা হচ্ছে
প্রথমে, আসুন দেখি কিভাবে প্রোগ্রামটি ইনপুট টেক্সট পার্স করে। প্রোগ্রামটি বক্তৃতা তৈরি করার আগে, এটি অবশ্যই প্রতিটি পৃথক শব্দকে তার স্বতন্ত্র ধ্বনিগুলির সংগ্রহে রূপান্তর করতে হবে। উদাহরণস্বরূপ, "কুকুর" শব্দটি তিনটি ধ্বনি নিয়ে গঠিত: /d/, /ɒ/, এবং /ɡ/।
কিন্তু কিভাবে 15.ai জানতে পারে প্রতিটি শব্দের জন্য কোন ফোনেম ব্যবহার করতে হবে?
15.ai এর সম্পর্কে পৃষ্ঠা অনুসারে, প্রোগ্রামটি একটি অভিধান সন্ধানের টেবিল ব্যবহার করে। সারণীটি উৎস হিসেবে অক্সফোর্ড ডিকশনারিজ এপিআই, উইকশনারি এবং সিএমইউ উচ্চারণ অভিধান ব্যবহার করে। 15.ai অন্যান্য ওয়েবসাইট ব্যবহার করে যেমন Reddit এবং Urban Dictionary নতুন তৈরি করা পদ এবং বাক্যাংশের উৎস হিসেবে।
কোনো প্রদত্ত শব্দ অভিধানে বিদ্যমান না থাকলে, মডেলটি থেকে শিখেছে উচ্চারণগত নিয়মগুলি ব্যবহার করে এর উচ্চারণ নির্ণয় করা হয়। LibriTTS ডেটাসেট এই ডেটাসেটটি হল একটি কর্পাস–একটি স্থানীয় ভাষা বা উপভাষায় লিখিত বা কথ্য শব্দের একটি ডেটাসেট–যা প্রায় 585 ঘন্টা ইংরেজিতে কথা বলে।
আবেগ এম্বেড করা
বিকাশকারীর মতে, মডেলটি ইনপুট পাঠ্যের অনুভূত আবেগ অনুমান করার চেষ্টা করে। মডেলটি DeepMoji এর মাধ্যমে এই কাজটি সম্পন্ন করে অনুভূতির বিশ্লেষণ মডেল. এই বিশেষ মডেলটিকে আবেগ প্রকাশের জন্য ভাষা কীভাবে ব্যবহার করা হয় তা বোঝার লক্ষ্যে ইমোজি সহ বিলিয়ন টুইটগুলিতে প্রশিক্ষণ দেওয়া হয়েছিল৷ মডেলের ফলাফলটি টিটিএস মডেলের মধ্যে এমবেড করা হয়েছে কাঙ্খিত আবেগের দিকে আউটপুট ম্যানিপুলেট করার জন্য।
একবার ইনপুট টেক্সট থেকে ধ্বনি এবং অনুভূতি বের করা হয়ে গেলে, এখন বক্তৃতা সংশ্লেষিত করার সময়।
ভয়েস ক্লোনিং এবং সংশ্লেষণ
টেক্সট-টু-স্পিচ মডেল যেমন 15.ai মাল্টি-স্পিকার মডেল হিসেবে পরিচিত। এই মডেলগুলি বিভিন্ন কণ্ঠে কীভাবে কথা বলতে হয় তা শিখতে সক্ষম হওয়ার জন্য তৈরি করা হয়েছে। আমাদের মডেলকে সঠিকভাবে প্রশিক্ষিত করার জন্য, আমাদের অবশ্যই অনন্য ভয়েস বৈশিষ্ট্যগুলি বের করার উপায় খুঁজে বের করতে হবে এবং এটিকে এমনভাবে উপস্থাপন করতে হবে যাতে একটি কম্পিউটার বুঝতে পারে। এই প্রক্রিয়াটি স্পিকার এমবেডিং নামে পরিচিত।
বর্তমান টেক্সট-টু-স্পীচ মডেল ব্যবহার করে নিউরাল নেটওয়ার্ক প্রকৃত অডিও আউটপুট তৈরি করতে। নিউরাল নেটওয়ার্ক সাধারণত দুটি প্রধান অংশ নিয়ে গঠিত: একটি এনকোডার এবং একটি ডিকোডার।
এনকোডার বিভিন্ন ইনপুট ভেক্টরের উপর ভিত্তি করে একটি একক সারাংশ ভেক্টর তৈরি করার চেষ্টা করে। আউটপুট কী হওয়া উচিত তার একটি উপস্থাপনা তৈরি করতে ধ্বনি, আবেগপূর্ণ দিক এবং ভয়েস বৈশিষ্ট্যগুলি সম্পর্কে তথ্য এনকোডারে স্থাপন করা হয়। ডিকোডার তারপর এই উপস্থাপনাটিকে অডিওতে রূপান্তর করে এবং একটি আত্মবিশ্বাসের স্কোর আউটপুট করে।
15.ai ওয়েব অ্যাপ্লিকেশন তারপর সেরা আত্মবিশ্বাসের স্কোর সহ শীর্ষ তিনটি ফলাফল প্রদান করে।
সমস্যা
AI-উত্পাদিত সামগ্রীর উত্থানের সাথে যেমন deepfakes, প্রকৃত মানুষের অনুকরণ করতে পারে এমন উন্নত AI তৈরি করা একটি গুরুতর নৈতিক সমস্যা হতে পারে।
বর্তমানে, 15.ai ওয়েব অ্যাপ্লিকেশন থেকে আপনি যে ভয়েসগুলি বেছে নিতে পারেন সেগুলি সবই কাল্পনিক চরিত্র৷ যাইহোক, এটি অ্যাপটিকে অনলাইনে কিছু বিতর্ক সৃষ্টি করা থেকে থামায়নি।
কয়েকজন ভয়েস অভিনেতা ভয়েস ক্লোনিং প্রযুক্তির ব্যবহারে পিছিয়ে পড়েছেন। তাদের উদ্বেগের মধ্যে রয়েছে ছদ্মবেশীকরণ, স্পষ্ট বিষয়বস্তুতে তাদের ভয়েসের ব্যবহার এবং প্রযুক্তিটি ভয়েস অভিনেতার ভূমিকাকে অপ্রচলিত করে দেওয়ার সম্ভাবনা।
2022 সালের শুরুতে আরেকটি বিতর্ক দেখা দেয় যখন ভয়েসভার্স এনএফটি নামক একটি কোম্পানি তাদের বিপণন প্রচারের জন্য সামগ্রী তৈরি করতে 15.ai ব্যবহার করছে বলে আবিষ্কৃত হয়েছিল।
উপসংহার
টেক্সট-টু-স্পিচ এমনিতেই দৈনন্দিন জীবনে বেশ প্রচলিত। ভয়েস সহকারী, জিপিএস নেভিগেটর। এবং স্বয়ংক্রিয় ফোন কলগুলি ইতিমধ্যে সাধারণ জায়গায় পরিণত হয়েছে। যাইহোক, এই অ্যাপ্লিকেশানগুলি স্বতন্ত্রভাবে যথেষ্ট অ-মানবিক যে আমরা বলতে পারি যে সেগুলি মেশিনে তৈরি বক্তৃতা।
প্রাকৃতিক-শব্দ এবং আবেগপূর্ণ TTS প্রযুক্তি নতুন অ্যাপ্লিকেশনের জন্য দরজা খুলে দিতে পারে। যাইহোক, ভয়েস ক্লোনিংয়ের নীতিশাস্ত্র এখনও সর্বোত্তমভাবে প্রশ্নবিদ্ধ। এটি অবশ্যই বোধগম্য হয় কেন এই গবেষকদের অনেকেই জনসাধারণের সাথে অ্যালগরিদম ভাগ করতে অনিচ্ছুক।
নির্দেশিকা সমন্ধে মতামত দিন