نزدیک‌تر شدن صدای رایانه و ربات به صدای انسان

نزدیک‌تر شدن صدای رایانه و ربات به صدای انسان
شرکت "دیپ‌مایند" با بهره‌گیری از شبکه‌های عصبی برای ساخت گفتار، سرانجام توانسته صدای رایانه‌ها (و ربات‌ها) را انسانی‌تر (به صدای انسان نزدیک‌تر) کند.
👾چهره‌ی ربات، 🎤صدای فرشته!👼
 

چکیده: 

    شرکت "دیپ‌مایند" با بهره‌گیری از شبکه‌های عصبی برای ساخت گفتار، سرانجام توانسته صدای رایانه‌ها (و ربات‌ها) را انسانی‌تر (به صدای انسان نزدیک‌تر) کند.

 

🔹اگر صدایی که از "رایانه‌هایی که نوشته‌ها را به صدا برمی‌گردانند" شنیده‌باشید، به گمانم به گوشتان لرزان و ناخوشایند آمده است. 

 

🔹"دیپ‌مایند"، بخش یادگیری‌ماشین شرکت گوگل، با یاری گرفتن از هوش مصنوعی، یک سامانه‌ی نوین برای "ساخت" گفتار گسترش داده‌ که گمان می‌رود گفتار رایانه‌ها را بهبود بخشد.
داشتن رایانه‌ای که آوای صدا را بسازد خواسته‌ی تازه‌ای نیست. 

 

1⃣ آسان‌ترین و پیش‌پا‌افتاده‌ترین روش، بهره‌بردن از گزیده‌ی بزرگی از بریده‌های صدابرداری‌شده‌ی گفتار انسان است. در شگردی به نام "ساخت زنجیروار" این بریده‌ها برای ساخت آواهای بزرگتر، واژه‌ها، و جمله‌ها به هم پیوند می‌خورند. برای همین بسیاری از گفتارهایی که رایانه‌ها می‌سازند از ایراد‌ها، دگرگونی‌های دم‌به‌دم در زیروبمی آوا، و لرزان بودن رنج می برند.

 

2⃣در رویکردی دیگر، الگو‌های ریاضی برای بازسازی آواهای شناخته‌شده(حرف) به‌کارگرفته و سپس با چیدن آنها در کنار هم، واژه‌ها و جمله‌ها ساخته می‌شوند. اگر چه گفتار با این روش (که "روش پارامتریک" نامیده می‌شود) ایراد کمتری دارد، ولی صدا هنوز همانند ربات است.

 

🔹 آنچه در این دو روش یکسان است، سرهم‌بندی تکه‌های صدا به جای ساخت موج‌های صدای کامل از آغاز است.

 

3⃣رویکرد "دیپ‌مایند" ساخت موج‌های صدای کامل از آغاز است. در "وِیوْنِت (WaveNet)" که یک مدل برای ساخت آوای خام است، 🔸برش‌هایی از صداهای یک انسان و🔸همچنین ویژگی‌های زبانی و آوایی صداها به شبکه عصبی "کان وُلُوشِن" (Convolutional neural network) داده میشود.

 

بدین‌گونه الگو‌های هر دو این ویژگی ‌ها به شبکه شناسانده میشود. 

 

🔹در این روش، رایانه با رشته‌ای از ویژگی‌ها از صدایی تازه که از روی یک نوشته ساخته شده‌‌، روبرو می‌شود و تلاش می‌کند موج خام آن صدا را از آغاز بسازد. 

 

🔸این کار را گام به گام انجام می‌دهد، 

 

نخست یک نمونه از موج صدا می‌سازد، سپس گام‌به‌گام آن را بهبود می‌دهد -هر بار از داده‌های (اطلاعات) بار پیشین برای ساخت نمونه بعدی بهره می‌گیرد.
 
🔸🔸صدای ساخته‌شده با این روش در سنجش با روش‌های "زنجیروار" و "پارامتریک" بسیار بهتر و به صدای انسان نزدیکتر است.

 

📢 نمونه‌ صداهایی از هر سه روش را در اینجا بشنوید .👇👇

 

🔹این روش نیازمند توان پردازش بسیار زیادی است. WaveNet برای ساخت شکل موج کامل، با فرآیندهای شبکه عصبی خود ۱۶۰۰۰ نمونه از صدا را در هر ثانیه می‌سازد تا سرانجام صدایی با کیفیت برابر با "صدای انسان در تلفن و تماسهای اینترنتی" بیرون دهد!

 

🔸🔸 بنابراین و به گفته‌ی فردی آگاه در "دیپ‌نت" روشن است که گوگل به این زودی‌ها در هیچ یک از فرآورده‌های خود از این رویکرد بهره‌ نخواهد برد.

 

🔹خواندن یک نوشته تنها کمبود رایانه‌ها نیست! هنوز تفسیر گفتار و واژه‌ی نوشته شده نیز برای سامانه‌های هوش مصنوعی بسیار دشوار است.

 

 🔶دست‌کم اکنون رایانه‌ها با ساختن موج کامل صدا، آنچه را که برای "اندیشیدن هوشمندانه" نیاز است در دست داشته و روزی، با پیشرفت بیشتر این سامانه‌ها، آن را با ما در میان خواهندگذاشت.

 

۲۱ شهریور ۱۳۹۵
۹ سپتامبر ۲۰۱۶ ©MIT Technology Review |

اگر این خبر را پسندیدید "خوش خبریم" را به ۲ نفر از دوستانتان معرفی کنید : ارسال این خبر به دوستان

دیدگاه بازدیدکنندگان

تعداد کاراکتر باقیمانده: 500
نظر خود را وارد کنید