شرکت "دیپمایند" با بهرهگیری از شبکههای عصبی برای ساخت گفتار، سرانجام توانسته صدای رایانهها (و رباتها) را انسانیتر (به صدای انسان نزدیکتر) کند.
👾چهرهی ربات، 🎤صدای فرشته!👼
چکیده:
شرکت "دیپمایند" با بهرهگیری از شبکههای عصبی برای ساخت گفتار، سرانجام توانسته صدای رایانهها (و رباتها) را انسانیتر (به صدای انسان نزدیکتر) کند.
🔹اگر صدایی که از "رایانههایی که نوشتهها را به صدا برمیگردانند" شنیدهباشید، به گمانم به گوشتان لرزان و ناخوشایند آمده است.
🔹"دیپمایند"، بخش یادگیریماشین شرکت گوگل، با یاری گرفتن از هوش مصنوعی، یک سامانهی نوین برای "ساخت" گفتار گسترش داده که گمان میرود گفتار رایانهها را بهبود بخشد.
داشتن رایانهای که آوای صدا را بسازد خواستهی تازهای نیست.
1⃣ آسانترین و پیشپاافتادهترین روش، بهرهبردن از گزیدهی بزرگی از بریدههای صدابرداریشدهی گفتار انسان است. در شگردی به نام "ساخت زنجیروار" این بریدهها برای ساخت آواهای بزرگتر، واژهها، و جملهها به هم پیوند میخورند. برای همین بسیاری از گفتارهایی که رایانهها میسازند از ایرادها، دگرگونیهای دمبهدم در زیروبمی آوا، و لرزان بودن رنج می برند.
2⃣در رویکردی دیگر، الگوهای ریاضی برای بازسازی آواهای شناختهشده(حرف) بهکارگرفته و سپس با چیدن آنها در کنار هم، واژهها و جملهها ساخته میشوند. اگر چه گفتار با این روش (که "روش پارامتریک" نامیده میشود) ایراد کمتری دارد، ولی صدا هنوز همانند ربات است.
🔹 آنچه در این دو روش یکسان است، سرهمبندی تکههای صدا به جای ساخت موجهای صدای کامل از آغاز است.
3⃣رویکرد "دیپمایند" ساخت موجهای صدای کامل از آغاز است. در "وِیوْنِت (WaveNet)" که یک مدل برای ساخت آوای خام است، 🔸برشهایی از صداهای یک انسان و🔸همچنین ویژگیهای زبانی و آوایی صداها به شبکه عصبی "کان وُلُوشِن" (Convolutional neural network) داده میشود.
بدینگونه الگوهای هر دو این ویژگی ها به شبکه شناسانده میشود.
🔹در این روش، رایانه با رشتهای از ویژگیها از صدایی تازه که از روی یک نوشته ساخته شده، روبرو میشود و تلاش میکند موج خام آن صدا را از آغاز بسازد.
🔸این کار را گام به گام انجام میدهد،
نخست یک نمونه از موج صدا میسازد، سپس گامبهگام آن را بهبود میدهد -هر بار از دادههای (اطلاعات) بار پیشین برای ساخت نمونه بعدی بهره میگیرد.
🔸🔸صدای ساختهشده با این روش در سنجش با روشهای "زنجیروار" و "پارامتریک" بسیار بهتر و به صدای انسان نزدیکتر است.
📢 نمونه صداهایی از هر سه روش را در اینجا بشنوید .👇👇
🔹این روش نیازمند توان پردازش بسیار زیادی است. WaveNet برای ساخت شکل موج کامل، با فرآیندهای شبکه عصبی خود ۱۶۰۰۰ نمونه از صدا را در هر ثانیه میسازد تا سرانجام صدایی با کیفیت برابر با "صدای انسان در تلفن و تماسهای اینترنتی" بیرون دهد!
🔸🔸 بنابراین و به گفتهی فردی آگاه در "دیپنت" روشن است که گوگل به این زودیها در هیچ یک از فرآوردههای خود از این رویکرد بهره نخواهد برد.
🔹خواندن یک نوشته تنها کمبود رایانهها نیست! هنوز تفسیر گفتار و واژهی نوشته شده نیز برای سامانههای هوش مصنوعی بسیار دشوار است.
🔶دستکم اکنون رایانهها با ساختن موج کامل صدا، آنچه را که برای "اندیشیدن هوشمندانه" نیاز است در دست داشته و روزی، با پیشرفت بیشتر این سامانهها، آن را با ما در میان خواهندگذاشت.