فناوری تازهی تشخیص گفتار مایکروسافت میتواند به خوبی یا بهتر از انسانها گفتار را به نوشتار تبدیل کند.
اکنون فناوری تشخیص گفتارِ مایکروسافت بهخوبی و دقتِ تشخیصِ گفتار توسط انسانها است
💧چکیده:
فناوری تازهی تشخیص گفتار مایکروسافت میتواند به خوبی انسانها (یا حتی بهتر از) گفتار را به نوشتار تبدیل کند.
اکنون این فنآوری درصد خطای WER) ۵.۹%) از خود به جای گذاشته، که کمتر از ۶.۳% (WER) است که ماه گذشته گزارش شده بود.
"برابری با توانایی انسان" به دست آمد!
یافتههای یک بررسی که به تازگی منتشر شده از یک دستاورد تاریخی برای مایکروسافت در فناوری تشخیص گفتار خبر میدهد که میتواند گفتار انسانها را به خوبی انسان - و یا دست کم، به مانند بهترین برنویسان حرفهای (که در نوشتن گفتار بهتر از بیشتر انسانها هستند) به نوشتار تبدیل کند.
به گزارش مایکروسافت "این پایینترین نرخِ خطایی است که در فنآوری تشخیص گفتار ثبت شده است". این نرخ، برابر (و یا حتی کمتر از) خطای انسانهای برنویس حرفهای است که همان گفتار را به نوشتار تبدیل میکنند.
"ژودونگ هوانگ" سرپرست دانشمندان فن سخن در مایکروسافت میگوید: "ما به توانایی انسان در این کار دست یافتهایم، این فنآوری تازه از مدلهای زبانی عصبی استفاده میکند که با گروهبندی واژههای نزدیک به هم، امکان تعمیم کارآمدتر را فراهم میکند.
این دستاورد دههها پس از سال ۱۹۷۰ که نخستین بررسیها بر روی تشخیص الگوهای گفتاری انجام شد، بدست آمده است. با توجه به پیشرفتی که شرکت "دیپ مایند" گوگل در تشخیص تصویر و ساختنِ گفتار از موجها (و ساخت صدا مانند آنچه انسان انجام میدهد) به دست آورده است، این پیشرفت مایکروسافت، کاری به موقع برای حفط جایگاه خود در رقابت بیامان بر روی هوش مصنوعی بشمار میآید.
این دستاورد، با بهره گیری از ابزار محاسباتی شبکهای ("Computational Network Toolkit") که مایکروسافت برای "یادگیری عمیق" ("deep learning ") ایجاد کرده است، بدست آمده است.
گام بعدی: فهم گفتار
از این فنآوری در بهبود "دستیار گفتاری" ("Microsoft’s personal voice assistant ") در ویندوز مایکروسافت و "ایکس باکس وان" بهره گیری خواهد شد. هِری شام، معاون رئیس اجرایی گروه هوش مصنوعی و پژوهش مایکروسافت میگوید: "این دستاورد، دستیار دیجیتال ویندوز یعنی "کورتانا" ("cortana") را تواناتر خواهد کرد، واز کورتانا یک دستیار براستی هوشمند خواهد ساخت". همچنین نرمافزار تبدیل گفتار به متن را نیز بهتر خواهد کرد.
با این حال مایکروسافت روشن میگوید که این پیشرفت پایان راه نیست.هنوز رایانه همه واژهها را به درستی تشخیص نمیدهد، ولی این چیزی است که نه انسان و نه دیگر دستیاران صوتی دیجیتال موجود مانند "Siri" نیز نمیتوانند انجام دهند.
مدیرگروه پژوهشی گفتار و گفت و گو در مایکروسافت میگوید: با اینکه این پیشرفت چشمگیر است، ولی هنوز جا برای بهبود وجود دارد. هدف بعدی توانا کردن رایانه برای درک گفتگوی انسان است. "کارزار بعدی برای گذار از تشخیص گفتار به فهم گفتار است"
لینک منبع خبر: