تکنولوژی
ارسال شده : 11 آبان , 1398

ویژگی منحصر به فرد اندروید 10

اندروید 10 دارای توانایی زیر نویس دادن به صورت خودکار و بدون نیاز به اینترنت دارد

وجود زیرنویس در فایل صوتی برای ناشنوایان و کم شنوایانالزامی است، اما برای عموم مردم نیز وجود آن عاری از بهره نیست. تماشای ویدیوهای بی‌صدا در محیط های عمومی مانند قطار، جلسات و یا هنگامی که کودکان خوابیده‌اند و مواردی از این قبیل معمولا امر رایجی است و همچنین مطالعات نشان‌ می‌دهند که وجود زیرنویس، مدت زمانی‌ را که کاربر صرف تماشای فیلم می‌کند، حدود ۴۰ درصد افزایش می‌دهد. در حال حاضر قابلیت پشتیبانی از زیرنویس به‌صورت یکپارچه در میانِ برنامه‌ها و حتی در درون آن‌ها وجود ندارد. به همین دلیل در حجم قابل توجهی از محتوای صوتی از جمله وبلاگ‌های پخش ویدیوهای زنده، پادکست‌ها، ویدیوهای محلی، پیام‌های صوتی و رسانه‌های اجتماعی، امکان دسترسی به زیرنویس وجود ندارد.

Live Caption، یکی از نوین‌ترین و جالب‌ترین ویژگی‌های سیستم عامل اندروید است که به کمک شاخه‌ای وسیع و پر کاربرد از هوش مصنوعی جهت تولید زیرنویس برای انواع ویدیوهای تحت وب و محلی در گوشی‌های هوشمند مورد استفاده قرار می‌گیرد. تولید زیرنویس، به‌صورت آنی و با استفاده از اطلاعات محلیِ خود گوشی، بدون نیاز به منابع آنلاین صورت می‌گیرد که نتیجه‌ی آن حفظ بیشتر حریم خصوصی و کاهش زمان ایجاد زیرنویس خواهد بود. گوگل در وبلاگ رسمیِ این شرکت پستی را منتشر کرده‌ که جزئیات دقیقی از نحوه‌ی عملکرد این ویژگیِ عالی را نشان می‌دهد. عملکرد یاد شده با استفاده از مدل‌‌‌های ژرف یادگیری در سه مقطع مختلف در این فرایند ایجاد می‌شود.

در وهله‌ی نخست مدلی به‌صورت RNN-T برای تشخیص گفتار وجود دارد. RNN، به‌معنیِ شبکه‌ی عصبی بازگشتی یا مکرر، کلاسی ازشبکه عصبی مصنوعی است که در آن اتصالات بین، گره‌هایی از یک گراف جهت‌دار در امتداد یک دنباله‌ی زمانی هستند و این امر سبب می‌شود تا الگوریتم بتواند موقتا رفتار پویایی را به نمایش بگذارد. برخلاف شبکه‌های عصبی رو به جلو، شبکه‌های عصبی مکرر می‌توانند از وضعیت درونی خود برای پردازش دنباله‌ی ورودی‌ها استفاده کنند که این ویژگی آن‌ها را برای مواردی نظیر تشخیص صوت، یا تشخیص دست‌نوشته‌های غیربخش‌بندی شده‌ی متصل مناسب می‌کند.

برای انجام پیش‌بینی‌های نگارشی نیز گوگل از شبکه‌ی عصبی مکرر مبتنی بر متن استفاده می‌کند. سومین استفاده از مدل‌های یادگیری ماشین شامل یک CNN، یا همان شبکه‌ی عصبیِ پیچشی برای تحلیل رویدادهای صوتی نظیر آواز پرندگان، کف زدن افراد و موسیقی است. شبکه‌های عصبی پیچشی یا همگشتی رده‌ای از شبکه‌های عصبی مصنوعی ژرف هستند که معمولاً برای انجام تحلیل‌های تصویری یا گفتاری در یادگیری ماشین استفاده می‌شوند. گوگل چنین عنوان کرد که این مدل از یادگیریِ ماشین، برگرفته شده از تلاش‌ آن‌ها در جهت ارتقاء نرم‌افزار accessibility Live Transcribe است. نرم‌افزار یادشده در سیستم‌عامل اندروید به کاربران اجازه‌ی تبدیل گفتار به متن را می‌دهد. در نهایت Live Caption، در جهت ایجاد یک زیرنویس واحد، سیگنال دریافتی از سه مدل یادگیریِ ماشین شامل: RNN-T ،RNN و CNN را با یکدیگر ادغام می‌کند و زیرنویس به‌صورت بی‌وقفه و درنتیجه‌ی جریان صدا نمایش داده می‌شود.

هم‌اکنون Live Caption، در گوشی هوشمند گوگل پیکسل 4 در دسترس قرار دارد و گوگل اعلام کرده است که این ویژگی به‌زودی برای پیکسل های سری 3 و سایر دستگاه‌ها نیز منتشر خواهد‌ شد. این شرکت در تلاش است تا Live Caption را در سایر زبان‌ها نیز کاربردی کند و ویژگی مذکور را برای پشتیبانی از محتوای دارای قابلیت multi-speaker ارتقا دهد.