«یادگیری ژرف» راهی برای حل مشکل لب خوانی

لب خوانی کاری است که نیاز به مهارت زیادی دارد. تنوع زیادی در نتایج تست ها دیده می شود ولی به طور میانگین، بیشتر افراد در حین لب خوانی، از هر ۱۰ کلمه تنها ۱ کلمه را تشخیص می دهند و با توجه به این که در دقت کارشناسان این زمینه نیز تفاوت های زیادی وجود دارد، می توان گفت که کسی در لب خوانی به درجه استادی نرسیده است! اما هم اکنون، برخی از محققان بر این باورند که با استفاده از روش هایی بر مبنای هوش مصنوعی -مانند یادگیری ژرف- می توان این مشکل را حل کرد. با در نظر داشتن این که شیوه های مختلفی از هوش مصنوعی به بهبود توانایی تشخیص گفتار نزدیک به انسان کمک بسیاری کرده اند، باید قابلیت انجام همین کار را با لب خوانی نیز داشته باشند. برای کسب اطلاعات بیشتر پیرامون این موضوع، با سکان آکادمی همراه باشید.

دقتی فراتر از انسان، ولی با داده های بسیار محدود
محققان آزمایشگاه هوش مصنوعی دانشگاه آکسفورد با استفاده از Deep Leaning یا «یادگیری ژرف»، یک برنامه ی لب خوانی ساخته اند که در این عرصه پیشرفتی چشمگیر و در عین حال محدودی به حساب می آید. این نرم افزار که LipNet نام دارد، به طرز چشمگیری توانسته است با دقت ۹۳.۴ درصد خبرگان عرصه لب خوانی را شکست دهد و این در حالی است که انسان ها امتیاز ۵۲.۳ درصدی را به دست آورده اند. با در نظر گرفتن این که این برنامه در مراحل اولیه خود به سر می برد، اما از سرعت بالایی برخوردار است به طوری فیلم های صامت را همزمان به رونوشت تبدیل می کند.

قبل از این که در کابوس فیلم های تخیلی مانند A Space Odyssey گم شویم، باید بدانیم که این پژوهش آکسفورد محدودیت هایی جدی نیز به همراه دارد. برای شروع، این سیستم در یک مجموعه داده های تحقیقاتی به نام GRID آزمایش شده است که مجموعه ای از ده ها هزار فیلم کوتاه از ۳۴ داوطلب است که جملاتی کاملا بی معنی را می خوانند. این کلیپ های ۳ ثانیه ای، دارای یک جمله ساده متشکل از: فعل امر، یک رنگ، حرف اضافه، یک حرف، یک رقم و یک قید هستند. به عنوان مثال، Place red at C zero again. حتی کلمات این جملات هم محدود هستند به طوری که فقط ۴ فعل امری و رنگ متفاوت به کار می روند. این باعث شده است که برخی از محققان این زمینه به این باور برسند که یافته های این پژوهش بیش از حد بزرگ شده اند، به خصوص پس از انتشار یک تویت که به طرزی احساسی ادعا کرد که در نتیجه این تحقیق، هیچ رمز و رازی باقی نخواهد ماند.

این به هیچ وجه درست نیست. ۲ نفر از محققان این پروژه -یانیس آسیال و براندن شیلینگفورد- در مصاحبه ای با The Verge اعلام کردند که این سرویس «با دایره لغت و گرامر محدودی کار می کنند» ولی دلیل آن به خاطر کمبود داده ی اولیه است. آسیال گفت: 

مجموعه داده کوچک است، اما نشانه خوب این است که ما می توانیم با یک مجموعه داده بسیار بزرگتر هم این کار را به خوبی انجام دهیم.

این سرویس به سیستم نظارت جمعی کمکی نمی کند! 
آسیال و شیلینگفورد هر دو شدیدا اسرار دارند که کار آن ها استفاده ای در دنیای امنیت و نظارت بر رفتار شهروندان ندارد (درباره ی موضوع نظارت، آسیال بیان کرده است با این که یکی از ناظران پروژه، همزمان با بخش هوش مصنوعی گوگل همکاری می کند، گوگل هیچ مشارکتی در ساخت LipNet نداشته است.) به این دلیل که لب خوانی در صورتی ممکن است که حرکات زبان شخص کاملا معلوم باشد. این بدان معنا است که فیلم باید از مقابل و همراه با نور کافی گرفته شود تا نتایج مورد نظر به دست آیند به طوری که آسیال اعتقاد دارد: «این کار از لحاظ فنی غیر ممکن، یا حداقل بسیار، بسیار مشکل است.» اضافه کردن Rate فریم نیز یک عامل مهم است، موردی که در تلویزیون های مدار بسته یا CCTV فراموش می شود. 

این دو محقق فکر می کنند که لب خوانی هوش مصنوعی می تواند به افراد معلول شنوایی کمک کند، به خصوص در محیط های پر سر و صدا که کامپیوترها به سختی می توانند سخن را تشخیص دهند. برای مثال، عینکی مجهز به دوربین می تواند به راحتی تصویری واضح از فرد مقابل تهیه و با لب خوانی، سخنان را به رونوشت تبدیل و به صورت صوتی به گوش هدایت کند. در همین راستا، آسیال اعتقاد دارد که «هر جایی که تشخیص گفتار و یک دوربین داشته باشید، می توانیم آن را بهبود بدهیم.» همچنین دستور های صامت به دستیار های صوتی مانند Siri یا Google Assistant نیز یکی از استفاده های این نرم افزار است به طوری که در آینده کسانی که علاقه ای به صحبت با رایانه ها را ندارند، می توانند با لب زدن، منظور خود را برسانند.

Can deep learning help solve lip reading?

0


علی فاتحی

علی فاتحی در حال حاضر دانشجوی رشته ی ادبیات انگلیسی است اما هم زمان به عنوان مترجم هم برای Press TV کار می کند. از جمله توانایی های علی می توان به توانایی ترجمه ی متن های انگلیسی به فارسی و برعکس و Rephrase کردن متون انگلیسی اشاره کرد و این چیزی است که از انجامش لذت می برد. به طور کلی، علی فاتحی به سینما، موسیقی و تکنولوژی علاقه زیادی دارد.






از طریق این فرم، می توانید بدون ثبت نام نظر دهید و یا اگر قبلا ثبت نام کرده اید، با ورود ناحیه ی کاربری می توانید علاوه بر ثبت نظر، به مدیریت نظرات خود نیز بپردازید.
(فیلد اجباری)
(فیلد اجباری)
(فیلد اجباری)
(فیلد اجباری)