توسعه سمعکی که لبخوانی میکند
محققان دانشگاه گلاسگو اسکاتلند در مطالعه اخیرشان از توسعه نسل جدید سمعکهایی خبر دادهاند که از هوش مصنوعی برای لب خوانی استفاده میکنند.
نتایج یک مطالعه جدید حاکی از آن است که نسل جدید سمعکها میتوانند صحبتهای افراد را حتی در زمانی که فرد مقابل از ماسک استفاده میکند، لب خوانی کنند.
یک گروه بینالمللی از مهندسان و دانشمندان محاسباتی دانشگاه گلاسگو این فناوری جدید را که برای اولین بار حسگر فرکانس رادیویی را با هوش مصنوعی همراه با فناوری سنتی سمعک برای شناسایی حرکات لب به یکدیگر مرتبط میکند، توسعه دادند.
این فناوری میتواند به مقابله با ” اثر مهمانی شبانه” کمک کند زیرا اثر مهمانی شبانه یک نقص رایج سمعکهای سنتی است که در آن برای کاربر دشوار است در میان صداهای بسیار بر روی یک صدای خاص تمرکز کند.
اثر مهمانی شبانه(Cocktail party effect) پدیدهای در روانشناسی و شنواییشناسی است و به این معنا است که فرد میتواند توجه شنوایی خود را به یک محرک خاص معطوف و دیگر محرکها را فیلتر کند، همانطور که فرد در یک مهمانی شلوغ میتواند با شخص دیگر گفتگو کند و به بقیه صداهای مزاحم توجهی نکند.
سمعکهای هوشمند جدید تقویتکنندههای صوتی معمولی را با دستگاه دوم ترکیب میکنند تا دادههای اضافی را برای عملکرد بهتر جمعآوری کنند، برخلاف مطالعات قبلی که در آن محققان از دوربینها برای لبخوانی استفاده میکردند و این امر نه تنها مشکلاتی در زمینه حریم خصوصی ایجاد میکرد بلکه در صورت استفاده افراد از ماسک عمل نمیکرد.
در مقاله جدیدی که در مجله “Nature Communications” منتشر شده است، محققان دانشگاه گلاسکو چگونگی استفاده از این فناوری حسگر پیشرفته برای لب خوانی را شرح دادند.
آموزش سمعک هوشمند برای درک گفتار
این فناوری نوین تنها با جمعآوری دادههای فرکانس رادیویی و بدون هیچگونه فیلم ویدئویی، حریم خصوصی افراد را حفظ میکند. برای توسعه این سیستم، محققان از داوطلبان زن و مرد خواستند که ابتدا در حالی که ماسک ندارند و سپس در حالی که ماسک جراحی دارند، پنج صدای مصوت(A، E، I، O و U) را تکرار کنند. همانطور که داوطلبان صداهای صدادار را تکرار میکردند، یک حسگر رادار اختصاصی و یک فرستنده وای فای با استفاده از سیگنالهای فرکانس رادیویی صورت آنها را اسکن میکردند. محققان همچنین صورت افراد را در حالی که لبهایشان ثابت مانده بود اسکن کردند.
سپس محققان از ۳۶۰۰ نمونه داده جمعآوریشده در طول اسکنها برای آموزش الگوریتمهای یادگیری ماشینی و یادگیری عمیق استفاده کردند تا به آنها آموزش دهند چگونه حرکات مشخصه لب و دهان مرتبط با هر صدای مصوت را تشخیص دهند.
از آنجایی که سیگنالهای فرکانس رادیویی میتوانند به راحتی از ماسک داوطلبان عبور کنند، الگوریتمها همچنین میتوانند نحوه شکلگیری واکههای کاربران دارای ماسک را نیز لب خوانی کنند.
در آواشناسی، واکه یا مُصَوَّت(حرف صدادار) صدایی در زبان گفتاری است که ویژگی آن به وسیله وضعیت باز مجرای صوتی شناخته میشود که در آن هیچ فشار هوایی در بالای حنجره ایجاد نمیگردد.
این سیستم ثابت کرد که قادر به خواندن صحیح لبهای داوطلبان در بیشتر مواقع است.
الگوریتمهای یادگیری همچنین دادههای وای فای را تا ۹۵ درصد برای لبهای افراد بدون ماسک و ۸۰ درصد برای لبهای افراد ماسکدار به درستی تفسیر کردند.
در همین حال، این سیستم در ۹۱ درصد از افراد بدون ماسک و ۸۳ درصد از افراد با ماسک دادههای رادار را به درستی تفسیر میکرد.
دکتر “قمر عباسی”(Qammer Abbasi) از دانشکده مهندسی جیمز وات دانشگاه گلاسکو گفت: حدود پنج درصد از جمعیت جهان(حدود ۴۳۰ میلیون نفر) به نوعی اختلال شنوایی دارند.
سمعک برای بسیاری از افراد کم شنوا فواید شگفت انگیزی به همراه داشته است.
نسل جدید از این فناوری که طیف گستردهای از دادهها را برای تقویت صدا جمعآوری میکند، میتواند گام بزرگ دیگری در بهبود کیفیت زندگی افراد کمشنوا باشد.
با این تحقیقات، ما نشان دادیم که سیگنالهای فرکانس رادیویی میتوانند برای خواندن دقیق صداهای صدادار روی لبهای افراد، حتی زمانی که دهانشان با ماسک پوشیده است، استفاده شود.