هوش مصنوعی گفتاری متن باز متا، قادر به شناسایی بیش از ۴ هزار زبان متخلف است

۰۲ خرداد ۱۴۰۲ | ۱۳:۴۲ کد : ۲۱۷۹۱ تازه های فناوری اطلاعات

تعداد بازدید:۱۳۰۴

مدل هوش مصنوعی منبع باز متا، امکان تبدیل متن به گفتار را برای بیش از ۱۱۰۰ زبان مختلف فراهم می‌کند.

هوش مصنوعی گفتاری متن باز متا، قادر به شناسایی بیش از ۴ هزار زبان متخلف است

مدل هوش مصنوعی جدید متا، مثل بسیاری از پروژه‌های مشابه امروزی، نسخه‌ی تغییریافته‌ای از ChatGPT نیست. پروژه‌ی گفتار چندزبانه (MMS) غول رسانه‌های اجتماعی می‌تواند بیش‌ از چهار هزار زبان را تشخیص و عملیات تبدیل متن به گفتار را به‌ بیش از ۱۱۰۰ زبان ارائه دهد.

متا پروژه‌ی MMS را مثل بسیاری از مدل‌های هوش مصنوعی قبلی خود به‌طور منبع‌باز ارائه می‌دهد تا به حفظ تنوع زبانی کمک و محققان را به استفاده از آن تشویق کند. این شرکت می‌گوید: «امروز ما مدل‌ها و کدهای خود را به‌طور عمومی به‌ اشتراک می‌گذاریم تا دیگران در جامعه‌ی تحقیقاتی بتوانند از آن‌ها براساس نیازشان استفاده کنند. امیدواریم با این اقدام، به حفظ‌ تنوع زبانی باورنکردنی جهان کمک کوچکی کرده باشیم.»

مدل‌های تبدیل متن به گفتار، معمولاً به آموزش با هزاران ساعت صدا به‌همراه برچسب‌های رونویسی نیاز دارند. برچسب‌ها برای یادگیری ماشینی بسیار اهمیت دارند و به الگوریتم‌ها اجازه می‌دهند داده‌ها را به‌درستی دسته‌بندی و درک کنند. البته چنین داده‌هایی برای زبان‌هایی که به‌طور گسترده در کشورهای صنعتی مورداستفاده قرار نمی‌گیرند، به‌سادگی دردسترس نیست.

متا از رویکردی غیرمتعارف برای جمع‌آوری داده‌های صوتی استفاده کرد؛ بهره‌گرفتن از صداهای ضبط‌شده از متون مذهبی. این شرکت گفت: «ما از تنوع متون مذهبی که به زبان‌های مختلف ترجمه شده‌اند، به‌طور گسترده برای ارائه‌ی ترجمه‌ی آن زبان‌ها، بهره گرفته‌ایم. این ترجمه‌ها نسخه‌‌های صوتی هم دارند و افراد آن‌ها را به زبان‌های مختلف مطالعه می‌کنند.» محققان متا با استفاده از صداهای ضبط‌شده از متون مذهبی، تعداد زبان‌های مدل هوش مصنوعی خود را به بیش‌ از چهار هزار عدد افزایش دادند.

meta

شاید فکر کنید استفاده از متن‌های مذهبی باعث جهت‌گیری مدل هوش مصنوعی گفتاری متا شود اما براساس اعلام این شرکت، چنین اتفاقی رخ نخواهد داد. غول رسانه‌های اجتماعی جهان می‌گوید: «درحالی‌که محتوای صداهای ضبط‌شده براساس متن‌های مذهبی هستند، این مدل برای تولید زبان، تعصبی روی متن‌ها ندارد زیرا ما از روش طبقه‌بندی زمانی پیوندگرا (CTC) استفاده می‌کنیم.»

اگرچه بیشتر متن‌های مذهبی که متا از آن‌ها در مدل هوش مصنوعی جدیدش بهره گرفته، با صدای مردان ضبط شده‌اند، اما عملکرد این فناوری با صدای زنان دقیقاً شبیه نمونه‌ی صدای مردان است و از این نظر تفاوتی ندارد.

به‌ نوشته‌ی انگجت، متا پس‌ از آموزش مدل هوش مصنوعی گفتاری خود برای استفاده از داده‌های بیشتر، از wav2vec 2.0 بهره گرفت؛ مدل یادگیری گفتاری خودنظارتی این شرکت که می‌تواند روی داده‌های بدون برچسب، آموزش ببیند. ترکیب منابع داده‌های نامتعارف و مدل گفتاری خودنظارتی، نتایج چشم‌گیری به‌ دنبال داشت. مدل‌های گفتاری چندزبانه در مقایسه‌ با مدل‌های موجود، عملکرد بسیار خوبی دارند و تا ۱۰ برابر زبان‌های بیشتری را پوشش می‌دهند. به‌طور خاص، متا MMS را با Whisper شرکت OpenAI مقایسه کرد و عملکرد فناوری متا، فراتر از انتظار بود.

البته متا می‌گوید مدل‌های هوش مصنوعی جدیدش کاملاً بی‌نقص نیستند. این شرکت توضیح داد: «برای مثال این خطر وجود دارد که مدل گفتار به نوشتار ما، کلمات یا عبارت‌های انتخابی را به‌اشتباه تعبیر کند. با توجه به نوع خروجی، این مشکل می‌تواند به توهین یا ارائه‌ی متن نادرست منجر شود. ما اعتقاد داریم همکاری سرتاسری در جامعه‌ی هوش مصنوعی برای توسعه‌ی مسئولانه‌ی این فناوری‌ها حیاتی است.»

متا امیدوار است با متن‌باز کردن MMS به گسترش و بهبود این فناوری کمک کند و روزی را می‌بیند که افراد بتوانند در سرتاسر جهان هرچیز را به زبان مادری خود یاد بگیرند و با هر فرد دیگری با زبان خود صحبت کنند.

منبع:

زومیت

انگجت