هوش مصنوعی گفتاری متن باز متا، قادر به شناسایی بیش از ۴ هزار زبان متخلف است
مدل هوش مصنوعی جدید متا، مثل بسیاری از پروژههای مشابه امروزی، نسخهی تغییریافتهای از ChatGPT نیست. پروژهی گفتار چندزبانه (MMS) غول رسانههای اجتماعی میتواند بیش از چهار هزار زبان را تشخیص و عملیات تبدیل متن به گفتار را به بیش از ۱۱۰۰ زبان ارائه دهد.
متا پروژهی MMS را مثل بسیاری از مدلهای هوش مصنوعی قبلی خود بهطور منبعباز ارائه میدهد تا به حفظ تنوع زبانی کمک و محققان را به استفاده از آن تشویق کند. این شرکت میگوید: «امروز ما مدلها و کدهای خود را بهطور عمومی به اشتراک میگذاریم تا دیگران در جامعهی تحقیقاتی بتوانند از آنها براساس نیازشان استفاده کنند. امیدواریم با این اقدام، به حفظ تنوع زبانی باورنکردنی جهان کمک کوچکی کرده باشیم.»
مدلهای تبدیل متن به گفتار، معمولاً به آموزش با هزاران ساعت صدا بههمراه برچسبهای رونویسی نیاز دارند. برچسبها برای یادگیری ماشینی بسیار اهمیت دارند و به الگوریتمها اجازه میدهند دادهها را بهدرستی دستهبندی و درک کنند. البته چنین دادههایی برای زبانهایی که بهطور گسترده در کشورهای صنعتی مورداستفاده قرار نمیگیرند، بهسادگی دردسترس نیست.
متا از رویکردی غیرمتعارف برای جمعآوری دادههای صوتی استفاده کرد؛ بهرهگرفتن از صداهای ضبطشده از متون مذهبی. این شرکت گفت: «ما از تنوع متون مذهبی که به زبانهای مختلف ترجمه شدهاند، بهطور گسترده برای ارائهی ترجمهی آن زبانها، بهره گرفتهایم. این ترجمهها نسخههای صوتی هم دارند و افراد آنها را به زبانهای مختلف مطالعه میکنند.» محققان متا با استفاده از صداهای ضبطشده از متون مذهبی، تعداد زبانهای مدل هوش مصنوعی خود را به بیش از چهار هزار عدد افزایش دادند.
شاید فکر کنید استفاده از متنهای مذهبی باعث جهتگیری مدل هوش مصنوعی گفتاری متا شود اما براساس اعلام این شرکت، چنین اتفاقی رخ نخواهد داد. غول رسانههای اجتماعی جهان میگوید: «درحالیکه محتوای صداهای ضبطشده براساس متنهای مذهبی هستند، این مدل برای تولید زبان، تعصبی روی متنها ندارد زیرا ما از روش طبقهبندی زمانی پیوندگرا (CTC) استفاده میکنیم.»
اگرچه بیشتر متنهای مذهبی که متا از آنها در مدل هوش مصنوعی جدیدش بهره گرفته، با صدای مردان ضبط شدهاند، اما عملکرد این فناوری با صدای زنان دقیقاً شبیه نمونهی صدای مردان است و از این نظر تفاوتی ندارد.
به نوشتهی انگجت، متا پس از آموزش مدل هوش مصنوعی گفتاری خود برای استفاده از دادههای بیشتر، از wav2vec 2.0 بهره گرفت؛ مدل یادگیری گفتاری خودنظارتی این شرکت که میتواند روی دادههای بدون برچسب، آموزش ببیند. ترکیب منابع دادههای نامتعارف و مدل گفتاری خودنظارتی، نتایج چشمگیری به دنبال داشت. مدلهای گفتاری چندزبانه در مقایسه با مدلهای موجود، عملکرد بسیار خوبی دارند و تا ۱۰ برابر زبانهای بیشتری را پوشش میدهند. بهطور خاص، متا MMS را با Whisper شرکت OpenAI مقایسه کرد و عملکرد فناوری متا، فراتر از انتظار بود.
البته متا میگوید مدلهای هوش مصنوعی جدیدش کاملاً بینقص نیستند. این شرکت توضیح داد: «برای مثال این خطر وجود دارد که مدل گفتار به نوشتار ما، کلمات یا عبارتهای انتخابی را بهاشتباه تعبیر کند. با توجه به نوع خروجی، این مشکل میتواند به توهین یا ارائهی متن نادرست منجر شود. ما اعتقاد داریم همکاری سرتاسری در جامعهی هوش مصنوعی برای توسعهی مسئولانهی این فناوریها حیاتی است.»
متا امیدوار است با متنباز کردن MMS به گسترش و بهبود این فناوری کمک کند و روزی را میبیند که افراد بتوانند در سرتاسر جهان هرچیز را به زبان مادری خود یاد بگیرند و با هر فرد دیگری با زبان خود صحبت کنند.
منبع:
نظر شما :