نقش هوش مصنوعی در حفظ و بقای زبان های گفتاری

به عقیده پژوهشگران، گویش‌های محلی و زبان های گفتاری (Oral Languages) که فرم نوشتاری استانداردی ندارند در آینده به فراموشی سپرده می‌شوند. گویش‌های محلی مانند لری، ترکی آذری، بلوچی، کردی و 3000 گویش دیگر در دنیا جزو این دسته از زبان‌ها به حساب می‌آیند. برای رفع مشکل ذکر شده، متخصصان هوش مصنوعی شرکت متا به وسیله تکنولوژی AI درحال ساخت ابزاری برای ترجمه زبان های فاقد فرم نوشتاری (Unwritten Languages) هستند. اما چرا پژوهشگران و مسئولین شرکت متا بر روی ترجمه چنین زبان‌هایی اصرار دارند؟

چرا نباید زبان های گفتاری از بین بروند؟

در صورت غیرقابل استفاده شدن زبان های گفتاری یا گویش‌های محلی جهت برقراری ارتباط با سه مشکل زیر مواجه می‌شویم:

فرزندان با کنار گذاشتن زبان های گفتاری به سمت برقراری ارتباط با زبان‌های نوشتاری و رسمی روی می‌آورند. به این شکل زبان های فاقد فرم نوشتاری که جزوی از میراث گذشتگان هستند از بین می‌روند. اعضای هر نسل نیز به تدریج زبان نیاکانشان را فراموش می‌کنند.
افرادی که قادر به ارتباط با زبان‌های رسمی و نوشتاری و یادگیری آن‌ها نیستند، درصورت خروج از منطقه محلی خود نمی‌توانند با دیگران به خوبی ارتباط برقرار کنند.
در شبکه‌های اجتماعی و انجمن‌های آنلاین ارتباط کلامی با زبان‌های رسمی صورت می‌گیرد. افرادی که فقط به گویش‌های محلی مسلط هستند امکان برقراری ارتباط با دیگران در فضای آنلاین و نوشتن کلمات را به زبان خود ندارند.

2 مشکل بزرگ برای ترجمه زبان های گفتاری

برای ترجمه زبان های گفتاری به زبان‌های رسمی دو مشکل وجود دارد. نخست آنکه فقط اعضای اقوام و قبایل به زبان های فاقد فرم نوشتاری مسلط هستند. بنابراین برای ترجمه زبان های فاقد فرم نوشتاری باید از سخنورانی در این گروه‌ها استفاده کرد که به زبان‌های نوشتاری و رسمی نیز مسلط باشند. پیدا کردن این افراد در هر قوم و قبیله‌ای سخت است.
مشکل دوم عدم امکان ترجمه زبان های گفتاری و گویش‌های محلی با سیستم‌های ترجمه ماشینی متداول مانند مترجم گوگل است. چنین سیستم‌هایی فقط قادر به ترجمه زبان‌های رسمی هستند. البته درحال‌حاضر متخصصان با استفاده از فناوری هوش مصنوعی تواستند که ترجمه ماشینی زبان های فاقد فرم نوشتاری را ممکن کنند. اما چگونه؟

تبدیل گفتار به واحدهای زبانی؛ راه حل شرکت متا برای حل مسئله

متخصصان شرکت متا توانستند با استفاده طرح «مترجم گفتاری جهانی متا» زبان نانوشته «هاکین تایوانی» را به انگلیسی ترجمه کنند. در طرح «مترجم گفتاری جهانی متا» از روش تبدیل گفتار به واحدهای زبانی استفاده می‌شود. یعنی کارشناسان با استفاده از کوچک‌ترین واحد زبانی مشترک در زبان مبدأ که در زبان مقصد نیز وجود دارد این روش را ایجاد کردند.
حالا اگر متا با استفاده از طرح ارائه شده، ابزاری را جهت ترجمه زبان های فاقد فرم نوشتاری بسازد، حدودا 13.5 میلیون نفر در هاکین تایوان، 1.5 میلیون نفر در سنگاپور، 1 میلیون نفر در فیلیپین، 2 میلیون نفر در مالزی و 128 میلیون نفر در چین می‌توانند با زبان «هاکین تایوانی» با دیگران ارتباط برقرار کنند. البته متا قصد دارد تا به زودی بر روی زبان های فاقد فرم نوشتاری دیگر جهت کمک به میلیون‌ها نفر در سراسر دنیا برای کمک به برقراری ارتباط با افرادی دیگر کار کند و فقط متکی به زبان «هاکین تایوانی» نیست.

استفاده از زبان واسط برای ترجمه زبان های گفتاری

آموزش سیستم‌های ترجمه زبان های گفتاری مبتنی بر هوش مصنوعی نیازمند حجم زیادی از متون زبان مبدأ و مقصد است؛ بنابراین آموزش هوش مصنوعی برای ترجمه چنین زبان‌هایی غیرممکن به نظر می‌رسد؛ اما پژوهشگران متا قصد دارند برای رفع این مشکل، از متن زبان‌های مشابه با زبان های فاقد فرم نوشتاری استفاده کنند.
مثلاً در مورد زبان «هاکین»، از متن زبان «ماندارین چینی» که به «هاکین» شباهت دارد، استفاده شده است. در ضمن آن‌ها برای کسب اطمینان در مورد صحیح بودن ترجمه «هاکین» به زبان‌های دارای فرم نوشتاری، همکاری نزدیکی با سخنوران این زبان داشتند. یکی از اعضای تیم پژوهشی این پروژه به نام «جوآن پینو» در مورد فرایند این سیستم، گفته است:
“اعضای تیم، ابتدا گفتار «هاکین» را به متن «ماندارین چینی» ترجمه و سپس این متن را هم با کمک مفسران انسانی و هم به‌صورت خودکار به زبان انگلیسی ترجمه کردند. آن‌ها در مراحل بعد متون معادل یکدیگر در زبان‌های مبدأ و مقصد را به داده‌های مورداستفاده برای آموزش هوش مصنوعی اضافه کردند؛ البته در حال حاضر کارایی مدل مترجم جهانی متا محدود است و در هر بار ترجمه تنها می‌تواند یک جمله را ترجمه کند؛ همچنین پژوهشگران قصد دارند در آینده ترجمه هم‌زمان بسیاری از زبان های گفتاری را در این مدل امکان‌پذیر کنند.”

متن‌باز بودن مدل مترجم گفتاری متا برای برنامه‌نویس‌ها

پژوهشگران متا تصمیم گرفته‌اند مدل مترجم گفتاری‌شان را همراه با کدهای ایجادشده و داده‌های معیار (داده‌های موردنظر برای تکامل سیستم هوش مصنوعی)، به‌صورت رایگان در اختیار علاقه‌مندان به صورت متن‌باز قرار دهند تا برنامه‌نویسان هوش مصنوعی بتوانند روی مدل‌های موردنظر خود کار کنند.

ایجاد کیت پردازش زبان طبیعی LAZER توسط متا

متا با کمک کیت ابزار مبتکرانه پردازش زبان طبیعی خود به نام لیزر (LAZER) مجموعه‌ای گسترده از ترجمه گفتار به گفتار را ایجاد کرده است. سایر پژوهشگران حوزه هوش مصنوعی می‌توانند با استفاده از این ابزار سیستم‌های ترجمه گفتار به گفتار خود را بر اساس سیستم ترجمه گفتار به گفتار متا ایجاد کنند.
ایجاد سیستم‌های ترجمه گفتار به گفتاری که نیازی به تفسیر انسانی ندارند را می‌توان از طریق روش یادگیری بدون نظارت (unsupervised learning) انجام داد. چنین اتفاقی می‌تواند به گسترش توسعه مدل‌های قابل‌استفاده برای ترجمه زبان‌های فاقد داده‌های آموزشی برای آموزش سیستم‌های هوش مصنوعی، کمک کند.