آیندۀ پردازش زبان فارسی در بسترهای دیجیتال روشن است

نشست «زبان و رایانه»، با هدف بررسی دستاوردهای نوین در حوزۀ فناوری زبان، به‌ویژه درزمینۀ گفتاری‌نویسی و پردازش زبان طبیعی، در تالار دکتر گل‌گلاب فرهنگستان زبان و ادب فارسی برگزار شد.

به گزارش روابط‌عمومی فرهنگستان زبان و ادب فارسی، نشست «زبان و رایانه» با حضور پژوهشگران، متخصصان زبان‌شناسی و فنّاوری اطلاعات برگزار شد. دراین نشست مریم مسگر خویی در موضوع «گزارش همایش زبان و خط فارسی معیار براساس دستور خط مصوب فرهنگستان» و مسعود قیومی در موضوع «تبدیل خودکار گفتاری‌نویسی به فارسی معیار» سخنرانی کردند.

مسگر خویی در سخنرانی خود به پروژۀ گفتاری‌نویسی اشاره کرد که در سال ۱۴۰۰ به پیشنهاد رئیس فرهنگستان و با حمایت معاونت علمی و پژوهشی آغاز شد. وی گفت: این پروژه با هدف قاعده‌مندسازی و یکسان‌سازی نگارش گفتاری در بسترهای دیجیتال و غیردیجیتال طراحی شده است. این طرح با رویکردی توصیفی و مبتنی بر پیکرۀ زبانی به تدوین دستور خط و فرهنگ املایی گفتاری‌نویسی می‌پردازد تا ضمن حفظ معیارهای زبانی، کاربرد فناوری در پردازش زبان فارسی تسهیل شود.

وی افزود: طرح نخست، تدوین دستور خط گفتاری‌نویسی است که بر استانداردسازی نگارش غیررسمی تمرکز دارد و طرح دوم، توسعۀ سامانه‌ای خودکار و تحت وب برای تبدیل گفتاری‌نویسی به نوشتار معیار، براساس مصوبات فرهنگستان است. این سامانه کاربردهایی در حوزه‌های آموزش، تبلیغات و فناوری اطلاعات خواهد داشت و گامی مؤثر در جهت استانداردسازی نگارش غیررسمی محسوب می‌شود.

مسگر خویی گفت: انواع گفتاری‌نویسی شامل اختصارنویسی مانند «چَن» به‌جای «چند»، تکرار آوا مانند «خیییلی»، حذف نویسه‌ها مانند «خاب» به‌جای «خواب» و تغییرات گفتاری مانند «مچکرم» به‌جای «متشکرم» است. این تحلیل الگوهای نگارش غیررسمی را شناسایی و به درک بهتر این پدیده کمک کرد.

وی افزود: عدم آگاهی از نگارش معیار، به‌دلیل تنوع سطوح اجتماعی و تحصیلی، دستکاری عمدی برای انتقال پیام خاص، محدودیت‌های نرم‌افزاری مانند دشواری دسترسی به نویسه‌های فارسی در صفحه‌کلیدها، تلاش برای کاهش زمان نگارش و تأثیر حالات روانی کاربران ازجملۀ این دلایل هستند. این عوامل پیچیدگی‌های نگارش غیررسمی در فضای دیجیتال را برجسته می‌کنند.

مسگر خویی اظهار کرد: این مراحل شامل درج صورت معیار واژه‌ها، آوانویسی و دسته‌بندی نویسی‌ها به سه نوع نگارشی، وابسته به تلفظ و وابسته به بافت بود که هفت تا هشت ماه طول کشید. این فرایند دقت و جامعیت تحلیل را تضمین کرد و داده‌ها را برای بررسی نهایی آماده ساخت.

وی ضمن اشاره به رونمایی پیش‌نویس «دستور خط و فرهنگ املایی گفتاری‌نویسی فارسی غیررسمی» در وبگاه فرهنگستان گفت: این سند برای دریافت نظرات متخصصان به دانشگاه‌ها ارسال شده و همچنان در دسترس عموم است. پژوهشگران علوم رایانه، پردازش زبان طبیعی و ناشران از مخاطبان اصلی این دستور خط هستند.

مسگر خویی با اشاره به استقبال از همایش «زبان و خط فارسی گفتاری» در روزهای ۲۹ و ۳۰ بهمن ۱۴۰۳ گفت: این رویداد با ۲۲ مقاله، محورهایی چون گفتاری‌نویسی در ترجمه، ویرایش، ادبیات، رسانه‌ها، تبلیغات و آموزش را پوشش داد. این همایش برای نخستین بار به بررسی آکادمیک گفتاری‌نویسی پرداخت و چالش‌های آموزشی مرتبط را برجسته کرد.

وی افزود: دانش‌آموزان به‌دلیل دسترسی زودهنگام به تلفن‌های همراه، پیش‌از یادگیری نوشتار معیار با گفتاری‌نویسی آشنا می‌شوند. وی افزود: این موضوع چالش‌هایی برای آموزش نویسه‌های فارسی ایجاد کرده و ضرورت توسعۀ ابزارهای آموزشی را نشان می‌دهد.

مسگر خویی در پایان خاطرنشان کرد: بازبینی پیش‌نویس دستور خط براساس نظرات دریافت‌شده و مقالات همایش در حال انجام است و طرح مبدل خودکار گفتاری‌نویسی به نوشتار معیار نیز در حال پیشرفت است و انتظار می‌رود نسخۀ نهایی دستور خط در ماه‌های آینده منتشر شود.

در ادامه مسعود قیومی به ایراد سخن پرداخت و گفت: این همایش برای اولین بار به موضوع گفتاری‌نویسی در سطح دانشگاهی پرداخت و چالش‌هایی مانند تأثیر گفتاری‌نویسی بر آموزش نویسه‌های فارسی در مدارس ابتدایی را بررسی کرد.

وی ضمن ارائۀ مثال‌هایی بیان کرد: مشاهده می‌شود که در ارتباطات دیجیتال، افراد به‌جای گفت‌وگو یا ردوبدل کردن یادداشت، ازطریق پیام‌رسان‌ها با یکدیگر ارتباط برقرار می‌کنند. این پیام‌ها با سرعتی بالا در سطح جهانی جابه‌جا می‌شوند. محدودیت‌های صفحه‌کلیدهای کوچک در دستگاه‌های همراه ما را به سمت پدیده‌ای سوق داده است که به آن «شکسته‌نویسی» یا «گفتاری‌نویسی» می‌گوییم. در زبان فارسی نمونه‌هایی مانند «می‌خوام» به‌جای «می‌خواهم»، «دیوونه» به‌جای «دیوانه»، یا «عاشقت» به‌جای «عاشق تو» از این نوع نوشتار هستند که از زبان معیار فاصله دارند.

قیومی گفت: هوش مصنوعی فرایندی است که ذهن انسان را شبیه‌سازی می‌کند و ازطریق الگوریتم‌ها و شبکه‌های عصبی، توانایی‌هایی مانند تشخیص، یادگیری، تصمیم‌گیری و تولید محتوا را فراهم می‌آورد. از حدود سال ۲۰۱۵، با پیشرفت‌های چشمگیر در پردازش زبان طبیعی، مدل‌های مولد مبتنی بر شبکه‌های عصبی توسعه یافتند. این مدل‌ها با استفاده از لایه‌های ورودی، مخفی و خروجی، عملکرد مغز انسان را شبیه‌سازی می‌کنند و از داده‌های ورودی برای تولید خروجی‌های معنادار بهره می‌برند.

او ادامه داد: در پژوهش انجام‌شده، دو نوع شبکۀ عصبی مورد استفاده قرار گرفت: شبکه‌های مکعبی و شبکه‌های ترنسفورمر. شبکه‌های ترنسفورمر با استفاده از مکانیزم «توجه» (Attention)، توانایی تمرکز بر بخش‌های معنادار متن را دارند و کمترین نرخ خطا را در تبدیل نوشتار غیرمعیار به معیار نشان داده‌اند. داده‌های مورد استفاده شامل ۲۷۰۰ جفت‌جمله و حدود ۵۳۰ هزار کلمه بود که به‌صورت تصادفی نمونه‌گیری شد. نتایج نشان داد که مدل ترنسفورمر در سطح واژه، با استفاده از حافظۀ کوتاه‌مدت و بلندمدت، بهترین عملکرد را داشته است. برای مثال، «می‌خوام برم نونوایی نون بگیرم» به «می‌خواهم به نانوایی بروم و نان بگیرم» و «سلام عزیزم» به‌درستی حفظ شده است. بااین‌حال، در مواردی با ابهام یا پیچیدگی نگارشی، مانند «درس خوندن چرا تموم نمی‌شه»، تبدیل به‌درستی انجام نشده است.

قیومی در پایان نتیجه گرفت: اگرچه مدل‌های هوش مصنوعی در بسیاری از موارد موفق عمل کرده‌اند، اما تنوع و پیچیدگی‌های زبان غیرمعیار همچنان دستیابی به دقت صددرصدی را چالش‌برانگیز می‌کند. این پیشرفت‌ها گامی مهم در جهت پردازش بهتر زبان فارسی در بسترهای دیجیتال به شمار می‌روند و نوید آینده‌ای روشن را برای بهبود ابزارهای پردازش زبان می‌دهند.