
نشست «زبان و رایانه»، با هدف بررسی دستاوردهای نوین در حوزۀ فناوری زبان، بهویژه درزمینۀ گفتارینویسی و پردازش زبان طبیعی، در تالار دکتر گلگلاب فرهنگستان زبان و ادب فارسی برگزار شد.
به گزارش روابطعمومی فرهنگستان زبان و ادب فارسی، نشست «زبان و رایانه» با حضور پژوهشگران، متخصصان زبانشناسی و فنّاوری اطلاعات برگزار شد. دراین نشست مریم مسگر خویی در موضوع «گزارش همایش زبان و خط فارسی معیار براساس دستور خط مصوب فرهنگستان» و مسعود قیومی در موضوع «تبدیل خودکار گفتارینویسی به فارسی معیار» سخنرانی کردند.
مسگر خویی در سخنرانی خود به پروژۀ گفتارینویسی اشاره کرد که در سال ۱۴۰۰ به پیشنهاد رئیس فرهنگستان و با حمایت معاونت علمی و پژوهشی آغاز شد. وی گفت: این پروژه با هدف قاعدهمندسازی و یکسانسازی نگارش گفتاری در بسترهای دیجیتال و غیردیجیتال طراحی شده است. این طرح با رویکردی توصیفی و مبتنی بر پیکرۀ زبانی به تدوین دستور خط و فرهنگ املایی گفتارینویسی میپردازد تا ضمن حفظ معیارهای زبانی، کاربرد فناوری در پردازش زبان فارسی تسهیل شود.
وی افزود: طرح نخست، تدوین دستور خط گفتارینویسی است که بر استانداردسازی نگارش غیررسمی تمرکز دارد و طرح دوم، توسعۀ سامانهای خودکار و تحت وب برای تبدیل گفتارینویسی به نوشتار معیار، براساس مصوبات فرهنگستان است. این سامانه کاربردهایی در حوزههای آموزش، تبلیغات و فناوری اطلاعات خواهد داشت و گامی مؤثر در جهت استانداردسازی نگارش غیررسمی محسوب میشود.
مسگر خویی گفت: انواع گفتارینویسی شامل اختصارنویسی مانند «چَن» بهجای «چند»، تکرار آوا مانند «خیییلی»، حذف نویسهها مانند «خاب» بهجای «خواب» و تغییرات گفتاری مانند «مچکرم» بهجای «متشکرم» است. این تحلیل الگوهای نگارش غیررسمی را شناسایی و به درک بهتر این پدیده کمک کرد.
وی افزود: عدم آگاهی از نگارش معیار، بهدلیل تنوع سطوح اجتماعی و تحصیلی، دستکاری عمدی برای انتقال پیام خاص، محدودیتهای نرمافزاری مانند دشواری دسترسی به نویسههای فارسی در صفحهکلیدها، تلاش برای کاهش زمان نگارش و تأثیر حالات روانی کاربران ازجملۀ این دلایل هستند. این عوامل پیچیدگیهای نگارش غیررسمی در فضای دیجیتال را برجسته میکنند.
مسگر خویی اظهار کرد: این مراحل شامل درج صورت معیار واژهها، آوانویسی و دستهبندی نویسیها به سه نوع نگارشی، وابسته به تلفظ و وابسته به بافت بود که هفت تا هشت ماه طول کشید. این فرایند دقت و جامعیت تحلیل را تضمین کرد و دادهها را برای بررسی نهایی آماده ساخت.
وی ضمن اشاره به رونمایی پیشنویس «دستور خط و فرهنگ املایی گفتارینویسی فارسی غیررسمی» در وبگاه فرهنگستان گفت: این سند برای دریافت نظرات متخصصان به دانشگاهها ارسال شده و همچنان در دسترس عموم است. پژوهشگران علوم رایانه، پردازش زبان طبیعی و ناشران از مخاطبان اصلی این دستور خط هستند.
مسگر خویی با اشاره به استقبال از همایش «زبان و خط فارسی گفتاری» در روزهای ۲۹ و ۳۰ بهمن ۱۴۰۳ گفت: این رویداد با ۲۲ مقاله، محورهایی چون گفتارینویسی در ترجمه، ویرایش، ادبیات، رسانهها، تبلیغات و آموزش را پوشش داد. این همایش برای نخستین بار به بررسی آکادمیک گفتارینویسی پرداخت و چالشهای آموزشی مرتبط را برجسته کرد.
وی افزود: دانشآموزان بهدلیل دسترسی زودهنگام به تلفنهای همراه، پیشاز یادگیری نوشتار معیار با گفتارینویسی آشنا میشوند. وی افزود: این موضوع چالشهایی برای آموزش نویسههای فارسی ایجاد کرده و ضرورت توسعۀ ابزارهای آموزشی را نشان میدهد.
مسگر خویی در پایان خاطرنشان کرد: بازبینی پیشنویس دستور خط براساس نظرات دریافتشده و مقالات همایش در حال انجام است و طرح مبدل خودکار گفتارینویسی به نوشتار معیار نیز در حال پیشرفت است و انتظار میرود نسخۀ نهایی دستور خط در ماههای آینده منتشر شود.
در ادامه مسعود قیومی به ایراد سخن پرداخت و گفت: این همایش برای اولین بار به موضوع گفتارینویسی در سطح دانشگاهی پرداخت و چالشهایی مانند تأثیر گفتارینویسی بر آموزش نویسههای فارسی در مدارس ابتدایی را بررسی کرد.
وی ضمن ارائۀ مثالهایی بیان کرد: مشاهده میشود که در ارتباطات دیجیتال، افراد بهجای گفتوگو یا ردوبدل کردن یادداشت، ازطریق پیامرسانها با یکدیگر ارتباط برقرار میکنند. این پیامها با سرعتی بالا در سطح جهانی جابهجا میشوند. محدودیتهای صفحهکلیدهای کوچک در دستگاههای همراه ما را به سمت پدیدهای سوق داده است که به آن «شکستهنویسی» یا «گفتارینویسی» میگوییم. در زبان فارسی نمونههایی مانند «میخوام» بهجای «میخواهم»، «دیوونه» بهجای «دیوانه»، یا «عاشقت» بهجای «عاشق تو» از این نوع نوشتار هستند که از زبان معیار فاصله دارند.
قیومی گفت: هوش مصنوعی فرایندی است که ذهن انسان را شبیهسازی میکند و ازطریق الگوریتمها و شبکههای عصبی، تواناییهایی مانند تشخیص، یادگیری، تصمیمگیری و تولید محتوا را فراهم میآورد. از حدود سال ۲۰۱۵، با پیشرفتهای چشمگیر در پردازش زبان طبیعی، مدلهای مولد مبتنی بر شبکههای عصبی توسعه یافتند. این مدلها با استفاده از لایههای ورودی، مخفی و خروجی، عملکرد مغز انسان را شبیهسازی میکنند و از دادههای ورودی برای تولید خروجیهای معنادار بهره میبرند.
او ادامه داد: در پژوهش انجامشده، دو نوع شبکۀ عصبی مورد استفاده قرار گرفت: شبکههای مکعبی و شبکههای ترنسفورمر. شبکههای ترنسفورمر با استفاده از مکانیزم «توجه» (Attention)، توانایی تمرکز بر بخشهای معنادار متن را دارند و کمترین نرخ خطا را در تبدیل نوشتار غیرمعیار به معیار نشان دادهاند. دادههای مورد استفاده شامل ۲۷۰۰ جفتجمله و حدود ۵۳۰ هزار کلمه بود که بهصورت تصادفی نمونهگیری شد. نتایج نشان داد که مدل ترنسفورمر در سطح واژه، با استفاده از حافظۀ کوتاهمدت و بلندمدت، بهترین عملکرد را داشته است. برای مثال، «میخوام برم نونوایی نون بگیرم» به «میخواهم به نانوایی بروم و نان بگیرم» و «سلام عزیزم» بهدرستی حفظ شده است. بااینحال، در مواردی با ابهام یا پیچیدگی نگارشی، مانند «درس خوندن چرا تموم نمیشه»، تبدیل بهدرستی انجام نشده است.
قیومی در پایان نتیجه گرفت: اگرچه مدلهای هوش مصنوعی در بسیاری از موارد موفق عمل کردهاند، اما تنوع و پیچیدگیهای زبان غیرمعیار همچنان دستیابی به دقت صددرصدی را چالشبرانگیز میکند. این پیشرفتها گامی مهم در جهت پردازش بهتر زبان فارسی در بسترهای دیجیتال به شمار میروند و نوید آیندهای روشن را برای بهبود ابزارهای پردازش زبان میدهند.