عضو هیأت علمیپژوهشگاه ارتباطات و فناوری اطلاعات گفت: طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، ۱.۷ درصد است و این زبان دهمین زبان دنیا در فضای مجازی به شمار میآید.
آیتیمن- محمدهادی بکایی عضو هیأت علمیپژوهشگاه ارتباطات و فناوریاطلاعات و مدیر گروه سامانههای پردازش وب و رایا زبان در خصوص پروژه جویشگر بومیو وضعیت آن در پژوهشگاه ارتباطات و فناوریاطلاعات گفت: در حال حاضر پژوهشگاه ارتباطات و فناوری اطلاعات در خصوص طرح جویشگر بومینقش ایجاد زیرساختهای لازم را دارد. در پژوهشگاه برای زیرساختهای مورد نیاز جویشگر بومیو زیرساخت هر نوع کار پردازشی و تحلیلی مرتبط با جویشگر، پروژههایی در قالب طرح شبکه ملی اطلاعات تعریف شده و در حال اجرا است.
وی به مهمترین زیرساختهای مورد نیاز یک جویشگر بومیاشاره کرد و افزود: زیرساختهای مربوط به ذخیرهسازی و بازیابی اطلاعات و دادهها، زیرساختهای پردازشی جهت انجام حجم بالایی از پردازش و زیرساختهای نرمافزاری و الگوریتمیاز جمله مهمترین نیازها برایاجرای یک طرح کلان ملی از جمله جویشگر بومیاست.
بکایی در ادامه در خصوص اقدامات انجامشده در پژوهشگاه در راستایایجاد این زیرساختها اینگونه توضیح داد: به عنوان مثال در خصوص زیرساختهای داده پروژههایی در خصوص قطبهای مراکز داده کشوریداریم. برای ایجاد زیرساختهای پردازشی با همکاری دانشگاه امیرکبیر ابررایانه سیمرغ به بهرهبرداری رسید و در حال برنامهریزیبرای اجرای ابررایانههای قویتر هستیم و در لایه نرمافزاری و الگوریتمها نیز اقداماتی به خصوص در حوزه خط و زبان فارسی در وب انجام شده است.
وی در ادامه در خصوص اقدامات انجام شده در حوزه خط و زبان فارسی در وب افزود: مهمترین اقدامیکه در حوزه خط و زبان فارسی فضای وب در حال انجام است، آزمایشگاه ارزیابی و رتبهبندی خدمات و محصولات حوزه خط و زبان فارسی است که میتوان در قالب آن انتظار داشت مدلها و الگوریتمهای مورد نیاز با استفاده از خرد جمعی جامعه نخبگانی و دانشگاهی به بلوغ خود برسند.
وی افزود: یکی از مشکلاتی که در کشور داریم این است که این خدمات و محصولات با استفاده از استانداردهای مرسوم ارزیابی نشده و با هم مقایسه نشدهاند. به طور مثال نقاط قوت و ضعف محصول یک شرکت با محصول مشابه شرکت دیگر مقایسه نشده است و این عدم مقایسه باعث میشود افراد و شرکتهایی که به این خدمات نیاز دارند نمیتوانند به راحتی خدمتدهنده خود را انتخاب کنند. این مساله در زبانهای دیگر به خصوص زبان انگلیسی تا حد خوبی حل شده است و افراد و شرکتهایمختلف مدلها و الگوریتمهایی را که در حوزههای مختلف خیلی خوب عمل میکنند و نتایج خوبی دارند را میشناسند و میتوانند از آنها استفاده کنند.
بکایی در خصوص رتبه جهانی و وضعیت خط و زبان فارسی در وب افزود:زبان فارسی در وب وضعیتش خیلی بد نیست و دهمین زبان دنیاستهرچند اختلافش با زبانهای اول و برتر خیلی زیاد است. طبق آمارهایتخمین زده شده سهم زبان فارسی در وب، ۱.۷ درصد است که دهمین زبان دنیاست و از زبانهایی مانند عربی و چینی رتبه بهتری دارد. اما با توجه به تعداد افرادی که به این زبان صحبت میکنند میتواند جایگاه بهتری را به خودش اختصاص دهد که البته این بهتر شدن منوط به ایجادزیرساختهایی از جنس دادگان و الگوریتم و ایجاد این زیرساختهایکی از اهداف آزمایشگاه است.
وی با بیان اینکه این رتبه نشان دهنده این است که چه تعداد وب سایتدر هر زبانی وجود دارد افزود: سهم وب سایتهایی که به زبان فارسیهستند از کل وب سایتهایی که وجود دارد، ۱.۷ درصد است که میتوانگفت حوزه خط و زبان فارسی در وب در رتبه ۱۰ است و طبق این آمار از کشورهایی مثل ترکیه و ژاپن پایینتر هستیم اما از کشور چین و یاکشورهای عربی وضع استفاده خط و زبان فارسی در فضای وب بهتر است.
بکایی در خصوص زبان انگلیسی گفت: ما سالانه مسابقات و چالشهاییداریم که در حوزههای اولویتدار در پردازش زبان انگلیسی چالشهاییرا مطرح و جوایزی تعریف میکنند. شرکتکنندگان در چالش با هدف کسب جوایز و احتمالاً انتشار مقالات و تعریفکنندگان چالش با هدف حل یکمساله واقعی موجود، در این روال مشارکت دارند. متأسفانه در ایرانهرچند در این خصوص کارهایی در سالهای گذشته انجام شده، اما انسجام لازم را نداشته است.
بکایی همچنین گفت: پروژه آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات خط و زبان فارسی در فضای وب تحت عنوان پروژه پارسیآزما(محفلی برای حل مسائل و چالشهای حوزه پردازش خط و زبان فارسی در فضای مجازی) در حال انجام است و دوره اول مسابقات مربوط به پارسیآزما امسال برگزار میشود.
وی افزود: در دوره اول به دنبال ایجاد زیرساختهای لازم برای ادامهدار بودن پارسی آزما و آزمایشگاه هستیم. همچنین اولویت و تمرکز ما در تعریف چالشهای اولین دوره، الگوریتمهای مرتبط با پردازش متنهایموجود در شبکههای اجتماعی به خصوص متنها و پستهای توئیتر است.
عضو هیأت علمیپژوهشگاه ارتباطات و فناوری اطلاعات ادامه داد: در اولین دوره مسابقه پارسیآزما چهار چالش تعریف کردیم که هر کدام از یک جنبه پستهای توئیتر را تحلیل میکند. مثلاً در یک چالش قرار هست وجود ادعا و نوع آن در یک توییت تشخیص داده شود یا در یکچالش دیگر نوع احساس موجود در متن مشخص شود که در کل همه اینهااز یک جنبه پستهای فارسی توئیتر را تحلیل میکنند.
به گفته وی شرکت کنندگان مدلها و الگوریتمهای زبان فارسی در فضایوب را توسعه میدهند.
بکایی در ادامه بیان کرد: چالشهایی تعریف کردیم که افرادی که در اینحوزه الگوریتم دارند و توسعهدهنده هستند میتوانند در این چالشها شرکت و با هم رقابت کنند و در انتها الگوریتمیکه به بهترین نحو ممکن بتواند این مساله را حل کند معرفی شده و آزاد رسانی میشود تا در آینده کسانی که این الگوریتمها را نیاز دارند بتوانند از آنها استفاده کنند.
وی در خصوص برگزاری مسابقه پارسی آزما برای اولین دوره و اینکه مهر ماه روز نهایی مسابقه است و برنده نهایی اعلام و جوایز اهدا میشود،گفت: امسال اولین دوره مسابقه پارسیآزما است و تصمیم داریم سالانه و یا دو بار در سال بتوانیم این مسابقات را ادامه دهیم و در هر دوره مهمترین چالشها و مسائلی که مورد نیاز سازمانها و صنایع مختلف در حوزه پردازش خط و زبان فارسی است را بیان کنیم.