نشست تخصصی معرفی مدلهای زبانی همراه اول برگزار شد
تاریخ انتشار
دوشنبه ۱۱ تير ۱۴۰۳ ساعت ۲۰:۵۴
آیتیمن- به گزارش اداره کل ارتباطات شرکت ارتباطات سیار ایران، گروه MCINext همراهاول در سومین روز برگزاری نمایشگاهبینالمللی الکامپ 1403، ضمن رونمایی تعدادی از مدلهای زبانی توسعه یافته خود شامل سیلک (با 1.3میلیارد پارامتر)، آهوران (با 8 میلیارد پارامتر) و آوا (با 13 میلیارد پارامتر) را با حضور آرشامینی، سرپرست تحقیق و توسعه هوشمصنوعی MCINEXT و حامد تهمورسی، مدیر ارشد فناوری MCINEXT در سالن خلیج فارس نمایشگاه بینالمللی تهران، در نشستی تخصصی کارکردها و ویژگیهای هر یک از آنها را ارائه کرد.
در این نشست، علاوه بر تاکید روی توسعه محصولات مبتنی بر هوشمصنوعی، دستاوردهای این مجموعه از جمله ربات پاسخگو همراهاول و چند مدل زبانی که برای استفاده همگانی در دسترس قرار گرفته اند نیز معرفی شدند.
مدلهای زبانی بزرگ (LLM)، سیستمهای هوشمصنوعی هستند که با تحلیل و یادگیری از حجم زیادی از داده های متنی، قادر به تولید متن، ترجمه، پاسخ به سوالات و انجام وظایف مختلف زبانی هستند و در حال حاضر نیز با حمایت مرکز تحقیق و توسعه همراه اول توسعه یافته اند.
در ادامه به صورت اجمالی هر یک از مدلهای زبانی بزرگ گروه MCINEXT همراه اول معرفی و ارائه شدند.
مدل زبانی سیلک (Sialk)
مدل زبانی سیلک که از پایه (from scratch) با مجموعه دادگان فارسی در این شرکت آموزش داده شدهاست، با وجود تعداد پارامتر نسبتا کم، قابلیت زبانی خوبی را به نمایش میگذارد که با ادامه فرآیند آموزش در آینده، از لحاظ دانش نیز بهتر خواهد شد.
مدل زبانی آهوران (Ahoran)
مدل آهوران بر پایه مدل چند زبانه Llama3 شرکت Meta و به صورت آموزش ادامه دار (continual pretraining) بر روی یک مجموعه دادگان فارسی توسعه داده شده است. با توجه به قابلیتهای زیاد مدل پایه، ادامه آموزش، باعث تقویت تولید متن به زبان فارسی شده در حالیکه قابلیتهای دیگر مدل تا حد زیادی حفظ شده است.
کاربردهای تجاری این مدلها بسیار گسترده و نظیر تولید محتوای متنی خودکار، پشتیبانی مشتریان از طریق چت باتها، تحلیل احساسات و نظرات کاربران در شبکههای اجتماعی و ایجاد ابزارهای کمکی برای نویسندگان و مترجمان است. این مدلها می توانند به شرکتها در افزایش بهرهوری، کاهش هزینهها و بهبود تجربه مشتری کمک کنند.
مدل زبانی آوا (Ava)
مدل آوا به منظور پاسخگویی از داخل یک متن داده شده (context) و بر پایه مدل aya از شرکت cohere توسعه داده شده است.
بر خلاف دو مدل قبلی که جوابگوی سوالات کلی هستند، این مدل نیازمند ارائه اطلاعات اولیه برای پاسخگویی است (RAG) و تا حد امکان از ارائه اطلاعات استفاده شده در حین آموزش پرهیز میکند؛ استفاده اصلی این مدل در رباتهای پاسخگوی خاص منظوره است.
علاوه بر آموزش این مدلها، تلاش شده است تا به کمک روشهای همترازسازی (RLHF و DPO) از تولید محتوای آسیبزا جلوگیری شود.
علاقهمندان میتوانند از طریق نشانی https://llm.mcinext.org به این مدلهای زبانی دسترسی پیدا کنند.
http://mci.ir/-KGZMKZ
در این نشست، علاوه بر تاکید روی توسعه محصولات مبتنی بر هوشمصنوعی، دستاوردهای این مجموعه از جمله ربات پاسخگو همراهاول و چند مدل زبانی که برای استفاده همگانی در دسترس قرار گرفته اند نیز معرفی شدند.
مدلهای زبانی بزرگ (LLM)، سیستمهای هوشمصنوعی هستند که با تحلیل و یادگیری از حجم زیادی از داده های متنی، قادر به تولید متن، ترجمه، پاسخ به سوالات و انجام وظایف مختلف زبانی هستند و در حال حاضر نیز با حمایت مرکز تحقیق و توسعه همراه اول توسعه یافته اند.
در ادامه به صورت اجمالی هر یک از مدلهای زبانی بزرگ گروه MCINEXT همراه اول معرفی و ارائه شدند.
مدل زبانی سیلک (Sialk)
مدل زبانی سیلک که از پایه (from scratch) با مجموعه دادگان فارسی در این شرکت آموزش داده شدهاست، با وجود تعداد پارامتر نسبتا کم، قابلیت زبانی خوبی را به نمایش میگذارد که با ادامه فرآیند آموزش در آینده، از لحاظ دانش نیز بهتر خواهد شد.
مدل زبانی آهوران (Ahoran)
مدل آهوران بر پایه مدل چند زبانه Llama3 شرکت Meta و به صورت آموزش ادامه دار (continual pretraining) بر روی یک مجموعه دادگان فارسی توسعه داده شده است. با توجه به قابلیتهای زیاد مدل پایه، ادامه آموزش، باعث تقویت تولید متن به زبان فارسی شده در حالیکه قابلیتهای دیگر مدل تا حد زیادی حفظ شده است.
کاربردهای تجاری این مدلها بسیار گسترده و نظیر تولید محتوای متنی خودکار، پشتیبانی مشتریان از طریق چت باتها، تحلیل احساسات و نظرات کاربران در شبکههای اجتماعی و ایجاد ابزارهای کمکی برای نویسندگان و مترجمان است. این مدلها می توانند به شرکتها در افزایش بهرهوری، کاهش هزینهها و بهبود تجربه مشتری کمک کنند.
مدل زبانی آوا (Ava)
مدل آوا به منظور پاسخگویی از داخل یک متن داده شده (context) و بر پایه مدل aya از شرکت cohere توسعه داده شده است.
بر خلاف دو مدل قبلی که جوابگوی سوالات کلی هستند، این مدل نیازمند ارائه اطلاعات اولیه برای پاسخگویی است (RAG) و تا حد امکان از ارائه اطلاعات استفاده شده در حین آموزش پرهیز میکند؛ استفاده اصلی این مدل در رباتهای پاسخگوی خاص منظوره است.
علاوه بر آموزش این مدلها، تلاش شده است تا به کمک روشهای همترازسازی (RLHF و DPO) از تولید محتوای آسیبزا جلوگیری شود.
علاقهمندان میتوانند از طریق نشانی https://llm.mcinext.org به این مدلهای زبانی دسترسی پیدا کنند.
http://mci.ir/-KGZMKZ
مرجع : شرکت ارتباطات سیار