نتایج یک تحقیق نشان داد

یادگیری ماشین نیازمند تغییر فرهنگی است

تاریخ انتشار

سه شنبه ۹ دی ۱۳۹۹ ساعت ۱۱:۵۴

آی‌تی‌من- نویسنده این تحقیق می‌گوید: فاصله گرفتن از اتکا به مجموعه داده‌های بزرگ و با نظم ضعیف که برای آموزش مدل‌های یادگیری ماشین استفاده می‌شوند، ضروری است. در عوض، به پیشنهاد این تحقیق، باید فرهنگی حاکم شود که حامی افراد نمایندگی شده در مجموعه‌داده‌ها و با رعایت حریم خصوصی و حق مالکیت آنها باشد. اما در محیط کنونی یادگیری ماشین، هیچ کدام از این مسائل رعایت نمی‌شود.

آماندالین پائولادا (Amandalynne Paullada) و امیلی بندر (Emily Bender) زبان‌شناسان دانشگاه واشنگتن با همکاری اینیولووا دبورا راجی (Inioluwa Deborah Raji) و ایمیلی دنتون (Emily Denton) و الکس هانا (Alex Hanna) این تحقیق را با عنوان «داده‌ها و محتوا: تحقیقی روی توسعه مجموعه‌داده‌ها و استفاده از آنها در یادگیری ماشین» انجام داده‌اند. این تحقیق نتیجه‌گیری می‌کند که مدل‌های زبانی بزرگ، ظرفیت تداوم تبعیض و سوگیری علیه گستره وسیعی از جوامع به حاشیه رانده‌ شده را دارند و مجموعه داده‌هایی که به درستی توصیف نشده باشند، بخش مهمی از این مشکل هستند.

این تحقیق همچنین خواستار مدیریت دقیق‌تر داده‌ها و استفاده از روش‌های مستندسازی شده و با تایید اینکه مجموعه داده‌هایی که به این صورت ساخته شده‌اند، بی شک به زمان، پول و تلاش بیشتری نیاز دارند، در عین حال، تشویق می‌کند که متخصصان یادگیری ماشین، پا را از الگوهای فعلی فراتر بگذارند.

اتفاقاتی که در طول یک سال گذشته رخ داده، نشان دهنده کمبودهایی است که عمدتا به افراد متعلق به جوامع حاشیه‌ای، آسیب رسانده است. در یک نمونه اخیر، پس از اینکه گوگل، تیمنیت گبرو، محقق اخلاق در هوش مصنوعی را اخراج کرد – اتفاقی که کارکنان گوگل آن را «سانسور کم سابقه تحقیقات» لقب می‌دهند- رویترز روز چهارشنبه گذشته، بر اساس اسناد فاش شده از ارتباطات داخلی گوگل و گفت‌وگو با افراد آگاه، گزارش کرد که این شرکت، بازبینی مقاله‌های تحقیقاتی با «موضوعات حساس» را آغاز کرده و حداقل در سه مورد، از نویسندگان مقاله‌ها خواسته است که در مورد فناوری‌های گوگل، مطالب منفی ننویسند. همچنین واشنگتن پست در مقاله‌ای که در مورد گبرو منتشر کرده، افشا کرده است که جف دین، مدیر هوش مصنوعی گوگل، از خواسته بوده که در پاییز امسال، درباره آثار منفی مدل‌های بزرگ زبانی تحقیق بکند.

امیلی بندر، یکی از نویسندگان این مقاله، پیش‌تر درباره GPT-3 (مدل زبانی خود همبسته‌ای که با استفاده از یادگیری عمیق، متونی شبیه انسان تولید می‌کند) گفته بود: از جامعه پردازش طبیعی زبان انتظار دارم که دانش مفید را در اولویت قرار دهند.بندر، به همراه گبرو، نویسندگان مقاله‌ای بودند که پس از اخراج گوگل منتشر شد. این مقاله، به بررسی تاثیر استفاده از مدل‌های زبانی بزرگ بر جوامع حاشیه‌ای پرداخته است. این مقاله هفته گذشته از سوی سازمان‌دهندگان کنفرانس انصاف، شفافیت و پاسخگویی (FAccT) برای انتشار پذیرفته شد.از سوی دیگر، الکس هانا (نویسنده دیگر مقاله تحقیقی مورد اشاره) به همراه همکارانش در تیم هوش مصنوعی اخلاقی گوگل، با ارسال یادداشتی خطاب به مدیران گوگل، از آنان خواست که گبرو به کار برگردانده شود. در همان روز، اعضایی از کنگره آمریکا که با موضوع سوگیری الگوریتمی آشنایی دارند، با ارسال نامه‌ای خطاب به سوندار پیچای، مدیرعامل گوگل، از او خواستار ارایه توضیح شدند.

تصمیم این شرکت برای سانسور تحقیقات هوش مصنوعی و اخراج گبرو، می‌تواند پیامد‌‌های سیاست‌گذاری نیز در پی داشته باشد. در حال حاضر، گوگل و دانشگاه‌های ام‌آی‌تی و استنفورد، جزو فعال‌ترین یا تاثیرگذارترین تولیدکنندگان محتوای تحقیقاتی در حوزه هوش مصنوعی هستند که در کنفرانس‌های مهم سالانه منتشر می‌شود. اعضای کنگره، پیشنهاد مقرراتی برای مقابله با سوگیری الگوریتمی داده‌اند؛ در عین حال متخصصان خواستار افزایش مالیات شرکت‌های بزرگ فناوری و تخصیص آن به تحقیقات مستقل هستند.

در پردازش طبیعی زبان نیز در سال‌های اخیر، شبکه‌هایی که با استفاده از مدل ترنسفورمر در معماری شبکه‌های عصبی و پیکره‌های متنی بزرگ ایجاد شده، در معیارهایی مانند Glue عملکرد بالایی داشته‌اند. مدل زبانی BERT گوگل و مشتقات آن در این زمینه پیشرو هستند و شبکه‌های عصبی دیگر مانند MT-DNN مایکروسافت، مگاترون انویدیا و GPT-3 دیپ‌مایند نیز جزو مطرح‌ترین موارد محسوب می‌شوند.

GPT-3 که در ماه مه گذشته معرفی شد، بزرگ‌ترین مدل زبانی تا کنون است. مقاله‌ای که در مورد عملکرد این مدل نگاشته شده، یکی از سه جایزه برتر مقالات امسال NeurIPS را برنده شد.

مقیاس عظیم مجموعه داده‌ها، بررسی دقیق محتوای آنها را دشوار می‌کند. این مساله موجب نمونه‌های متعددی از سوگیری الگوریتمی علیه مسلمانان، افراد دارای جنسیت‌های متفاوت، معلولان، زنان، سیاه‌پوستان و دیگر اقلیت‌ها شده است.خطرات و نواقص مجموعه داده‌های بزرگ در حوزه بینایی ماشین نیز خود را نشان داده‌ است. از جمله محققان دانشگاه استنفورد در دسامبر سال 2019 اعلام کردند که برچسب‌ها و تصاویر توهین آمیز را از مجموعه داده ImageNet حذف می‌کنند. مدل StyleGAN انویدیا نیز پس از آموزش با یک مجموعه داده بزرگ، نتایجی دارای سوگیری تولید کرد و پس از کشف تصاویر و برچسب‌های جنسیتی و نژادپرستانه، خالقان مجموعه داده Tiny Images که مشتمل بر 80 میلیون تصویر است، ضمن عذرخواهی، از مهندسان خواستند که از این محتوا استفاده نکنند.