نتایج تحقیقی که در ماه جاری میلادی روی مجموعه دادهها و روشهای استفاده از آنها در جامعه یادگیری ماشین انجام شده، نشان میدهد که فعالان این فناوری، به ویژه در حوزههای بینایی ماشین و پردازش زبان، مشکل فرهنگ دادهای دارند.
آیتیمن- نویسنده این تحقیق میگوید: فاصله گرفتن از اتکا به مجموعه دادههای بزرگ و با نظم ضعیف که برای آموزش مدلهای یادگیری ماشین استفاده میشوند، ضروری است. در عوض، به پیشنهاد این تحقیق، باید فرهنگی حاکم شود که حامی افراد نمایندگی شده در مجموعهدادهها و با رعایت حریم خصوصی و حق مالکیت آنها باشد. اما در محیط کنونی یادگیری ماشین، هیچ کدام از این مسائل رعایت نمیشود.
آماندالین پائولادا (Amandalynne Paullada) و امیلی بندر (Emily Bender) زبانشناسان دانشگاه واشنگتن با همکاری اینیولووا دبورا راجی (Inioluwa Deborah Raji) و ایمیلی دنتون (Emily Denton) و الکس هانا (Alex Hanna) این تحقیق را با عنوان «دادهها و محتوا: تحقیقی روی توسعه مجموعهدادهها و استفاده از آنها در یادگیری ماشین» انجام دادهاند. این تحقیق نتیجهگیری میکند که مدلهای زبانی بزرگ، ظرفیت تداوم تبعیض و سوگیری علیه گستره وسیعی از جوامع به حاشیه رانده شده را دارند و مجموعه دادههایی که به درستی توصیف نشده باشند، بخش مهمی از این مشکل هستند.
این تحقیق همچنین خواستار مدیریت دقیقتر دادهها و استفاده از روشهای مستندسازی شده و با تایید اینکه مجموعه دادههایی که به این صورت ساخته شدهاند، بی شک به زمان، پول و تلاش بیشتری نیاز دارند، در عین حال، تشویق میکند که متخصصان یادگیری ماشین، پا را از الگوهای فعلی فراتر بگذارند.
اتفاقاتی که در طول یک سال گذشته رخ داده، نشان دهنده کمبودهایی است که عمدتا به افراد متعلق به جوامع حاشیهای، آسیب رسانده است. در یک نمونه اخیر، پس از اینکه گوگل، تیمنیت گبرو، محقق اخلاق در هوش مصنوعی را اخراج کرد – اتفاقی که کارکنان گوگل آن را «سانسور کم سابقه تحقیقات» لقب میدهند- رویترز روز چهارشنبه گذشته، بر اساس اسناد فاش شده از ارتباطات داخلی گوگل و گفتوگو با افراد آگاه، گزارش کرد که این شرکت، بازبینی مقالههای تحقیقاتی با «موضوعات حساس» را آغاز کرده و حداقل در سه مورد، از نویسندگان مقالهها خواسته است که در مورد فناوریهای گوگل، مطالب منفی ننویسند. همچنین واشنگتن پست در مقالهای که در مورد گبرو منتشر کرده، افشا کرده است که جف دین، مدیر هوش مصنوعی گوگل، از خواسته بوده که در پاییز امسال، درباره آثار منفی مدلهای بزرگ زبانی تحقیق بکند.
امیلی بندر، یکی از نویسندگان این مقاله، پیشتر درباره GPT-3 (مدل زبانی خود همبستهای که با استفاده از یادگیری عمیق، متونی شبیه انسان تولید میکند) گفته بود: از جامعه پردازش طبیعی زبان انتظار دارم که دانش مفید را در اولویت قرار دهند.بندر، به همراه گبرو، نویسندگان مقالهای بودند که پس از اخراج گوگل منتشر شد. این مقاله، به بررسی تاثیر استفاده از مدلهای زبانی بزرگ بر جوامع حاشیهای پرداخته است. این مقاله هفته گذشته از سوی سازماندهندگان کنفرانس انصاف، شفافیت و پاسخگویی (FAccT) برای انتشار پذیرفته شد.از سوی دیگر، الکس هانا (نویسنده دیگر مقاله تحقیقی مورد اشاره) به همراه همکارانش در تیم هوش مصنوعی اخلاقی گوگل، با ارسال یادداشتی خطاب به مدیران گوگل، از آنان خواست که گبرو به کار برگردانده شود. در همان روز، اعضایی از کنگره آمریکا که با موضوع سوگیری الگوریتمی آشنایی دارند، با ارسال نامهای خطاب به سوندار پیچای، مدیرعامل گوگل، از او خواستار ارایه توضیح شدند.
تصمیم این شرکت برای سانسور تحقیقات هوش مصنوعی و اخراج گبرو، میتواند پیامدهای سیاستگذاری نیز در پی داشته باشد. در حال حاضر، گوگل و دانشگاههای امآیتی و استنفورد، جزو فعالترین یا تاثیرگذارترین تولیدکنندگان محتوای تحقیقاتی در حوزه هوش مصنوعی هستند که در کنفرانسهای مهم سالانه منتشر میشود. اعضای کنگره، پیشنهاد مقرراتی برای مقابله با سوگیری الگوریتمی دادهاند؛ در عین حال متخصصان خواستار افزایش مالیات شرکتهای بزرگ فناوری و تخصیص آن به تحقیقات مستقل هستند.
در پردازش طبیعی زبان نیز در سالهای اخیر، شبکههایی که با استفاده از مدل ترنسفورمر در معماری شبکههای عصبی و پیکرههای متنی بزرگ ایجاد شده، در معیارهایی مانند Glue عملکرد بالایی داشتهاند. مدل زبانی BERT گوگل و مشتقات آن در این زمینه پیشرو هستند و شبکههای عصبی دیگر مانند MT-DNN مایکروسافت، مگاترون انویدیا و GPT-3 دیپمایند نیز جزو مطرحترین موارد محسوب میشوند.
GPT-3 که در ماه مه گذشته معرفی شد، بزرگترین مدل زبانی تا کنون است. مقالهای که در مورد عملکرد این مدل نگاشته شده، یکی از سه جایزه برتر مقالات امسال NeurIPS را برنده شد.
مقیاس عظیم مجموعه دادهها، بررسی دقیق محتوای آنها را دشوار میکند. این مساله موجب نمونههای متعددی از سوگیری الگوریتمی علیه مسلمانان، افراد دارای جنسیتهای متفاوت، معلولان، زنان، سیاهپوستان و دیگر اقلیتها شده است.خطرات و نواقص مجموعه دادههای بزرگ در حوزه بینایی ماشین نیز خود را نشان داده است. از جمله محققان دانشگاه استنفورد در دسامبر سال 2019 اعلام کردند که برچسبها و تصاویر توهین آمیز را از مجموعه داده ImageNet حذف میکنند. مدل StyleGAN انویدیا نیز پس از آموزش با یک مجموعه داده بزرگ، نتایجی دارای سوگیری تولید کرد و پس از کشف تصاویر و برچسبهای جنسیتی و نژادپرستانه، خالقان مجموعه داده Tiny Images که مشتمل بر 80 میلیون تصویر است، ضمن عذرخواهی، از مهندسان خواستند که از این محتوا استفاده نکنند.