عطش بالای هوش مصنوعی برای مصرف انرژی

تاریخ انتشار

يکشنبه ۷ دی ۱۳۹۹ ساعت ۱۲:۵۹

کیت سینکو*
در ماه جاری گوگل یک پژوهشگر برجسته اخلاقیات هوش مصنوعی را در واکنش به اظهار تاسف و نومیدی وی از این شرکت که او را وادار به کنار گذاشتن یک مقاله تحقیقاتی خود کرده بود، اخراج کرد. او در این مقاله به خطرات هوش مصنوعی پردازش زبانی اشاره کرده بود، همان نوع هوش مصنوعی که در موتور جست‌وجوی گوگل و سایر محصولات تحلیل متن این شرکت کاربرد دارد.

از جمله‌این خطرات اثر انگشت کربنی شدیدی است که توسعه و ساخت این نوع از فناوری هوش مصنوعی به همراه دارد. بر اساس برخی برآورده‌ها آلودگی کربنی آموزش دادن یک مدل هوش مصنوعی، با آلودگی پنج اتومبیل در مراحل ساخت و استفاده از آنها در طول عمر کاری خود برابری می‌کند.
من پژوهشگری هستم که به مطالعه و توسعه مدل‌های هوش مصنوعی اشتغال دارم و با هزینه‌های انرژی و مالی سرسام آور تحقیقات هوش مصنوعی به خوبی آشنایی دارم. چرا مدل‌های هوش مصنوعی این چنین عطش انرژی پیدا کرده‌اند آنها با محاسبه سنتی مرکز داده‌ها چه فرقی دارند؟

کم بازده بودن آموزش هوش مصنوعی امروزی
کارهای پردازش سنتی داده‌ها که در مراکز داده‌ها انجام می‌شد، شامل استریم کردن ویدئو، ایمیل‌ها و شبکه‌های اجتماعی بود. هوش مصنوعی از نظر محاسباتی بسیار پر کارتر است، چون تا وقتی که یاد بگیرد چگونه آنها را درک کند یا به عبارت دیگر آموزش ببیند، باید داده‌های هنگفتی را بخواند.

این نوع از آموزش در مقایسه با نحوه یادگیری انسان‌ها بسیار کم بازده است. هوش مصنوعی مدرن از شبکه‌های عصبی مصنوعی استفاده می‌کند که محاسباتی ریاضی هستند که کار نرون‌ها در مغز انسان را تقلید می‌کنند. توانایی ارتباط هر یک از این نرون‌ها با نرون همسایه خود یکی از پارامترهای شبکه به شمار می‌رود که به آن بار می‌گویند. شبکه برای یادگیری اینکه چگونه باید زبان را درک کند، با بارهای تصادفی شروع و آنقدر آنها را با هم تنظیم می‌کند تا وقتی که خروجی با پاسخ درست جور دربیاید.

یک روش رایج در آموزش یک شبکه زبان، خوراندن مقادیر زیادی متن از وبسایت‌هایی چون ویکی پدیا و سایت‌های خبری به آن است که برخی از کلمات در آنها پوشانده می‌شوند و از شبکه خواسته می‌شود تا کلمات پوشانده شده را حدس بزند. یک نمونه‌این است که «سگ من ناز است» که کلمه «ناز» در این جمله پوشانده شده. در ابتدا مدل تمام انتخاب‌ها را اشتباه انجام می‌دهد، اما بعد از بارها و بارها تعویض کلمه، اندک اندک بارهای ارتباط تغییر می‌کنند تا الگوهای موجود در داده‌ها را تغییر دهد و انتخاب کند. در نهایت شبکه دقت عمل لازم را به دست می‌آورد.

یکی از مدل‌هایی که اخیرا ساخته شده «معرف‌های کدگذاری کننده دو جهته مبدل‌ها» (برت) نام دارد که از ۳.۳ میلیارد کلمه از کتاب‌های انگلیسی و مقالات ویکی پدیا استفاده می‌کند. بعلاوه‌اینکه برت در طول آموزش، این مجموعه داده‌ها را نه یک بار بلکه ۴۰ بار می‌خواند. برای مقایسه یک کودک معمولی که در حال یادگرفتن حرف زدن است تا پنج سالگی ۴۵ میلیون کلمه را می‌شنود که سه هزار بار کمتر از برت است.

به دنبال ساختار درست
چیزی که ساخت مدل‌های زبان را حتی پر هزینه تر می‌کند، این است که‌این روند آموزش در طول دوره ساخت و توسعه به کرات اتفاق می‌افتد. دلیلش هم این است که پژوهشگران می‌خواهند بهترین ساختار را برای شبکه پیدا کنند، اینکه چند نرون، چند ارتباط بین نرون‌ها باید وجود داشته باشد و در طول یادگیری پارامترها با چه سرعتی باید تغییر کنند و از این قبیل. آنها هر چه ترکیب‌های بیشتری را امتحان کنند، شانس رسیدن شبکه به دقتی بالاتر بیشتر می‌شود. برعکس مغزهای انسانی نیازی به یافتن یک ساختار بهینه ندارند؛ آنها با ساختاری از پیش ساخته شده به وجود می‌آیند که تکامل آنها را پالایش کرده است.

شرکت‌ها و مجامع دانشگاهی که در حوزه هوش مصنوعی در حال رقابت هستند، برای بهبود دادن جدیدترین فناوری‌های موجود فشار می‌آورند. حتی دستیابی به پیشرفتی یک درصدی در دقت در وظایف دشواری چون ترجمه ماشین، مهم تلقی می‌شود و به شهرت خوب سازنده و محصولات بهتر منجر می‌شود. اما یک پژوهشگر برای رسیدن به همین پیشرفت یک درصدی، باید یک مدل را هزاران بار و هر بار با ساختاری متفاوت آموزش دهد تا بهترین ساختار را بیابد.

پژوهشگران در دانشگاه ماساچوست امهرست هزینه انرژی ساخت و توسعه مدل‌های زبان هوش مصنوعی را بر اساس اندازه گیری مصرف انرژی سخت افزارهای رایجی که در طول آموزش مورد استفاده قرار می‌گیرد، برآورد کرده‌اند. آنها دریافته‌اند که یک بار آموزش دادن برت، اثر انگشت یک مسافر را دارد که بین نیویورک و سان فرانسیسکو با هواپیما سفر می‌کند. با این حال استفاده از مدل‌های مختلف – یعنی با آموزش الگوریتم‌ها بر اساس داده‌هایی مشخص و به دفعات، با اندکی تفاوت در نرون‌ها، ارتباط‌ها و سایر پارامتر‌ها – در این تحقیقات، هزینه‌ای معادل ۳۱۵ مسافر یا یک هواپیمای ۷۴۷ پر از مسافر را در بردارد.

بزرگ‌تر و داغ‌تر
بعلاوه مدل‌های هوش مصنوعی بسیار بزرگ تر از چیزی که لازم است باشند هستند و هر سال بزرگ تر هم می‌شوند. یک مدل زبان تازه تر مشابه برت موسوم به جی پی تی-۲ در شبکه خود ۱.۵ میلیارد بار دارد. جی پی تی-۳ که در سال جاری جنب و جوشی را به وجود آورد، به دلیل دقت بالای خود، دارای ۱۷۵ میلیارد بار است.

محققان کشف کرده‌اند که داشتن شبکه‌های بزرگ تر به دقت بالاتر منجر می‌شود، حتی اگر سهم بسیار کوچکی از آنچه که‌این شبکه به آن دست پیدا می‌کند مفید باشد. گاهی اوقات اتفاق مشابهی برای مغز کودکان می‌افتد و اتصال‌های نرونی در ابتدا اضافه می‌شوند و بعد کاهش پیدا می‌کنند، اما از نظر انرژی، مغز بیولوژیک خیلی بیشتر از رایانه‌ها بازدهی دارد.

مدل‌های هوش مصنوعی روی سخت افزار تخصصی نظیر واحدهای پردازش گرافیکی آموزش می‌بینند که از سی پی یوهای سنتی بیشتر انرژی مصرف می‌کنند. اگر شما یک لپتاپ مخصوص بازی داشته باشید، احتمالا دارای یکی از این واحدهای پردازش گرافیکی برای نمایش گرافیک پیشرفته مثل بازی ماینکرافت آر تی اکس است. همچنین احتمالا متوجه خواهید شد که لپتاپ شما خیلی بیشتر از لپتاپ‌های معمولی گرما تولید می‌کند.

تمام این حرف‌ها به‌این معنی است که توسعه دادن مدل‌های هوش مصنوعی پیشرفته یک اثرانگشت کربنی بزرگ را به دنبال دارد. مگر آنکه به منابع انرژی ۱۰۰ درصد تجدید پذیر روی بیاوریم، وگرنه پیشرفت هوش مصنوعی ممکن است با اهداف کاستن از آلاینده‌های گلخانه‌ای و کند کردن گرمایش اقلیمی‌در مغایرت قرار گیرد. هزینه مالی ساخت و توسعه آنها نیز بسیار بیشتر تمام می‌شود؛ هزینه‌ای که فقط تعداد معدودی از آزمایشگاه‌ها توانایی پرداخت آن را دارند، در نتیجه آنها یکی از کسانی خواهند شد که تدوین این دستور کار را در دست خواهند گرفت که کدام نوع از مدل‌های هوش مصنوعی توسعه پیدا کند.

* استادیار علوم رایانه‌ای در دانشگاه بوستون

مرجع : فارس