تیم روباتیک DeepMind سه پیشرفت جدید را اعلام کرده که به روباتها کمک میکند تا تصمیمهای سریعتر، بهتر و ایمنتری در طبیعت بگیرند.
آیتیمن- یکی از این پیشرفتها سیستمی برای جمعآوری دادههای آموزشی بر اساس «قانون اساسی روباتها» است.
سیستم جمعآوری دادههای گوگل یا AutoRT، میتواند از یک مدل زبان بصری (VLM) و مدل زبان بزرگ (LLM) برای درک محیط، انطباق با تنظیمات ناآشنا و تصمیمگیری در مورد وظایف مناسب استفاده کند. قانون اساسی روباتها، که از سه قانون روباتیک آیزاک آسیموف الهام گرفته شده، به عنوان مجموعهای از «اعلانهای متمرکز بر ایمنی» توصیف میشود که به LLM دستور میدهد تا از انتخاب کارهایی که مرتبط با انسان، حیوانات، اشیای تیز و حتی وسایل الکتریکی میشود، خودداری کند.
دیپمایند برای ایمنی بیشتر، روباتها را طوری برنامهریزی میکند که اگر نیروی وارد بر مفاصل آن از آستانه خاصی گذشت، بهطور خودکار متوقف شوند. همچنین یک سوئیچ کشتن فیزیکی در نظر گرفته شده که اپراتورهای انسانی میتوانند از آن برای غیرفعال کردن روبات استفاده کنند.
به گزارش The Verge، گوگل طی یک دوره هفت ماهه،ناوگانی متشکل از 53 روبات AutoRT را در چهار ساختمان اداری مختلف مستقر کرد و بیش از 77 هزار آزمایش انجام داد. برخی از روباتها از راه دور توسط اپراتورهای انسانی کنترل میشدند، در حالی که برخی دیگر یا بر اساس یک اسکریپت یا کاملاً مستقل با استفاده از مدل یادگیری هوش مصنوعی گوگل با نام Google's Robotic Transformer (RT-2) کار میکردند.
روباتهای مورد استفاده در این آزمایش تنها مجهز به دوربین، بازوی روبات و پایه متحرک بودند. برای هر روبات، سیستم از VLM برای درک محیط و اشیا در دید استفاده میکرد. در مرحله بعد نیز LLM لیستی از کارهای خلاقانهای را پیشنهاد میکرد که روبات میتواند انجام دهد.
فناوری جدید دیگر DeepMind به نام SARA-RT، یک معماری شبکه عصبی است که برای دقیقتر و سریعتر کردن Robotic Transformer RT-2 طراحی شده است. گوگل همچنین RT-Trajectory را معرفی کرد که برای کمک به روباتها برای انجام بهتر وظایف فیزیکی خاص، مانند پاک کردن میز، خطوط راهنمای دو بعدی اضافه میکند.