چتبات هوش مصنوعی پزشکان را در تشخیص بیماری شکست داد
تاریخ انتشار
سه شنبه ۲۹ آبان ۱۴۰۳ ساعت ۰۹:۰۰
آیتیمن- در مطالعهای که دکتر رودمن در طراحی آن همکاری داشت، پزشکانی که از چتبات GPT-4 در کنار منابع متداول استفاده کردند، تنها اندکی بهتر از پزشکانی عمل کردند که به این ابزار دسترسی نداشتند. اما، عجیب اینکه چتبات به تنهایی عملکرد بهتری نسبت به پزشکان داشت.
چتبات GPT-4، ساختهشده توسط شرکتOpenAI، به طور متوسط نمره ۹۰ درصد را در تشخیص بیماری از یک گزارش موردی و توضیح استدلال خود به دست آورد. پزشکانی که به صورت تصادفی به استفاده از این چتبات اختصاص داده شده بودند، به طور متوسط نمره ۷۶ درصد کسب کردند. در حالی که کسانی که از چتبات استفاده نکرده بودند، به طور متوسط نمره ۷۴ درصد داشتند.
این آزمایش نشان داد که پزشکان گاهی به تشخیصی که ارائه دادهاند، بیچون و چرا باور دارند، حتی زمانی که چتبات به طور بالقوه تشخیص بهتری ارائه میدهد.
مطالعه همچنین نشان داد که اگرچه پزشکان با ابزارهای هوش مصنوعی آشنا شدهاند، تعداد کمی از آنها میدانند چگونه از تواناییهای چتباتها بهره ببرند. در نتیجه، آنها نتوانستند از قابلیتهای سیستمهای هوش مصنوعی برای حل مشکلات پیچیده تشخیصی و ارائه توضیحاتی برای تشخیصها استفاده کنند.
این آزمایش شامل ۵۰ پزشک بود که از طریق چند سیستم بیمارستانی بزرگ در آمریکا جذب شده بودند. این مطالعه ماه گذشته در ژورنال JAMA Network Open منتشر شد.
شرکتکنندگان شش گزارش موردی دریافت کردند و بر اساس توانایی آنها در پیشنهاد تشخیص و توضیح دلایل خود برای انتخاب یا رد تشخیصها ارزیابی شدند. نمره آنها شامل تشخیص نهایی صحیح نیز میشد.
ارزیابیها توسط کارشناسان پزشکی انجام شد که تنها پاسخهای شرکتکنندگان را میدیدند، بدون اینکه بدانند آیا این پاسخها از یک پزشک با استفاده از چتبات است، پزشک بدون آن، یا خود چتبات.
گزارشهای موردی استفادهشده در مطالعه بر اساس بیماران واقعی بودند و بخشی از مجموعهای از ۱۰۵ مورد بودند که از دهه ۱۹۹۰ توسط محققان استفاده شدهاند. این موارد عمداً هرگز منتشر نشدهاند تا دانشجویان پزشکی و دیگران بدون پیشآگاهی مورد ارزیابی قرار گیرند. این موضوع همچنین به این معنا بود که چتبات نمیتوانسته بر اساس آنها آموزش دیده باشد.
با این حال، برای نشان دادن جزئیات مطالعه، محققان یکی از شش موردی که پزشکان روی آن آزمایش شدند، همراه با پاسخهای سؤالات مربوط به آن از یک پزشک با نمره بالا و یکی با نمره پایین، منتشر کردند.
این مورد شامل یک بیمار ۷۶ ساله بود که پس از انجام آنژیوپلاستی با بالون برای باز کردن شریان کرونری، دچار درد شدید در کمر، باسن و ساق پا هنگام راه رفتن شده بود. او برای ۴۸ ساعت پس از عمل با داروی رقیقکننده خون (هپارین) درمان شده بود.
این بیمار احساس تب و خستگی میکرد. آزمایشهای آزمایشگاهی نشان دادند که وی به تازگی دچار کمخونی و تجمع مواد زائد نیتروژن و دیگر محصولات در خونش شده است. او یک دهه پیش جراحی بایپس قلب انجام داده بود.
تشخیص درست آمبولی کلسترول بود، وضعیتی که در آن تکههای کلسترول از پلاکهای موجود در شریان جدا شده و رگهای خونی را مسدود میکنند.
شرکتکنندگان باید سه تشخیص احتمالی، همراه با شواهد حمایتی برای هر کدام ارائه میدادند. همچنین باید یافتههایی را که از تشخیص حمایت نمیکردند یا انتظار میرفت اما وجود نداشتند، ارائه میدادند.
سپس آنها باید یک تشخیص نهایی ارائه میکردند و تا سه گام اضافی که در فرآیند تشخیصی خود انجام میدادند، ذکر میکردند.
مانند تشخیص مورد منتشرشده، تشخیصهای دیگر موارد مطالعه نیز آسان نبودند، اما به اندازهای نادر هم نبودند که تقریباً غیرممکن به نظر برسند. با این حال، پزشکان به طور میانگین عملکرد ضعیفتری نسبت به چتبات داشتند.
چتبات GPT-4، ساختهشده توسط شرکتOpenAI، به طور متوسط نمره ۹۰ درصد را در تشخیص بیماری از یک گزارش موردی و توضیح استدلال خود به دست آورد. پزشکانی که به صورت تصادفی به استفاده از این چتبات اختصاص داده شده بودند، به طور متوسط نمره ۷۶ درصد کسب کردند. در حالی که کسانی که از چتبات استفاده نکرده بودند، به طور متوسط نمره ۷۴ درصد داشتند.
این آزمایش نشان داد که پزشکان گاهی به تشخیصی که ارائه دادهاند، بیچون و چرا باور دارند، حتی زمانی که چتبات به طور بالقوه تشخیص بهتری ارائه میدهد.
مطالعه همچنین نشان داد که اگرچه پزشکان با ابزارهای هوش مصنوعی آشنا شدهاند، تعداد کمی از آنها میدانند چگونه از تواناییهای چتباتها بهره ببرند. در نتیجه، آنها نتوانستند از قابلیتهای سیستمهای هوش مصنوعی برای حل مشکلات پیچیده تشخیصی و ارائه توضیحاتی برای تشخیصها استفاده کنند.
این آزمایش شامل ۵۰ پزشک بود که از طریق چند سیستم بیمارستانی بزرگ در آمریکا جذب شده بودند. این مطالعه ماه گذشته در ژورنال JAMA Network Open منتشر شد.
شرکتکنندگان شش گزارش موردی دریافت کردند و بر اساس توانایی آنها در پیشنهاد تشخیص و توضیح دلایل خود برای انتخاب یا رد تشخیصها ارزیابی شدند. نمره آنها شامل تشخیص نهایی صحیح نیز میشد.
ارزیابیها توسط کارشناسان پزشکی انجام شد که تنها پاسخهای شرکتکنندگان را میدیدند، بدون اینکه بدانند آیا این پاسخها از یک پزشک با استفاده از چتبات است، پزشک بدون آن، یا خود چتبات.
گزارشهای موردی استفادهشده در مطالعه بر اساس بیماران واقعی بودند و بخشی از مجموعهای از ۱۰۵ مورد بودند که از دهه ۱۹۹۰ توسط محققان استفاده شدهاند. این موارد عمداً هرگز منتشر نشدهاند تا دانشجویان پزشکی و دیگران بدون پیشآگاهی مورد ارزیابی قرار گیرند. این موضوع همچنین به این معنا بود که چتبات نمیتوانسته بر اساس آنها آموزش دیده باشد.
با این حال، برای نشان دادن جزئیات مطالعه، محققان یکی از شش موردی که پزشکان روی آن آزمایش شدند، همراه با پاسخهای سؤالات مربوط به آن از یک پزشک با نمره بالا و یکی با نمره پایین، منتشر کردند.
این مورد شامل یک بیمار ۷۶ ساله بود که پس از انجام آنژیوپلاستی با بالون برای باز کردن شریان کرونری، دچار درد شدید در کمر، باسن و ساق پا هنگام راه رفتن شده بود. او برای ۴۸ ساعت پس از عمل با داروی رقیقکننده خون (هپارین) درمان شده بود.
این بیمار احساس تب و خستگی میکرد. آزمایشهای آزمایشگاهی نشان دادند که وی به تازگی دچار کمخونی و تجمع مواد زائد نیتروژن و دیگر محصولات در خونش شده است. او یک دهه پیش جراحی بایپس قلب انجام داده بود.
تشخیص درست آمبولی کلسترول بود، وضعیتی که در آن تکههای کلسترول از پلاکهای موجود در شریان جدا شده و رگهای خونی را مسدود میکنند.
شرکتکنندگان باید سه تشخیص احتمالی، همراه با شواهد حمایتی برای هر کدام ارائه میدادند. همچنین باید یافتههایی را که از تشخیص حمایت نمیکردند یا انتظار میرفت اما وجود نداشتند، ارائه میدادند.
سپس آنها باید یک تشخیص نهایی ارائه میکردند و تا سه گام اضافی که در فرآیند تشخیصی خود انجام میدادند، ذکر میکردند.
مانند تشخیص مورد منتشرشده، تشخیصهای دیگر موارد مطالعه نیز آسان نبودند، اما به اندازهای نادر هم نبودند که تقریباً غیرممکن به نظر برسند. با این حال، پزشکان به طور میانگین عملکرد ضعیفتری نسبت به چتبات داشتند.