روبوتات الدردشة الطبية: تفشل في التشخيص عندما يتفاعل البشر، تنجح في الامتحانات

منذ 4 ساعات

1775047284 AI Chatbots Are Bad at Diagnosing Symptoms For a Surprising

محررة في قسم الصحة، تهتم بتغطية القضايا المتعلقة بالغذاء والوقاية وأسلوب الحياة الصحي

ملايين يتجهون لروبوتات الدردشة بحثاً عن نصائح تشمل كل شيء، حتى صحتهم. تحذير كبير الأطباء في المملكة المتحدة كان واضحاً: الاعتماد على هذه الأنظمة في القرارات الطبية قد لا يكون حكيماً.

دراسة حديثة اختبرت قدرة نماذج اللغات الكبيرة (LLMs) على مساعدة الجمهور في التعامل مع مشكلات صحية شائعة. النتائج كانت صادمة.

لم تكن الروبوتات التي فحصناها جاهزة لأداء دور الأطباء. يجادل البعض بأن الذكاء الاصطناعي يتطور أسرع من النشر الأكاديمي، لكن دراسات أحدث باستخدام إصدارات متطورة من هذه الأنظمة لفرز المرضى تشير إلى استمرار المشكلات ذاتها.

شارك في الدراسة أشخاص قُدمت لهم أوصاف موجزة لحالات طبية. قُسموا عشوائياً: فريق يستخدم أحد ثلاثة روبوتات دردشة متاحة على نطاق واسع، وآخر يعتمد على مصادره المعتادة في المنزل.

بعد التفاعل مع الروبوت، طُرح سؤالان: ما الحالة التي قد تفسر الأعراض؟ وأين يجب طلب المساعدة؟

المستخدمون الذين استعانوا بروبوتات الدردشة كانوا أقل قدرة على تحديد الحالة الصحيحة مقارنة بالآخرين. لم يكونوا أفضل أيضاً في تحديد مكان الرعاية المناسب. ببساطة، التفاعل مع الروبوت لم يُحسن قراراتهم الصحية.

المفارقة هنا أن هذه النماذج لا ينقصها المعرفة الطبية. نماذج اللغات الكبيرة تجتاز امتحانات الترخيص الطبي بسهولة. عندما أُزيل العنصر البشري وقُدمت السيناريوهات مباشرة للروبوتات، تحسن أداؤها بشكل دراماتيكي.

بدون تدخل بشري، حددت النماذج الحالات ذات الصلة في أغلب الأحيان واقترحت مستويات الرعاية المناسبة. هذا يشير إلى أن المشكلة لا تكمن في نقص البيانات أو المعرفة، بل في كيفية تطبيقها.

إذاً، لماذا تدهورت النتائج عند استخدام البشر لهذه الأنظمة؟ تظهر المشكلة في طبيعة المحادثات. الروبوتات غالباً ما تذكر التشخيص الصحيح في مكان ما أثناء المحادثة، لكن المشاركين لم يلاحظوه أو يتذكروه دائماً عند تلخيص إجاباتهم النهائية.

في حالات أخرى، قدم المستخدمون معلومات غير كاملة، أو أساء الروبوت تفسير تفاصيل رئيسية. لم يكن الأمر مجرد فشل في المعرفة الطبية، بل فشل في التواصل بين الإنسان والآلة. هذا يطرح تحدياً حقيقياً أمام مطوري الأنظمة الصحية.

تُبرز هذه النتائج حدوداً مهمة في تقييمات الذكاء الاصطناعي الطبية الحالية. نماذج اللغات غالباً ما تؤدي بشكل ممتاز في أسئلة الامتحانات المنظمة أو التفاعلات المحاكاة ‘نموذج لنموذج’. لكن الاستخدام الواقعي أكثر فوضوية بكثير.

يصف المرضى الأعراض بطرق مبهمة أو غير كاملة، وقد يسيئون فهم التفسيرات. يطرحون الأسئلة بتسلسلات غير متوقعة. نظام يبدو مبهراً في المعايير القياسية قد يتصرف بشكل مختلف تماماً بمجرد أن يبدأ أناس حقيقيون بالتفاعل معه.

الرعاية السريرية أبعد من استدعاء الحقائق. الطب يوصف غالباً بأنه فن وليس علماً. الاستشارة ليست مجرد تحديد التشخيص الصحيح. تتضمن تفسير قصة المريض، استكشاف الشكوك، والتفاوض على القرارات. كل هذه العمليات تعتمد على التواصل البشري، الشفافية، الحكم المستنير بالسياق، والثقة.

هذه الصفات لا يمكن اختزالها بسهولة في مجرد التعرف على الأنماط. عقود من تعليم الأطباء المستقبليين، مثل نموذج كالجاري-كامبريدج، ركزت على بناء علاقة مع المريض، جمع المعلومات عبر أسئلة دقيقة، فهم مخاوف المريض وتوقعاته، وشرح النتائج بوضوح.

ليس الدرس من دراستنا أن الذكاء الاصطناعي لا مكان له في الرعاية الصحية. على العكس تماماً. الفهم يكمن في معرفة ما تبرع فيه هذه الأنظمة حالياً وأين تكمن حدودها.

يمكن النظر إلى روبوتات الدردشة اليوم على أنها تعمل كـ ‘سكرتارية’ أكثر منها ‘أطباء’. إنها فعالة بشكل ملحوظ في تنظيم المعلومات، تلخيص النصوص، وهيكلة الوثائق المعقدة.

هذه هي المهام التي تثبت فيها نماذج اللغات فائدتها بالفعل داخل أنظمة الرعاية الصحية. على سبيل المثال، في صياغة الملاحظات السريرية، تلخيص سجلات المرضى، أو إنشاء رسائل الإحالة. هذه تطبيقات عملية تدعم العمل الطبي دون أن تحل محله.

وعد الذكاء الاصطناعي في الطب لا يزال حقيقياً، لكن دوره محتمل أن يكون داعماً أكثر منه ثورياً على المدى القريب. لا ينبغي توقع أن تعمل روبوتات الدردشة كواجهة للرعاية الصحية. هي ليست جاهزة لتشخيص الحالات أو توجيه المرضى لمستوى الرعاية الصحيح.

اجتياز اختبار نظري لا يجعلك سائقاً ماهراً. ممارسة الطب تتطلب أكثر بكثير من الإجابة الصحيحة على الأسئلة. تتطلب حكماً، تعاطفاً، والقدرة على التعامل مع التعقيدات الكامنة وراء كل لقاء سريري. في الوقت الحالي، على الأقل، يتطلب ذلك أناساً لا روبوتات.