فجوة الثقة في الذكاء الاصطناعي: ما يفتقده النماذج الأساسية في التشخيص النسيجي - الباثولوجي الرقمي

ما الذي يعيق تبني الذكاء الاصطناعي فعلياً في مختبرات علم الأمراض؟

في حوار معمّق مع البروفيسور حميد تيزهوش، أستاذ المعلوماتية الحيوية في مايو كلينيك، تُطرح أسئلة جوهرية حول الهوة بين التوقعات المبالغ فيها والواقع السريري. النماذج الأساسية والنماذج اللغوية الكبيرة لا تزال بعيدة عن تلبية خمسة متطلبات غير قابلة للتنازل: الدقة، والاتساق، والسرعة، والكفاءة، والمتانة.

المشكلة ليست في غياب الأبحاث أو قلة التمويل. المشكلة في أن معظم ما يُعرض في المؤتمرات والبيانات الصحفية لا يُخضع للاختبار السريري الحقيقي. نماذج تُحقق 95% في اختبارات معملية قد تنهار أمام التنوع الحقيقي للأنسجة والتلوين والجودة المتفاوتة للمسحات الرقمية.

المتطلبات الخمسة: لماذا يفشل الذكاء الاصطناعي في تلبيتها؟

الدقة

النموذج الذي يُصيب في 90% من الحالات قد يكون كافياً في التوصية أو الفرز، لكنه غير مقبول في التشخيص النهائي. نسبة الخطأ 10% تعني أن مريضاً من كل عشرة يحصل على تشخيص خاطئ. في علم الأمراض، هذا الرقم كارثي. الدقة المطلوبة سريرياً تقترب من 99%، وهو رقم لم يقترب منه أي نموذج أساسي حتى الآن في التقييمات المستقلة.

الاتساق

نفس المساحة الرقمية قد تحصل على تشخيص مختلف في كل مرة يُعالجها النموذج. هذه المشكلة أسوأ من عدم الدقة لأنها غير متوقعة. أخصائي علم الأمراض قد يختلف مع زميله، لكن اختلافه يتبع نمطاً مفهوماً. تقلب النموذج عشوائي ولا يمكن التنبؤ به. دراسة حديثة أظهرت أن بعض النماذج تعطي نتائج مختلفة لنفس الـ WSI عند تدوير الصورة 90 درجة.

السرعة

المعالجة في الوقت الحقيقي ليست رفاهية. مختبر يُعالج 300 مساحة يومياً يحتاج إلى نتائج خلال دقائق، لا ساعات. كثير من النماذج البحثية تتطلب بنية تحتية حوسبية تجعل الزمن الحقيقي مستحيلاً عملياً. الفجوة بين سرعة الاستدلال في بيئة بحثية وفي بيئة إنتاجية كبيرة.

الكفاءة

النموذج الذي يحتاج إلى 16 وحدة معالجة رسوميات لتحليل مساحة واحدة ليس حلاً واقعياً لأغلب المختبرات. الكفاءة تعني تحقيق النتائج المطلوبة بأقل موارد ممكنة. هذا يتطلب هندسة مختلفة تماماً عما يُبنى في المختبرات الأكاديمية حيث الموارد الحوسبية غير محدودة.

المتانة

النموذج المُدرّب على بيانات من ماسح ضوئي واحد قد يفشل تماماً مع ماسح مختلف. التنوع في بروتوكولات التلوين وجودة التحضير والسمك النسيجي يجعل المتانة تحدياً مركزياً. كل مختبر يعرف أن اختلافاً طفيفاً في صبغة H&E يُحدث اختلافاً كبيراً في مخرجات النموذج.

النهج متعدد الوسائط: هل هو الحل؟

يتحدث تيزهوش عن إمكانية النهج متعدد الوسائط في سد بعض هذه الفجوات. بدلاً من الاعتماد على الصورة وحدها، يدمج هذا النهج البيانات النسيجية مع المعلومات السريرية والجينومية والمناعية. الفكرة ليست جديدة، لكن تطبيقها على النماذج الأساسية الكبيرة هو ما يجعلها مثيرة للاهتمام.

التحدي يبقى في كيفية تمثيل كل هذه الوسائط بشكل متسق. بيانات IHC ليست كبيانات WSI، والاستجابة المناعية لا تُختزل في متجه رقمي بسهولة. النموذج الذي يُتقن التعامل مع وسائط متعددة يحتاج إلى تدريب على بيانات مُعلَّمة بعناية من كل وسائط، وهذا يتطلب تعاوناً بين مؤسسات لا تشارك بياناتها عادةً.

ما الذي ينبغي لأخصائي علم الأمراض أن يطالب به؟

المسؤولية لا تقع على المطوّرين وحدهم. أخصائيو علم الأمراض هم المستخدمون النهائيون، ولهم الحق في طرح أسئلة صعبة قبل تبني أي تقنية.

اسألوا عن بيانات التدريب: من أين جاءت؟ كم مختبراً شارك؟ هل تشمل التنوع العرقي والعمري والجغرافي؟ بيانات من مستشفى واحد في أمريكا الشمالية لا تمثل العالم.

اسألوا عن التقييم المستقل. الدراسة التي ينشرها المطور عن منتجاته ليست دليلاً مقبولاً. ابحثوا عن تقييمات من أطراف ثالثة، ومن المختبرات التي استخدمت النموذج في ظروف حقيقية.

واسألوا عن آلية المراجعة. ماذا يحدث عندما يخطئ النموذج؟ هل هناك نظام لتسجيل الانحرافات وتحليلها؟ أم أن النموذج صندوق أسود لا يمكن تدقيقه؟

تقنية لا يمكن تدقيقها تقنية لا ينبغي تبنيها. هذه قاعدة بسيطة. أخصائي علم الأمراض مسؤول أمام المريض، ولا يمكن تحميل هذه المسؤولية لأداة لا يمكن فهم قراراتها أو مراجعتها.