حين ينجح endpoint ويفشل القرار: درس عملي لطبيب الباثولوجي من الذكاء الاصطناعي

تصل الحالة إلى قسم الباثولوجي وفي خلفيتها سؤال علاجي واضح: هل يكفي هذا الـ biomarker لتغيير الخطة؟ التقرير السابق يذكر نسبة إيجابية محددة، الـ IHC يعطي رقماً مقبولاً، وربما يوجد AI model يقترح score إضافياً من WSI. على الورق يبدو كل شيء مرتباً. لكن الطبيب المعالج لا يسأل عن جمال الرقم. يسأل سؤالاً أبسط وأصعب: هل سيستفيد هذا المريض؟

هذا هو موضع النقاش الذي فتحه مقال Dr. Luis Cano في Beyond the Slide عن endpoints في عصر AI. المقال يتعامل مع endpoint كأداة تتحول في النهاية إلى قرار سريري، لا كرقم إحصائي معزول داخل جدول. هذه النقطة مهمة لطبيب الباثولوجي لأن كثيراً من endpoints في الأورام تبدأ من النسيج: grade، نسبة خلايا موجبة، pattern مورفولوجي، fibrosis score، necrosis، أو readout يولده AI model فوق WSI.

المشكلة تبدأ عندما يتحول القياس إلى بديل عن الفائدة

في التجارب السريرية نحتاج أحياناً إلى surrogate endpoints لأنها أسرع من انتظار overall survival أو جودة الحياة. PFS وORR ونقص amyloid burden أمثلة معروفة. المنطق مفهوم: تطوير الدواء بطيء ومكلف، وبعض الأمراض لا تسمح بسنوات طويلة من الانتظار قبل الوصول إلى قرار تنظيمي.

لكن surrogate endpoint لا يملك قيمة ثابتة بذاته. قيمته تأتي من علاقة مثبتة مع النتيجة التي تهم المريض. إذا تحسن PFS شهرين ولم يتحسن survival أو symptom burden، فالرقم مفيد للتجربة لكنه محدود عند سرير المريض. في بعض سياقات immune checkpoint inhibitors، يذكر المقال أن ارتباط PFS مع overall survival في العلاجات المركبة قد يكون ضعيفاً جداً، مع R² بين 0.01 و0.22. هذا يعني أن تحسن المؤشر لا يعطي ضماناً عملياً بأن المريض سيعيش أطول.

هنا يتغير دور الباثولوجست. قياس الـ marker وحده لا يكفي. السؤال الأقرب إلى المختبر هو مدى ثبات هذا القياس داخل سياق المرض، ونوع العلاج، وطريقة أخذ العينة، وجودة التحضير، قبل أن يدخل في قرار علاجي عالي الكلفة أو عالي السمية.

الدرس الأقرب إلى الباثولوجي الرقمي

نرى المشكلة نفسها عندما يدخل AI model إلى المختبر. قد تعرض الورقة AUC يساوي 0.97، أو accuracy عالية في ثلاث cohorts. بعد ذلك يصل النموذج إلى مستشفى مختلف. الـ scanner ليس نفسه. بروتوكول الصبغ مختلف قليلاً. بعض WSI تحتوي folds أو out-of-focus areas. نظام العمل يحتاج نتيجة خلال دقائق، لا خلال زمن معالجة يوقف الـ sign-out. وطبيب الباثولوجي لا يعرف كيف يتصرف عندما يخالف output خبرته المورفولوجية.

النموذج قد يبقى جيداً من الناحية التقنية، لكن فائدته داخل ذلك المختبر تحتاج قياساً آخر. هل يقلل زمن الفرز؟ هل يحسن اكتشاف منطقة صغيرة ذات أهمية؟ هل يغير قرار طلب IHC؟ هل يرفع اتساق الـ scoring بين الأطباء؟ هل يمكن تتبع السبب عندما يخطئ؟ هذه أسئلة workflow عملية تسبق أي قرار بشراء أو اعتماد AI.

لهذا لا يكفي أن يحمل أي نظام رقمي رقماً عاماً عن الأداء. طبيب الباثولوجي يحتاج معلومات أقرب إلى يومه: نوع العينات التي اختبر عليها النموذج، scanners، staining variability، طريقة التعامل مع artifacts، نسبة الحالات التي فشل فيها التحليل، وزمن المعالجة داخل worklist حقيقي. بدون هذه التفاصيل يتحول الـ endpoint التقني إلى وعد لا يساعد في قرار التشخيص.

التجربة السريرية لا تشبه دائماً مريض العيادة

يشير المقال إلى فجوة معروفة بين efficacy داخل التجربة وeffectiveness داخل الممارسة. مريض التجربة غالباً أصغر عمراً، أقل comorbidities، وأكثر انتظاماً في المتابعة. أما المريض الذي يرى الطبيب تقريره اليوم فقد يكون أكبر سناً، لديه renal impairment، يتناول عدة أدوية، وعينته صغيرة أو متأثرة بـ pre-analytical factors.

هذا الفرق يهم الباثولوجي لأن العينة ليست معزولة عن المريض. جودة الـ biopsy، كمية الورم، necrosis، fixation، decalcification، وتباين التعبير داخل الورم كلها تؤثر على قوة الـ biomarker. عندما تبنى تجربة على عينة منتقاة وسيناريو مضبوط، ثم نطبق threshold نفسه على عينات يومية أكثر فوضى، يجب أن نسأل عن حدود النقل بين السياقين.

في multiple myeloma مثلاً، يذكر المقال أن مرضى الممارسة الواقعية أظهروا خطراً أعلى للتقدم أو الوفاة مقارنة بمرضى التجارب لنفس العلاجات. الرقم السريري هنا يذكرنا بشيء مألوف في المختبر: الأداء تحت شروط مثالية لا يكفي لتوقع الأداء تحت ضغط العمل اليومي.

ما الذي يجب أن يطلبه طبيب الباثولوجي من أي AI endpoint؟

الطلب الأول هو تعريف واضح لما يقيسه النموذج. إذا كان يقيس grade أو mitotic count أو tumor percentage أو likelihood of response، يجب أن نعرف الرابط بين هذا القياس والقرار الذي سيليه. رقم بلا قرار محدد يضيف ضجيجاً إلى التقرير.

الطلب الثاني هو تحقق محلي قبل الاعتماد. ليس بالضرورة أن يكون المشروع ضخماً. يمكن البدء بعينة ممثلة من حالات المختبر، مع scanners المستخدمة فعلاً، ونفس مسار التحضير، ومقارنة output مع مراجعة أطباء الباثولوجي ومع النتائج السريرية المتاحة. الأهم أن نختبر الحالات الصعبة، لا الحالات النظيفة فقط.

الطلب الثالث هو عرض uncertainty داخل الواجهة والتقرير. إذا كان النموذج غير واثق، أو إذا كانت WSI خارج نطاق التدريب، يجب أن يظهر ذلك للطبيب بوضوح. واجهة تعرض رقماً حاسماً في حالة ضعيفة الجودة تشجع على ثقة زائدة. الواجهة الجيدة تساعد الطبيب على رؤية الحدود قبل رؤية النتيجة.

الطلب الرابع هو ownership واضح. AI model قد يساعد في triage أو quantification أو إظهار مناطق تحتاج مراجعة، لكن التقرير النهائي يبقى مسؤولية الطبيب. لذلك يجب أن يكون output قابلاً للمراجعة: heatmap، region-level evidence، سجل للتعديل، وربط واضح مع LIS أو image management system. إذا لم يستطع الطبيب شرح سبب قبول النتيجة أو رفضها، فالنتيجة لا تصلح لدعم قرار حساس.

من benchmark إلى قرار قابل للدفاع

القيمة العملية للمقال أنه ينقل النقاش من نجاح الرقم إلى صلاحية استخدامه. في الباثولوجي الرقمي، هذا يعني أن endpoint الجيد لا يكتفي بإرضاء الورقة العلمية أو ملف الاعتماد. يجب أن يخدم قراراً داخل مسار عمل معروف، مع عينة حقيقية، وطبيب مسؤول، ومريض سيتأثر بما يكتب في التقرير.

قد يكون AI model ممتازاً في benchmark، ثم يحتاج تعديلاً أو تقييداً داخل مختبر معين. وقد يكون نموذج أقل بريقاً أنفع إذا كان أسرع، أو أوضح في عرض الأخطاء، أو أسهل في الدمج مع نظام العمل. هذه ليست ملاحظة تقنية صغيرة. إنها الفرق بين أداة تضيف ثقة وأداة تضيف رقماً جديداً لا يعرف الفريق كيف يستخدمه.

الخلاصة العملية لطبيب الباثولوجي بسيطة: لا تقبل endpoint لأنه قابل للقياس فقط. اسأل عن علاقته بالنتيجة السريرية، وعن أدائه في عينات تشبه عيناتك، وعن مكانه داخل workflow، وعن طريقة التعامل مع uncertainty. عندما يجيب النظام عن هذه الأسئلة، يصبح AI أقرب إلى أداة تشخيصية مفيدة. وعندما يتهرب منها، يبقى رقماً جميلاً خارج المختبر.

المصدر: Beyond the Slide: The Trial Says It Works. Your Patient Disagrees