PathoROB: هل يرى نموذج AI المرض أم يرى اختلاف المختبر؟ - الباثولوجي الرقمي

الفكرة الأساسية في هذه الدراسة بسيطة جداً: قد يظن نموذج الذكاء الاصطناعي أنه يتعلم شكل الورم، لكنه في الحقيقة يتعلم أشياء جانبية مثل لون الصبغة، نوع السكانر، أو أسلوب مختبر معيّن في تحضير الشرائح.

تخيّل أن نموذجاً دُرّب على شرائح من مستشفيين. في المستشفى الأول أغلب الحالات malignant، وفي المستشفى الثاني أغلب الحالات benign. إذا كانت صبغة المستشفى الأول أغمق قليلاً أو السكانر يعطي لوناً مختلفاً، قد يتعلم النموذج هذا الفرق بدل أن يتعلم morphology الورم. داخل الاختبار المحلي سيبدو أداؤه جيداً. لكن عندما تأتيه شريحة من مختبر ثالث، تبدأ المشكلة.

هذا بالضبط ما تناقشه دراسة Nature Communications الجديدة بعنوان PathoROB. الورقة لا تقول إن Foundation Models في الباثولوجي الرقمي بلا فائدة. بالعكس، هي تقول إن هذه النماذج قوية، لكنها تحتاج اختباراً أذكى قبل استخدامها في أي مسار سريري.

ما هي المشكلة؟

Foundation Models هي نماذج كبيرة مدربة مسبقاً على كميات ضخمة من Whole Slide Images. كثير من فرق AI pathology تستخدمها كقاعدة جاهزة: تأخذ features من النموذج، ثم تبني فوقها نموذجاً أصغر لمهمة محددة مثل tumor detection أو biomarker prediction.

المشكلة أن هذه features قد تحمل معلومات لا علاقة لها بالمرض. قد تحمل بصمة المركز الطبي، طريقة fixation، سماكة section، درجة H&E، نوع scanner، أو اختلافات بسيطة في workflow. هذه التفاصيل مفهومة لأي طبيب باثولوجي يعمل بين مختبرات مختلفة. الشريحة نفسها لا تبدو دائماً بنفس الشكل من مكان إلى آخر.

إذا كان النموذج حساساً لهذه الفروقات، فسيحملها معه إلى أي نموذج لاحق. وهنا يصبح الخطر عملياً: نموذج ظاهرياً يتنبأ بالمرض، لكنه يعتمد جزئياً على هوية المختبر.

ماذا فعل الباحثون في PathoROB؟

أنشأ الباحثون benchmark اسمه PathoROB لاختبار هذه النقطة تحديداً. استخدموا 99,392 patch من 28 صنفاً بيولوجياً و34 مركزاً طبياً، ثم اختبروا 20 Foundation Models مستخدمة في histopathology.

السؤال كان مباشراً: عندما ينظر النموذج إلى الصور، هل يرتبها حسب biology أم حسب المركز الذي جاءت منه؟ بمعنى آخر، هل الشرائح المتشابهة في المرض تقترب من بعضها داخل embedding space، أم أن الشرائح القادمة من نفس المستشفى تقترب حتى لو كانت مختلفة بيولوجياً؟

هذه طريقة ذكية لأننا لا نحتاج أن ننتظر فشل النموذج في العيادة حتى نعرف المشكلة. يمكن كشف جزء كبير من الخطر من طريقة ترتيب النموذج للصور داخلياً.

النتيجة المختصرة

كل النماذج العشرين حملت درجة من التأثر بعوامل غير بيولوجية. بعضها كان أفضل من غيره، لكن لا يوجد نموذج خرج من الاختبار بشكل كامل.

في أحد الأمثلة، كان نموذج Phikon-v2 يميل إلى ترتيب الصور حسب المركز الطبي أكثر من ترتيبها حسب كونها tumor أو normal. نموذج Virchow2 كان أفضل، إذ ركز أكثر على الفرق البيولوجي، لكن أثر المركز بقي موجوداً.

الأهم أن الباحثين استطاعوا التنبؤ بالمركز الطبي من features التي ينتجها النموذج بدقة وصلت تقريباً إلى 88% حتى 98% عبر ثلاث مجموعات بيانات. هذه المعلومة لا تفيد التشخيص. لكنها إذا دخلت في قرار النموذج، قد تخلق خطأ خطيراً.

لماذا يهم هذا طبيب الباثولوجي؟

لأن أغلب وعود AI في الباثولوجي الرقمي تعتمد على النقل بين المختبرات. النموذج قد يُدرّب في مركز أكاديمي كبير، ثم يُستخدم في مختبر آخر بسكانر مختلف وصبغة مختلفة وطريقة تحضير مختلفة. إذا لم يُختبر هذا الانتقال جيداً، فإن رقم AUC المنشور لا يكفي.

الدراسة أظهرت أن الأداء قد ينهار عندما يكون هناك ارتباط بين المركز الطبي والـlabel. في Camelyon مثلاً، عندما صار الارتباط بين المركز والهدف كاملاً، هبطت دقة tumor detection من أكثر من 92% إلى نطاق 53% حتى 87%. وفي تجارب slide-level مثل NSCLC subtyping وHRD prediction وsurvival prediction، تكرر نفس النمط: كلما زاد اعتماد النموذج على بصمة المركز، صار تعميمه على مستشفى جديد أضعف.

هذا يعني أن المشكلة لا تخص patch classification فقط. هي تمس biomarker prediction، prognosis، case retrieval، وحتى clustering المستخدم لاكتشاف أنماط مورفولوجية جديدة.

مثال case retrieval

لنفترض أن نظام الباثولوجي الرقمي يعرض لك “حالات مشابهة” للحالة الحالية. إذا كان embedding جيداً، يجب أن تأتي الحالات المشابهة بسبب morphology المرضية. أما إذا كان embedding متأثراً بالمختبر، فقد يعطيك حالات من نفس السكانر أو نفس نمط الصبغة، لا حالات مشابهة فعلاً من ناحية مرضية.

هذا قد يعطي إحساساً كاذباً بالثقة. الواجهة تبدو ذكية، لكنها ربما تجمع الحالات لأن مصدرها التقني متشابه، لا لأن المرض متشابه.

هل توجد حلول؟

اختبرت الدراسة طرقاً لتقليل المشكلة من دون إعادة تدريب Foundation Model من الصفر. من هذه الطرق stain normalization، وتصحيح batch effects على مستوى features باستخدام ComBat، وتدريب downstream model بطريقة تقلل اعتماده على المركز الطبي.

بعض الطرق حسّنت النتائج. stain normalization أعطى تحسناً متسقاً نسبياً. ComBat حسّن ترتيب الصور داخل embedding space، لكنه قد يزيل جزءاً من الإشارة البيولوجية إذا كانت متداخلة مع المركز الطبي. لذلك لا توجد وصفة سحرية. الحل الحقيقي يبدأ من تصميم validation جيد، لا من فلتر تقني يضاف في النهاية.

الخلاصة العملية

عند تقييم أي نموذج AI للباثولوجي الرقمي، اسأل سؤالاً بسيطاً: هل اختُبر النموذج على مختبرات وسكانرات وصبغات مختلفة عن بيانات التدريب؟

إذا كان الجواب لا، فالأداء المنشور ناقص. وإذا كان الجواب نعم، نحتاج أن نرى الأداء حسب كل مركز، لا المتوسط العام فقط. المتوسط قد يخفي فشلاً واضحاً في مختبر معيّن.

دراسة PathoROB تذكّرنا أن الذكاء الاصطناعي في الباثولوجي لا يفشل دائماً بسبب ضعف الخوارزمية. أحياناً يفشل لأنه تعلّم الشيء الخطأ من البيانات. بدل أن يرى الورم، يرى طريقة إنتاج الشريحة.

وهذه نقطة يجب أن تكون جزءاً من أي نقاش جدي قبل شراء أو بناء أو اعتماد نظام AI في الباثولوجي الرقمي.

المصدر: Nature Communications، DOI: 10.1038/s41467-026-73923-2. كود PathoROB متاح عبر GitHub، وبيانات benchmark متاحة عبر Hugging Face.