هل كان الـ Gold Standard في الباثولوجي صلباً فعلاً؟ - الباثولوجي الرقمي

هناك فكرة نتعامل معها في الباثولوجي كأنها حقيقة نهائية: الهستولوجي هو الـ gold standard. نبني عليه تشخيصاً، نعدّل علاجاً، نصمم endpoint في تجربة سريرية، ثم نقارن كل أداة جديدة به كأنه مرجع ثابت لا يخطئ.

لكن المقال المنشور في Beyond the Slide يطرح سؤالاً يستحق الوقوف عنده: ماذا لو كان الـ gold standard نفسه مصنوعاً من طين؟ لا بسبب ضعف الباثولوجيين، بل لأن أداة قياس المرض تحمل حدودها داخلها.

الهستولوجي نموذج، لا نسخة كاملة من المرض

المرض في النسيج لا يتحرك على شكل درجات مرتبة ونظيفة. التليف، الالتهاب، التحول الورمي، تغيرات الـ stroma، توزيع الخلايا المناعية، وكل ما نراه على الشريحة يمثل جزءاً من عملية مستمرة. نحن نحول هذه العملية إلى Metavir stage، أو Gleason pattern، أو NAS score، ثم نتعامل مع الرقم الناتج كأنه يلخص الحالة البيولوجية كاملة.

هنا يبدأ الخلل. عندما نضغط نسيجاً غنياً بالمعلومات داخل رقم ترتيبي واحد، نفقد التفاصيل التي قد تكون هي الإشارة الحقيقية. مريض داخل F3 قد يتحسن بيولوجياً بدرجة واضحة، تنخفض كمية الكولاجين أو يتغير نمط الالتهاب، لكن إذا لم يعبر الحد البصري المطلوب إلى F2 فسيظهر في التجربة كأنه لم يستجب.

هذه ليست مشكلة نظرية. هي مشكلة endpoint. الدواء قد يفعل شيئاً مهماً داخل النسيج، لكن نظام القياس لا يملك الدقة الكافية لرؤيته.

الحالات الحدودية تكشف ضعف النظام

أكثر مكان يظهر فيه ضعف التصنيف هو المنطقة الواقعة بين درجتين. الفرق بين grade 1 وgrade 2 في lobular inflammation لا يمثل دائماً فاصلاً بيولوجياً حاداً. أحياناً هو قرار بصري داخل منطقة رمادية. ومع ذلك، التحليل الإحصائي في التجربة السريرية يتعامل مع عبور هذا الحد كحدث واضح.

الأمر نفسه يظهر في Gleason. الفرق بين 3+4 و4+3 لا يغير الرقم النهائي فقط، بل يغير معنى الخطر ومسار المريض. قرار active surveillance أو التدخل الجراحي قد يعتمد على نسبة pattern 4 التي يراها الباثولوجي. المشكلة أن هذا التمييز يحدث داخل عينة صغيرة، وتحت تأثير artefacts، واختلافات تحضير، وإرهاق بصري، ومعايير تفسيرية لا يمكن تحويلها بالكامل إلى مسطرة ثابتة.

لذلك لا يكفي أن نقول إن هناك interobserver variability. العبارة صارت مألوفة إلى درجة أنها فقدت حدتها. الأهم هو أين يقع هذا التباين. غالباً يقع في النقطة التي يترتب عليها قرار سريري أو تنظيمي.

الخزعة نفسها جزء صغير من الحقيقة

في أمراض الكبد، خزعة بطول سنتيمترين قد تمثل جزءاً ضئيلاً جداً من العضو. ومع أمراض غير متجانسة التوزيع، مثل التليف أو الارتشاح الورمي، مكان دخول الإبرة قد يغير المرحلة. المريض قد يبدو أسوأ أو أفضل لأن العينة جاءت من منطقة مختلفة، لا لأن المرض تغير فعلاً.

هذا مهم في التجارب السريرية. إذا كان endpoint يعتمد على خزعة baseline وخزعة لاحقة، فجزء من “التحسن” أو “التدهور” قد يأتي من sampling noise. وعندما تكون الإشارة العلاجية متوسطة، يمكن لهذا الضجيج أن يخفي تأثير الدواء أو يصنع أثراً يبدو أكبر مما هو عليه.

MASH مثال واضح على هشاشة الـ endpoint

في MASH، يعتمد تقييم الاستجابة على resolution of steatohepatitis أو تحسن fibrosis. والـ NAS يجمع steatosis وlobular inflammation وhepatocellular ballooning. من بين هذه المتغيرات، ballooning هو الأكثر صعوبة وتبايناً بين القراء، ومع ذلك يدخل مباشرة في تعريف الاستجابة.

هذا يخلق وضعاً غير مريح: المتغير الأكثر ذاتية يصبح جزءاً من القرار الذي يحدد نجاح trial أو فشله. وإذا كان جزء من المرضى قد يتحولون إلى “responders” عند إعادة القراءة بسبب ضجيج القياس فقط، فنحن أمام مشكلة في بنية endpoint، لا في تدريب الباثولوجي وحده.

أين يدخل الباثولوجي الرقمي والذكاء الاصطناعي؟

قيمة الباثولوجي الرقمي هنا لا تأتي من تحويل الشريحة الورقية إلى صورة فقط. القيمة الحقيقية تبدأ عندما ننتقل من التصنيف البصري الخشن إلى قياس كمي مستمر. بدلاً من stage 2 يمكن قياس مساحة الكولاجين. بدلاً من تقدير عام للالتهاب يمكن حساب كثافة الخلايا وتوزيعها المكاني. وبدلاً من الاكتفاء بالمعمار النسيجي الظاهر يمكن استخراج features ترتبط بالاستجابة الجينومية أو السريرية.

الذكاء الاصطناعي لا يلغي دور الباثولوجي. هو يقلل الضجيج في مواضع يعرف الباثولوجي نفسه أنها مرهقة وغير ثابتة. AIM-MASH من PathAI مثال جيد على هذا الاتجاه. قيمته تأتي من محاولة تثبيت جزء متذبذب من أداة القياس، خصوصاً في متغير مثل hepatocellular ballooning، أكثر من تقديم endpoint جديد.

هذا فرق مهم. الحديث عن AI في الباثولوجي لا يجب أن يبقى محصوراً في سؤال “هل يشخص مثل الباثولوجي؟”. السؤال الأكثر نضجاً هو: هل يستطيع أن يجعل القياس أقل ضجيجاً، وأكثر قابلية للتكرار، وأقرب إلى outcome حقيقي؟

المقارنة مع gold standard تحتاج مراجعة

كل أداة جديدة في الباثولوجي الرقمي تُقارن عادة بالهستولوجي التقليدي. هذا منطقي إلى حد معين. لكن إذا كان المرجع نفسه ناقص الدقة، فالمقارنة تصبح فخاً. قد نرفض أداة كمية لأنها لا تطابق score بصرياً متذبذباً، رغم أنها قد تكون أقرب إلى البيولوجيا أو أكثر ارتباطاً بالنتيجة السريرية طويلة الأمد.

الهستولوجي سيبقى جزءاً مركزياً من عملنا. المطلوب هو تحديد حدوده بوضوح، والتوقف عن معاملته كأنه حقيقة مطلقة. هو نموذج. وكل نموذج يجب أن يُقاس بضجيجه، وحدوده، وقدرته على التنبؤ، وليس بسلطته التاريخية فقط.

الخلاصة

إذا أردنا endpoints أفضل في التجارب السريرية، خصوصاً في MASH والأورام، فعلينا أن نعيد تعريف ما نطلبه من الشريحة. الشريحة لا يجب أن تعطينا درجة فقط. يجب أن تعطينا قياسات مستمرة، علاقات مكانية، trajectories، ونماذج متعددة المتغيرات يمكن ربطها بما يحدث للمريض فعلاً.

السؤال لم يعد: هل الذكاء الاصطناعي وصل إلى مستوى الـ gold standard؟ السؤال الأدق: هل كان هذا الـ gold standard صلباً بما يكفي لكي نحاكم به المستقبل؟

المصدر: The Gold Standard Was Made of Clay, Beyond the Slide