قراءة رقمية في تحقق PD-L1 قبل التنظيم: أين يظل قرار اختصاصي الأمراض ضرورياً؟

لماذا تهم هذه الدراسة لاختصاصي الأمراض؟

اختبار PD-L1 في سرطان الرئة ليس تمريناً رقمياً بسيطاً. النتيجة التي نكتبها في التقرير قد تغيّر مسار العلاج المناعي، خصوصاً عند العتبات المعروفة: أقل من 1%، والفئة المتوسطة، و50% فأكثر. لذلك فإن أي أداة رقمية تقترح حساب Tumour Proportion Score يجب أن تُقرأ من زاوية الممارسة اليومية: أين تساعد؟ وأين يجب أن تتوقف؟

المقال الذي نشرته Pathology News يعرض ملخص دراسة مفتوحة على PubMed Central بعنوان AI driven pre-regulatory validation of PD-L1 analysis in lung cancer. الدراسة ليست إعلاناً عن بديل لاختصاصي الأمراض. قيمتها أنها تختبر مساراً عملياً لأداة تعلم عميق تساعد في تقدير TPS، ثم تعيد الحالات القريبة من عتبات القرار إلى المراجعة اليدوية. هذا فرق مهم.

في المختبر الحقيقي، المشكلة لا تكون في الحالة الواضحة فقط. المشكلة في الشريحة التي تقف على الحافة: هل هي أقل من 1% أم أعلى بقليل؟ هل تقع حول 50% أم داخل منطقة 40 إلى 60% التي يصعب حسمها بثقة؟ هنا يصبح التصميم الرقمي الجيد مفيداً، بشرط أن يحترم حدود الفحص وحدود الصورة وحدود العينة.

ما الذي فعله الفريق؟

استخدم الباحثون 1100 صورة رقمية مجهولة الهوية لصبغة PD-L1 في عينات NSCLC مثبتة بالفورمالين ومطمورة بالبارافين، مع 1100 صورة H&E مقابلة. جاءت الحالات من سير عمل تشخيصي روتيني في أيرلندا الشمالية، وشملت adenocarcinoma وsquamous cell carcinoma، من خزعات واستئصالات. استُخدم اختبار Ventana Roche SP263، ومُسحت الشرائح على Aperio AT2 بصيغة SVS.

للتدريب والاختبار، احتُفظت مجموعة من 396 حالة لتطوير النموذج. قُسمت إلى تدريب بنسبة 65%، وتحقق بنسبة 16%، واختبار بنسبة 19%. ومن بين هذه الحالات، وُجدت 131 حالة بين 1 و49%، و127 حالة عند 50% فأكثر. هذه التفاصيل مهمة لأن أداة TPS لا تُختبر جيداً إذا غابت عنها الحالات التي تقع قرب عتبات التقرير.

النموذج اعتمد على U-Net مع backbone من نوع ResNet34. الهدف لم يكن إخراج درجة إجمالية فقط، بل تقسيم الخلايا الورمية إلى خلايا إيجابية وسلبية مع استبعاد الخلفية. استخدم الفريق weighted cross entropy، ومعدل تعلم 0.0001، وتدريباً امتد إلى 100 epoch مع تدوير الصور وقلبها أفقياً وعمودياً. هذه ليست تفاصيل تقنية للزينة، بل جزء من تقييم قابلية النموذج للتكرار والفحص قبل أي استعمال سريري.

الأرقام التي يجب قراءتها بحذر

على مستوى البكسل، سجّل النموذج دقة 93.08%، وحساسية 74.62%، ونوعية 93.71%. وعلى مستوى الأجسام الخلوية، بلغت الدقة الإيجابية 94.58%، والاستدعاء 81.36%. هذه أرقام جيدة، لكنها لا تكفي وحدها لاختبار PD-L1. اختصاصي الأمراض لا يقرر العلاج من pixel accuracy، بل من فئة تقرير لها أثر مباشر على المريض.

لذلك اختبر الباحثون التطابق مع TPS على مستوى الحالة. في عينة أولية مستقلة من 30 صورة، نصفها adenocarcinoma ونصفها squamous cell carcinoma، كان معامل الارتباط بين تقدير اختصاصي الأمراض ودرجة النموذج 96.97%. هذه نتيجة مشجعة، لكنها ليست نهاية القصة. فالمناطق الحدية بقيت هي موضع الضغط الحقيقي.

عند تقسيم النتائج إلى ثلاث فئات TPS، كانت الدقة المعلنة 47.16% في فئة أقل من 1%، و95% في فئة 1 إلى 49%، و95% في فئة أعلى من 50%. وعند تقسيمها إلى أربع فئات أدق، أصبحت النتائج 88.3% لأقل من 4.9%، و90.90% بين 5 و39.99%، و66.67% بين 40 و59.99%، و71.43% لأعلى من 60%. الرقم الذي ينبغي أن يلفت انتباهنا هو 66.67% حول 40 إلى 60%. هذه منطقة قرار علاجية، وليست هامشاً إحصائياً.

القيمة العملية: تصعيد الحالات الصعبة لا إخفاؤها

التصميم السريري المقترح يعامل الحالات القريبة من 1% و50% كحالات تحتاج مراجعة اختصاصي الأمراض. هذا هو الجزء الأهم في الدراسة. الأداة لا تُستخدم كي تطمس الشك، بل كي تكشفه وتوجهه إلى الشخص المسؤول عن التقرير.

تصف الدراسة سير عمل يحتفظ بالإنسان داخل الحلقة. يمكن لاختصاصي الأمراض رفع صورة H&E ومراجعتها إلى جانب IHC، وتحديد ROI، وتشغيل الخوارزمية، ثم فحص النتائج على overlay يوضح الخلايا التي عدّها النموذج إيجابية أو سلبية. بهذه الطريقة يصبح الرقم قابلاً للمراجعة، لا صندوقاً أسود يضيف TPS إلى التقرير دون تفسير بصري.

وجود H&E بجانب IHC ليس تفصيلاً صغيراً. في PD-L1، قد تكون macrophages قريبة من الخلايا الورمية، وقد تربك القراءة إذا انفصلت الصورة الملونة عن البنية النسيجية. استخدم الفريق multiplex immunofluorescence تشمل PD-L1 وCD68 وcytokeratin للتحقق من الحقيقة الأرضية في المناطق القريبة من العتبات. هذا اختيار مناسب لأن الخلاف في PD-L1 لا يتعلق دائماً بشدة اللون، بل أحياناً بهوية الخلية التي تحمل الإشارة.

ما الذي يعنيه ذلك للمختبر؟

إذا فكر مختبر في اعتماد أداة مشابهة، فلا ينبغي أن يبدأ بالسؤال: هل تحسب الخوارزمية TPS؟ السؤال الأدق: ما الحالات التي تحيلها إلى المراجعة؟ كيف تُعرّف عدم الثقة؟ هل يمكن تعديل ROI؟ هل يرى اختصاصي الأمراض overlay خلوي واضحاً؟ وهل تُحفظ خطوات المراجعة ضمن نظام جودة يمكن تدقيقه؟

الدراسة تشير أيضاً إلى جانب تنظيمي لا يقل أهمية عن الأداء. جرى نقل الخوارزمية إلى منتج تحت نظام جودة ISO 13485، مع وثائق تخص التخطيط، وتعريف الغرض المقصود، وإجراءات annotation، والمعالجة المسبقة، وتحليل المخاطر. بالنسبة لاختصاصي الأمراض، هذه ليست أوراقاً إدارية فقط. هي التي تحدد من يتحمل القرار، وكيف تُدار الأخطاء، وما الذي يحدث عندما تواجه الأداة حالة خارج نطاق التدريب.

هناك نقطة أخرى يجب عدم تجاهلها: الأمن السيبراني. إذا كانت الأداة سحابية أو متصلة بسير عمل رقمي، فالمخاطر لا تقتصر على توقف الخدمة. هناك احتمال تلاعب بالمدخلات أو بالمخرجات أو بالإحداثيات التي تظهر على overlay. الدراسة تربط ذلك بتقييم المخاطر ضمن EN ISO 14971 وIVDR. هذا النوع من التفكير يجب أن يصبح جزءاً من نقاش أي مختبر قبل التشغيل، لا بعد أول حادثة.

قراءة نقدية مختصرة

أرى أن قوة الدراسة في اعترافها بالمناطق التي لا ينبغي تركها للخوارزمية وحدها. النتائج العالية في بعض الفئات مفيدة، لكن الاختبار الحقيقي هو ما يحدث قرب عتبات العلاج. وهنا اختار الفريق مساراً معقولاً: تأكيد بشري للحالات الواضحة، ومراجعة يدوية للحالات الحدية، ودعم بصري يسمح بفهم سبب الدرجة.

في المقابل، يجب أن ننتبه إلى حدود البيانات. المجموعة جاءت من مصدر إقليمي محدد، باستخدام assay وماسح وسير عمل معروفين. نقل الأداء إلى مختبر آخر يحتاج تحققاً محلياً: صبغات مختلفة، ماسحات مختلفة، اختلافات في التقطيع، وتباين في نمط اختيار ROI. لا توجد أداة PD-L1 رقمية تعبر هذه الفروقات بمجرد تثبيتها على الخادم.

الخلاصة العملية لا تحتاج تضخيماً: أدوات AI في PD-L1 ستكون مفيدة عندما تُصمم لخدمة قرار اختصاصي الأمراض، لا عندما تُباع كاختصار للتقرير. أفضل استعمال أولي لها قد يكون في كشف الحالات القريبة من العتبات، وتقديم قراءة ثانية مرئية، وتوحيد النقاش داخل القسم حول الحالات الصعبة. بعدها فقط يمكن الحديث عن توسع أوسع في سير العمل.

المصدر

Pathology News: AI driven pre-regulatory validation of PD-L1 analysis in lung cancer