نُشرت على arXiv دراسة عن PulmoFoundation، وهو نموذج ذكاء اصطناعي مخصص لباثولوجيا الرئة، ببيانات تحقق أوسع من النمط المعتاد في أوراق CPath. أهمية الورقة مرتبطة بتصميم التقييم: خزعات، مقاطع مجمدة، عينات استئصال، مؤشرات IHC، مؤشرات جزيئية، وبقاء مرضى، ثم تحقق مستقبلي وتجربة قراءة بمشاركة أطباء باثولوجيا.
داخل المختبر، تقرأ هذه الأرقام من زاوية محددة. السؤال العملي هو: هل يمكن أن يتحول النموذج إلى طبقة فرز ومساندة في نقاط محددة من مسار العمل، من دون أن يستبدل حكم الطبيب أو يخلق ثقة زائدة في مخرجاته؟ الورقة تقدم أرقاماً تسمح بنقاش مهني حول هذا السؤال.
ما الذي اختبرته الدراسة؟
اعتمد PulmoFoundation على Virchow2 ثم خضع لتدريب إضافي موجه للرئة باستخدام أكثر من 88 مليون tile مأخوذة من نحو 40 ألف شريحة H&E رقمية من 12 مصدراً مؤسسياً وعاماً. بعد ذلك اختُبر النموذج على أكثر من 26 ألف WSI ضمن 32 مهمة سريرية، مع 32 cohort داخلياً و21 cohort خارجياً من 8 مؤسسات مستقلة.
هذا الحجم لا يلغي أسئلة التحيز أو اختلاف البروتوكولات، لكنه ينقل النقاش من عرض تقني محدود إلى تقييم أقرب لمسار العمل اليومي. الورقة لا تكتفي بتصنيف صورة واحدة أو مهمة واحدة. هي تقيس أداء النموذج عبر مرحلة الخزعة، والمقطع المجمد، وتقرير الاستئصال، ثم تربطه ببعض قرارات IHC والمؤشرات الجزيئية والإنذارية.
الخزعة: بوابة القرار الأولى
في الخزعات، قيّمت الدراسة أربع مهام أساسية. حقق النموذج متوسط AUC مقداره 0.936 داخلياً و0.916 خارجياً. في التفريق بين الحميد والخبيث وصل AUC إلى 0.970 داخلياً و0.916 خارجياً. هذه النقطة مهمة لأن الخزعة غالباً تكون عينة محدودة، والقرار الأول يحدد سرعة الانتقال إلى التوصيف النسيجي وطلب الفحوص المساندة.
في التفريق بين سرطان رئة أولي ونقيلة، وصلت بعض المقارنات إلى AUC يساوي 1.000 داخل cohort محدد، لكن هذه نتيجة يجب قراءتها ضمن حدود نوع النقائل وعددها ومصدر البيانات. لا يصح تحويلها إلى وعد عام. فائدتها العملية أنها تشير إلى أن تمثيلات WSI قد تحمل إشارات مفيدة لفرز الحالات التي تحتاج مراجعة أعمق، لا أنها تغني عن السياق السريري أو لوحة IHC عند الحاجة.
المقطع المجمد: أين تظهر قيمة الوقت؟
المقطع المجمد يختبر النموذج تحت ضغط مختلف. القرار هنا سريع، والأثر الجراحي مباشر. في أربع مهام للمقاطع المجمدة حقق PulmoFoundation متوسط AUC مقداره 0.908 داخلياً و0.985 خارجياً. عند نقطة تشغيل تتطلب نوعية لا تقل عن 99%، أخطأ النموذج عدداً أقل من الحالات الخبيثة مقارنة بالنماذج المرجعية في مراكز الاختبار المذكورة في الورقة.
هنا لا تكفي كلمة “دقيق”. ما يهم الطبيب هو نمط الخطأ: هل يفوّت خباثة؟ هل يدفع الجراح نحو قرار زائد؟ هل يتعامل مع artifact التجميد؟ الدراسة تضع بعض الأرقام حول هذه الأسئلة، لكنها تبقى بحاجة إلى اختبار محلي قبل أي اعتماد سريري، لأن جودة التجميد، نوع العينات، وسلوك الفريق الجراحي تختلف بين المختبرات.
عينات الاستئصال: التصنيف والتدريج وما بعدهما
في عينات الاستئصال، اختُبر النموذج على 12 مهمة تتعلق بالتصنيف والتدريج والتقييم المرضي. شملت المهام التفريق بين الحميد والخبيث، الورم الأولي والنقائل، منشأ النقيلة، والتمييز بين adenocarcinoma وsquamous cell carcinoma. كما غطت مهاماً مرتبطة بعناصر التقرير التي تؤثر في العلاج المساعد والتوقعات.
اللافت في هذا الجزء أن النموذج لم يُعرض كأداة تعطي جواباً واحداً فقط. الاستخدام الأقرب للواقع هو طبقة قراءة ثانية تشير إلى مواضع أو احتمالات تستحق الانتباه، خصوصاً في الحالات ذات الحجم الكبير أو عند وجود تضارب بين الانطباع النسيجي ونتائج الفحوص اللاحقة. أي تطبيق فعلي يجب أن يبقى داخل نظام ضبط جودة واضح، مع تسجيل الأخطاء ومراجعتها دورياً.
IHC والمؤشرات الجزيئية: فائدة أولية لا بديل عن الاختبار
اختبرت الورقة قدرة النموذج على استنتاج مؤشرات من H&E، منها TTF-1 وNapsin-A وCK7 وP40 وP63، إضافة إلى Ki-67 وبعض المؤشرات الجزيئية ونتائج البقاء. على سبيل المثال، حقق TTF-1 داخلياً AUC مقداره 0.923، وNapsin-A مقدار 0.936، وCK7 مقدار 0.899، مع أرقام أعلى في cohort خارجي مذكور في الورقة.
هذه النتائج لا تعني إلغاء الصبغات. القراءة المهنية الأفضل أنها قد تساعد في ترتيب العمل: أي الحالات تبدو واضحة بما يكفي لتقليل طلب غير منتج؟ وأي الحالات تحتاج تأكيداً سريعاً؟ في التحقق المستقبلي، اقترحت الدراسة أن النظام قد يؤجل 44.5% من طلبات IHC ضمن عتبات أمان مسبقة، مع PPV مجمع 0.966 للوحة المؤشرات. هذا رقم مهم، لكنه يتطلب تعريفاً محلياً لما يعنيه “تأجيل” الطلب: هل هو عدم طلب الصبغة إطلاقاً، أم انتظار مراجعة الطبيب، أم توصية داخلية تظهر في واجهة العمل؟
التحقق المستقبلي وتجربة الأطباء
الجزء الأقوى في الورقة هو التحقق المستقبلي على 1,357 مريضاً متتالياً عبر 11 مهمة في ممارسة روتينية. حقق النموذج متوسط AUC مقداره 0.923. كما اقترحت عتبات الفرز أن النظام قد يقلل عبء المراجعة الثانية في 68.8% من الخزعات و83.0% من المقاطع المجمدة، مع PPV مقداره 1.000 و0.991 على الترتيب.
أجرت الدراسة أيضاً تجربة عشوائية بنمط crossover شارك فيها ثمانية أطباء باثولوجيا عبر 4,928 زوج حالة وقارئ. ارتفعت الدقة مع المساعدة من 83.8% إلى 91.7%، وانخفض زمن التشخيص الوسيط 19.6%، وزادت الثقة التشخيصية 8.7%، وتحسن الاتفاق بين القراء من κ=0.56 إلى κ=0.76. هذه أرقام قوية، لكن عدد الأطباء محدود، ويجب الانتباه إلى أثر واجهة العرض وطريقة إظهار نتيجة النموذج، لأنهما قد يغيران سلوك القارئ بقدر ما يغيره النموذج نفسه.
خطر الانحياز إلى الآلة
لم تتجاهل الورقة خطر automation bias. من بين 4,928 ملاحظة بمساعدة الذكاء الاصطناعي، حدث فقدان دقة بعد ظهور نتيجة النموذج في 0.5% من الملاحظات، وحدث ضرر صارم ناتج عن تبني خطأ النموذج في 0.1%. هذه النسب صغيرة، لكنها ليست صفراً، وهي تذكير بأن أي نظام مساند يحتاج إلى تصميم واجهة يمنع قبول النتيجة كحقيقة نهائية.
عملياً، أفضل مكان لمثل هذه الأداة قد يكون في الفرز، ضبط الأولويات، واكتشاف الحالات التي تستحق مراجعة ثانية، لا في إصدار تشخيص مستقل. المختبر الذي يفكر في هذا النوع من الحلول يحتاج إلى اختبار داخلي على أرشيفه، ثم تشغيل صامت، ثم مقارنة مع نتائج الأطباء والفحوص اللاحقة قبل أي إدخال في المسار السريري.
ماذا يعني ذلك للمختبر؟
تقدم PulmoFoundation مثالاً على اتجاه أكثر نضجاً في تقييم نماذج الباثولوجيا الرقمية: مهام متعددة، cohorts خارجية، تحقق مستقبلي، وتجربة قارئ. هذا لا يجعل النموذج جاهزاً لكل مختبر. يجعل الورقة مادة جيدة لتحديد معايير التقييم التي يجب أن نطلبها من أي مورد أو فريق بحثي: أداء حسب نوع العينة، عتبات تشغيل مسبقة، تحليل للخطأ، قياس تأثير الوقت، ورصد الانحياز إلى النتيجة الآلية.
مصدر الورقة: arXiv:2605.25878