تقدير خطر التحول الخبيث في الآفات الفموية المحتملة الخباثة يبقى من أكثر مناطق الباثولوجيا الفموية حساسية في القرار السريري. العينة قد تحمل ملامح dysplasia واضحة، لكن السؤال العملي للطبيب المعالج لا يتوقف عند درجة WHO وحدها. هل هذه الآفة مرشحة للتحول إلى oral squamous cell carcinoma خلال المتابعة؟ وهل يكفي تصنيف mild أو moderate أو severe لتحديد شدة التدخل؟
الدراسة المنشورة في npj Digital Medicine بعنوان AI-driven prediction of progression to oral squamous cell carcinoma using a multiresolution pathology model تضع هذا السؤال مباشرة على طاولة الباثولوجي. فريق من Rutgers Health وUPMC طور نموذج Vision Transformer متعدد التكبير للتنبؤ بالتحول إلى سرطان حرشفي فموي اعتمادا على WSI من آفات فموية سابقة للخباثة. الأهم في الورقة أن الهدف لم يكن كشف سرطان موجود، بل تقدير خطر تطور آفة تبدو، في لحظة التشخيص، ضمن طيف dysplasia أو keratosis أو hyperplasia.
ما الذي اختبرته الدراسة؟
اعتمدت الدراسة على 221 حالة رقمية، 111 حالة تحولت لاحقا إلى سرطان و110 حالات لم تتحول. هذا التوازن بين progressors وnon-progressors مهم لأنه يمنع النموذج من التعلم على توزيع منحاز بشدة نحو فئة واحدة. استخدم الباحثون شرائح ممسوحة بجهاز Aperio AT2، ثم حددوا مناطق الظهارة الفموية كـ ROI قبل تقسيمها إلى patches بأحجام 224 × 224 أو 512 × 512 بكسل.
الفكرة التقنية الأساسية كانت قراءة الشريحة عبر أكثر من تكبير: 10x و20x و40x. هذا يحاكي نمط القراءة التشخيصية المعتاد، حيث يبدأ الباثولوجي من المعمار العام ثم ينتقل إلى التفاصيل النووية والخلوية. النموذج الأفضل استخدم Dinov2 ضمن بنية Vision Transformer متعددة الفروع. للمقارنة، اختبر الباحثون VGG16 وInceptionV3 وResNet50، وكانت نماذج ViT أفضل في معظم المقاييس، خاصة في specificity مقارنة بنماذج CNN التي عانت من انخفاض واضح رغم ضبط المعاملات.
الأرقام التي تهم الباثولوجي
على مجموعة اختبار مستقلة من 50 WSI من ثلاث مؤسسات، وصل النموذج إلى AUROC قدره 0.798، ودقة 80.0%، وF1-score قدره 0.773. كانت precision للنموذج 0.739، وهي أعلى من القيمة التنبؤية الإيجابية المذكورة في الدراسة لنظام grading التقليدي عند severe dysplasia، حيث تصل إلى 0.5 في المراجع التي ناقشها الباحثون.
المقارنة مع قراءة الباثولوجيين جاءت أكثر قربا من الممارسة اليومية. جمع الباحثون درجات ثلاثة باثولوجيين وحولوها إلى تصنيف ثنائي: high-grade أو high-risk عند moderate إلى severe dysplasia، وlow-grade أو low-risk عند mild dysplasia. نموذج ViT تفوق على هذا التصنيف الثنائي في precision بواقع 0.739 مقابل 0.696، وفي sensitivity بواقع 0.810 مقابل 0.762. هذه فروق لا تكفي وحدها لإدخال النموذج إلى العيادة، لكنها تكفي لجعل الورقة مادة جادة للنقاش داخل أقسام الباثولوجيا الفموية.
العلاقة مع ملامح WHO ليست تفصيلا جانبيا
الجزء الأجمل في الدراسة ليس رقم AUROC وحده. الباحثون طلبوا من ثلاثة باثولوجيين تقييم 24 ملمحا نسيجيا معروفا في dysplasia، ثم قارنوا هذه الملامح مع التحول الحقيقي ومع تنبؤ النموذج. ظهرت ثمانية ملامح بتواتر أعلى في الحالات التي تحولت، وكانت مرتبطة أيضا بتنبؤات الذكاء الاصطناعي.
أربعة ملامح كانت شديدة الارتباط بالتحول وبقراءة النموذج: karyorrhectic أو apoptotic cells، وsingle-cell keratinization، وpremature keratinization، وارتفاع نسبة N:C. هذه النقطة تمنح الدراسة قيمة تفسيرية نسبية. النموذج لم ينتج نتيجة رقمية منفصلة عن اللغة النسيجية التي يستخدمها الباثولوجي، بل اقترب من ملامح نعرفها ونكتبها ونختلف أحيانا في وزنها داخل التقرير.
كما أن الحالات التي صنفها النموذج كـ progressors حملت متوسط dysplasia score أعلى من non-progressors، 2.17 مقابل 1.24، مع p أقل من 0.001. هذه النتيجة لا تعني أن النموذج يعيد إنتاج grading فقط. تعني أن الإشارة التي يلتقطها النموذج تتقاطع مع grading، ثم تضيف طبقة احتمالية مرتبطة بالنتيجة السريرية.
ما الذي يجب أن يحذر منه القسم قبل التفكير في التطبيق؟
التصميم استعادي. حجم الاختبار 50 شريحة فقط. الشرائح الخام غير متاحة للمشاركة لأسباب أخلاقية ومرتبطة بالموافقات، والكود موعود بإتاحته على Zenodo عند النشر. هذه حدود عملية لأي قسم يريد إعادة الاختبار محليا. كما أن اختيار العتبة كان مبنيا على مجموعة validation، والعتبة المختارة 0.38 يمكن رفعها أو خفضها حسب الهدف السريري، سواء كان تقليل الفائت أو تقليل التدخل الزائد.
قرار التدخل في آفات الفم لا يقوم على الشريحة وحدها. الموقع، حجم الآفة، استمرارها، عوامل الخطورة، وقرار الجراح أو طبيب الفم كلها تدخل في المعادلة. لذلك، القراءة الصحيحة لهذه الدراسة أن النموذج قد يصلح كأداة stratification مساعدة داخل مسار واضح، مع حفظ القرار النهائي ضمن اجتماع سريري مرضي محدد. لا يصلح أن يتحول الرقم إلى بديل عن تقرير باثولوجي دقيق أو عن مراجعة الحالات الحدودية.
كيف يمكن أن يتغير التقرير؟
إذا تكررت هذه النتائج على مجموعات أكبر ومتعددة المراكز، فقد نرى تقارير لآفات الفم تتضمن grading تقليديا، وتعليقا على ملامح معينة ذات صلة بالتحول، وربما درجة خطر رقمية مستخرجة من WSI. هذا لن يختصر دور الباثولوجي. سيزيد الحاجة إلى ضبط ما يدخل في النموذج: جودة المسح، تحديد ROI، تمثيل الظهارة، استبعاد المناطق غير الملائمة، ومراقبة drift بين الماسحات والمختبرات.
القيمة العملية هنا أن الورقة تنقل النقاش من سؤال بسيط عن قدرة الذكاء الاصطناعي على تصنيف الصور إلى سؤال أصعب: هل تستطيع الصورة النسيجية أن تحمل إشارة إنذارية قابلة للقياس قبل ظهور السرطان؟ هذه هي المساحة التي تهم الباثولوجي. الورقة تقدم اختبارا مباشرا لفكرة أن بعض ملامح الخطر الموجودة في H&E قد تكون موزعة على الشريحة بطريقة يعجز grading التقليدي عن تلخيصها بدقة.
قراءة مصطفى
هذه دراسة جيدة لأنها لا تعد بأتمتة التشخيص ولا تبيع وهما عن استبدال الباثولوجي. قوتها في اختيار endpoint صعب، malignant transformation، وفي ربط تنبؤات النموذج بملامح نسيجية مفهومة. ضعفها في الحجم والتصميم الاستعادي والحاجة إلى تحقق خارجي واسع.
لأقسام الباثولوجيا، الرسالة واضحة: لا يكفي أن نسأل عن accuracy. نحتاج أن نسأل عن تعريف outcome، وطريقة تقسيم الحالات، ومنع data leakage، وثبات الأداء بين المؤسسات، وكيف سيؤثر threshold على قرار جراحي حقيقي. هذه الأسئلة هي التي ستحدد إن كان نموذج مثل هذا سيبقى ورقة بحثية جيدة، أو يصبح أداة قابلة للتقييم داخل مسار تشخيصي منضبط.