المشكلة تبدأ من عينة نادرة على قائمة العمل
تخيل طبيب الباثولوجي أمام يوم مزدحم: عينات Breast وLung وKidney كثيرة، ومعها حالة Mesothelioma أو Cholangiocarcinoma تظهر مرة كل فترة. في التدريب اليومي، الطبيب يعرف أن ندرة الحالة تغيّر طريقة القراءة. تحتاج مراجعة أهدأ، مقارنة أدق مع الصورة السريرية، واسترجاع نمط لغوي محدد في التقرير.
الشيء نفسه يحدث مع AI model عندما يتعلم من WSI وتقارير نصية. إذا كانت معظم البيانات من أعضاء شائعة، يميل النموذج إلى التقاط أنماطها البصرية واللغوية. عند وصول عضو قليل التمثيل، قد ينتج تقريرا يبدو مقنعا لغويا، مع أن منطقه الداخلي متأثر بحالات أكثر شيوعا. هذه نقطة حساسة في الباثولوجي الرقمي، لأن التقرير النهائي لا يقاس بجمال الجملة. يقاس بمدى ارتباطه بما يراه الطبيب على الشريحة وما يعرفه عن العضو والسياق السريري.
ماذا درست ورقة PriOrGen؟
الورقة المنشورة على arXiv في 1 تموز 2026 بعنوان Prior-Anchored Debiasing for Long-Tailed Multi-Organ Pathology Report Generation تقترح إطارا باسم PriOrGen لتوليد تقارير باثولوجية من WSI في إعداد متعدد الأعضاء. الفريق من City University of Hong Kong وUniversity of Nottingham وUniversity of Massachusetts Boston، والكود متاح عبر GitHub حسب نص الورقة.
الفكرة العملية بسيطة: نماذج توليد التقارير لا تواجه عضوا واحدا في المختبر. المختبر يرى طيفا من الأعضاء والأورام، وبعضها حاضر بكثرة وبعضها نادر. لذلك بنى الباحثون مجموعة ML-Path من 4686 زوجا من WSI والتقرير المقابل، مأخوذة من 11 نوع سرطان من TCGA. قسموا الأعضاء إلى ثلاث مجموعات حسب عدد العينات: Head مثل BRCA وLUNG وKIDNEY بعدد يقارب 879 إلى 977 عينة لكل نوع، Medium مثل THCA وCOAD وSTAD وLIHC بعدد 365 إلى 504 عينة، وTail مثل MESO وACC وDLBC وCHOL بعدد 38 إلى 60 عينة.
هذا التوزيع يهم طبيب الباثولوجي أكثر من رقم الأداء العام. متوسط النموذج قد يبدو جيدا، بينما تكون أخطاؤه مركزة في الحالات التي يحتاج فيها الطبيب إلى أكبر قدر من الحذر.
نوعان من الانحياز داخل النموذج
تصف الورقة مشكلتين. الأولى في تمثيل الصورة. Encoder يتعلم features من WSI، ومع كثرة العينات الشائعة يصبح أكثر حساسية لأنماطها. هذا قد يضعف التقاط التفاصيل التي تميز الأعضاء قليلة العدد. الباحثون يسمون ذلك visual representation bias.
الثانية في اللغة. Decoder يتعلم طريقة كتابة التقارير من النصوص المتاحة. عندما تهيمن تقارير أعضاء معينة على التدريب، قد يكرر النموذج تراكيبها ونمطها حتى في عضو آخر. هذا أخطر من خطأ لغوي عادي، لأنه قد يعطي تقريرا منظما ظاهريا مع انزياح في الوصف أو الأولويات التشخيصية. الورقة تسميه textual decoding bias.
في المختبر، هذه المشكلات تظهر كعبء مراجعة. إذا كان AI model يقترح مسودة تقرير أو وصفا آليا، يحتاج طبيب الباثولوجي إلى معرفة أين يميل النموذج إلى الخطأ: في feature extraction، في اختيار العبارات، أو في ربط الاثنين.
كيف حاول PriOrGen تقليل الانحياز؟
استخدم الباحثون وحدتين رئيسيتين. Visual-Prototype Anchored Bottleneck يحاول إجبار النموذج على الاحتفاظ بالمعلومات البصرية ذات العلاقة بالتشخيص، مع تقليل المعلومات المتكررة القادمة من الفئات الشائعة. في التطبيق، قُسمت كل WSI إلى patches غير متداخلة بحجم 256 في 256 عند تكبير 10x باستخدام CLAM، ثم استخرجت features بواسطة UNI.
الوحدة الثانية هي Meta-Report Anchored Bank. هنا يسترجع النموذج prior نصيا خاصا بالعضو، مستمدا من قوالب أو تمثيلات تقريرية قريبة من العضو المطلوب. الهدف أن يبقى النص المقترح منسجما مع عضو الحالة، بدل أن ينساق خلف طريقة كتابة شائعة في Breast أو Lung مثلا.
هذه التفاصيل مهمة عند التفكير في إدخال أي مولد تقرير إلى workflow حقيقي. الطبيب لا يحتاج إلى صندوق أسود ينتج فقرة جاهزة. يحتاج إلى نظام يبين علاقته بالعضو، يحترم التوزيع غير المتوازن، ويترك مجالا واضحا للمراجعة الطبية.
الأرقام التي تستحق أن يراها طبيب الباثولوجي
اختبرت الورقة PriOrGen أمام نماذج مثل CNN-RNN وatt-LSTM وTransformer وWsicaption وHistoCap وR2Gen وR2GenCMN وBiGen. استخدمت مقاييس BLEU-Mean وMETEOR وROUGE-L، وهي مقاييس لغوية تقارن النص الناتج بالتقرير المرجعي. لا تعادل هذه المقاييس صحة التشخيص، لكنها تساعد في مقارنة نماذج توليد النص.
على متوسط الأعضاء الأحد عشر، حقق PriOrGen قيمة 0.273 في BLEU-Mean و0.181 في METEOR و0.305 في ROUGE-L. للمقارنة، سجل BiGen قيمة 0.268 و0.172 و0.297 على المقاييس نفسها. الفارق الأوضح ظهر في مجموعة Tail ضمن دراسة ablation، حيث انتقل METEOR من 0.121 في baseline إلى 0.141 عند جمع الوحدتين، وارتفع ROUGE-L من 0.240 إلى 0.264.
لا ينبغي قراءة هذه الأرقام كتصريح جاهزية سريرية. المجموعة مبنية من TCGA، والتقييم لغوي، ولا توجد في الورقة دراسة reader study مع باثولوجست أو قياس تأثير على زمن التقرير أو معدل تعديل الطبيب للمسودة. مع ذلك، الأرقام تضع إصبعا على موضع مهم: تحسن المتوسط وحده قد يخفي أداء ضعيفا في الأعضاء قليلة العدد.
أين يدخل هذا في workflow المختبر؟
إذا ظهر هذا النوع من النماذج داخل LIS أو image management system، فالمكان الآمن له سيكون في مرحلة مساعدة الطبيب، لا في إنتاج تقرير مستقل. يمكنه اقتراح مسودة وصفية، تلخيص مناطق WSI التي أثرت في النص، أو تذكير الطبيب ببنية تقرير خاصة بعضو معين. القرار النهائي يبقى مع طبيب الباثولوجي، خصوصا في حالات Tail التي تملك بيانات تدريب أقل.
قبل أي استخدام محلي، يحتاج المختبر إلى اختبار منفصل حسب العضو، وليس تقرير أداء واحد لكل الحالات. ينبغي مراجعة أداء النموذج في الأعضاء النادرة، الحالات المختلطة، العينات ذات artifact، والشرائح التي تختلف عن بيانات TCGA في التحضير أو scanner أو staining. ويجب قياس شيء عملي: كم جملة عدلها الطبيب؟ أين ظهرت الأخطاء؟ هل أخطأ النموذج في morphology، أم في لغة التقرير، أم في ترتيب المعلومات؟
هناك جانب آخر يخص الحوكمة. أي مسودة AI تدخل التقرير يجب أن تترك audit trail واضحا: نسخة النص المقترح، تعديلات الطبيب، زمن التعديل، وإشارة إلى حدود النموذج. هذا ليس عبئا إداريا زائدا. هو جزء من حماية التقرير عندما تصبح أدوات توليد النص قريبة من العمل التشخيصي.
ما الرسالة العملية من هذه الورقة؟
PriOrGen لا يحل مشكلة توليد تقارير الباثولوجي من WSI بشكل نهائي. قيمته في أنه ينقل النقاش من سؤال عام عن دقة AI إلى سؤال أكثر فائدة للمختبر: كيف يتصرف النموذج عندما تكون بيانات التدريب غير متوازنة بين الأعضاء؟
بالنسبة لطبيب الباثولوجي، هذا يعني أن تقييم أدوات توليد التقارير يجب أن يكون عضوا بعضو وحالة بحالة. الأداء على Breast أو Lung لا يكفي للحكم على Mesothelioma أو ACC أو CHOL. وإذا كان النظام سيقترح نصا داخل workflow، فيجب أن يكشف ضعفه في الحالات قليلة العدد قبل أن يراه الطبيب على شكل فقرة مرتبة تبدو مطمئنة.
الباثولوجي الرقمي سيستفيد من AI models التي تعرف حدودها بقدر ما تستفيد من النماذج الأعلى رقما. الورقة تذكير جيد بأن عدالة الأداء بين الأعضاء ليست تفصيلا بحثيا. هي شرط عملي قبل أن يتحول توليد التقارير من تجربة إلى أداة يومية في المختبر.