من إشارة نسيجية إلى قرار علاجي: أين تتعطل أدوات الذكاء الاصطناعي؟ - الباثولوجي الرقمي

المقال المنشور في Beyond the Slide عن “The Translation Gap” يطرح مشكلة يعرفها كثير من اختصاصيي الأمراض من داخل المختبر، لا من قاعات المؤتمرات: يمكن أن تكون الإشارة البيولوجية صحيحة، والصورة المكانية مقنعة، والتحقق النسيجي موجوداً، ثم يتوقف كل شيء عند نقطة أبسط من الخوارزمية. عينة ملوثة، دورة عمل بطيئة، نظام معلومات لا يعرف ماذا يفعل بالنتيجة، أو فريق سريري لا يتلقى المعلومة في الوقت المناسب.

هذه ليست مشكلة تخص شركات التقنية وحدها. في علم الأمراض الرقمي، وفي التحاليل المكانية، وفي نماذج التنبؤ المعتمدة على WSI، تتكرر القصة نفسها. ننتج إشارات أكثر دقة مما تستطيع المؤسسة السريرية امتصاصه. الفجوة هنا لا تقع بين المختبر والمريض فقط. تقع داخل المؤسسة نفسها، بين الاكتشاف والتحقق، بين التحقق والتقرير، وبين التقرير والقرار العلاجي.

المؤشر الحيوي لا يكفي إذا بقي خارج مسار العمل

يبدأ المقال بحالة مألوفة: مجموعة تعمل على بيانات spatial transcriptomics لما يقارب عشرين عينة، مع توقيع حيوي واضح، ارتباطات تاريخية، وتأكيد بـ IHC. الورقة العلمية شبه جاهزة، لكن العينة الأخيرة تتلوث. النتيجة لا تنهار علمياً، لكنها تتعطل عملياً. الانتظار لشهر إضافي قد يبدو تفصيلاً صغيراً في مشروع بحثي، لكنه في التطوير السريري يعني تأخيراً في قرار، وتغييراً في جدول تجربة، وربما فقدان نافذة زمنية لا تعود.

اختصاصي الأمراض يلاحظ هذا النمط بسرعة، لأنه يعيش يومياً بين جودة العينة، زمن التحضير، حدود النظام، وسؤال الطبيب السريري: هل يمكنني استخدام هذه النتيجة الآن؟ التقنية قد تكون ممتازة، لكن القرار الطبي لا ينتظر الورقة العلمية. القرار يحتاج نتيجة مفهومة، موثقة، قابلة للإدخال في التقرير أو لوحة الأورام، ومتصلة بخطوة علاجية محددة.

الطب بُني على اختزال الإشارات

الطب السريري اعتاد تحويل البيولوجيا المعقدة إلى فئات قابلة للتنفيذ. TNM، Gleason، درجات التعبير في IHC، حدود القطع في التحاليل المخبرية، وتصنيفات الاستجابة. هذه ليست بساطة ساذجة. إنها طريقة عمل ضرورية، لأن الطبيب يحتاج قراراً داخل زمن محدود.

المشكلة أن الذكاء الاصطناعي والبيولوجيا المكانية ينتجان نوعاً آخر من الإشارات. نحن لا نتعامل فقط مع موجب وسالب، أو منخفض ومرتفع. نتعامل مع آلاف الجينات في موضعها النسيجي، مع علاقات بين الخلايا المناعية واللحمة، ومع نماذج تتعلم من ملايين الرقع النسيجية وتعيد درجة خطورة أو احتمال استجابة. هذه النتائج لا تدخل بسهولة في قوالب التقرير القديمة.

وهنا يظهر السؤال العملي: أين ستظهر النتيجة؟ في تقرير علم الأمراض؟ في نظام الـ LIS؟ في الـ EHR؟ في لوحة الأورام؟ ومن يتحمل مسؤولية تفسيرها عندما تختلف عن الانطباع النسيجي التقليدي أو عن مؤشر منفرد مثل p53 أو Ki-67؟

أمثلة الفشل لا تعني أن الخوارزميات بلا قيمة

يعرض المقال أمثلة من خارج علم الأمراض لكنها مهمة لنا. نموذج Epic للتنبؤ بالإنتان أظهر AUC داخلياً قدره 0.83، ثم كشف تحقق خارجي في جامعة ميشيغان أن الحساسية في الواقع كانت 33%. المشكلة لم تكن رقماً فقط، بل نظام تنبيهات أنتج إنذارات كثيرة حتى بدأ العاملون بتجاهله.

IBM Watson for Oncology مثال آخر. الهدف كان تقديم توصيات علاجية شخصية في الأورام، لكن التدريب على حالات افتراضية لا يساوي التعامل مع مرضى حقيقيين بتباينهم السريري والنسيجي والجزيئي. عند التقييم في مركز السرطان الوطني الدنماركي، توافق Watson مع الحكم السريري المحلي في 33% فقط من الحالات. الرقم مؤلم، لكنه يوضح نقطة أساسية: النموذج الذي لا يعرف بيئة الاستخدام سيتعثر عند أول احتكاك حقيقي بها.

أما تجربة Google Health لفحص اعتلال الشبكية السكري في تايلند فأقرب إلى علم الأمراض الرقمي مما تبدو. أداء الخوارزمية كان عالياً، لكن اختلاف الإضاءة وأجهزة التصوير أدى إلى رفض أكثر من 20% من الصور باعتبارها غير صالحة. النتيجة: إعادة تصوير، ازدحام، وتباطؤ في العمل. في المختبر النسيجي يمكن أن يحدث الشيء نفسه مع اختلاف الماسحات، سماكة القطع، جودة التلوين، أو طريقة اختيار المناطق.

المشكلة في علم الأمراض الرقمي غالباً تشغيلية

في مشاريع WSI، نميل إلى سؤال النموذج عن الدقة أولاً. هذا منطقي، لكنه غير كاف. السؤال التالي أهم داخل المختبر: هل تعمل النتيجة ضمن زمن العمل اليومي؟ إذا كان النموذج يحتاج إعادة مسح، أو ينتج قائمة إنذارات طويلة، أو يطلب من الاختصاصي فتح منصة منفصلة، فإن احتمال تركه على الهامش يرتفع حتى لو كان أداؤه الإحصائي جيداً.

الاعتماد السريري يحتاج سلسلة مكتملة. عينة مناسبة، مسح ثابت، مراقبة جودة، نموذج محدد الإصدار، سجل تدقيق، مخرجات واضحة، طريقة اعتراض أو قبول من قبل الاختصاصي، وربط بالقرار السريري. كل حلقة ضعيفة تضيف احتكاكاً. ومع تكرار الاحتكاك، يتحول النظام من أداة مساعدة إلى عبء إداري.

هذا مهم خصوصاً في المؤشرات المركبة: توقيع مكاني يتنبأ بالاستجابة، نموذج يقدر البقاء اعتماداً على WSI والجينوم، أو خريطة تفاعل بين الخلايا في بيئة الورم. إذا لم يعرف الفريق أين يضع هذه النتيجة في مسار المريض، ستبقى نتيجة جميلة في عرض تقديمي أو ملحق بحثي.

ماذا يعني ذلك لاختصاصي الأمراض؟

الدور المهني لا يقتصر على مراجعة الصور أو الموافقة على نتيجة نموذج. اختصاصي الأمراض يجب أن يكون جزءاً من تصميم مسار الاستخدام منذ البداية. ما نوع العينة المقبول؟ ما حد فشل المسح؟ ما شكل المخرج الذي يمكن إدخاله في تقرير؟ هل النتيجة وصفية، تنبؤية، أم مرتبطة بخيار علاجي؟ ما التصرف عند التعارض بين النموذج والانطباع المجهري؟

هذه الأسئلة تبدو إدارية، لكنها في الواقع أسئلة جودة تشخيصية. النموذج الذي لا يملك جواباً عنها لا يصلح للممارسة حتى لو نشر في مجلة قوية. والعكس صحيح: نموذج متوسط الأداء إحصائياً، لكنه موضوع في النقطة الصحيحة من العمل، مع مراقبة واضحة وحدود استخدام صريحة، قد يغير قراراً سريرياً أكثر من نظام عالي الأداء يبقى خارج التقرير.

ما الذي يجب طلبه من البائعين والفرق البحثية؟

عند تقييم أي منصة ذكاء اصطناعي أو تحليل مكاني، يجب أن يتجاوز النقاش AUC وDice وconcordance. اسألوا عن زمن المعالجة من استلام الشريحة إلى ظهور النتيجة. اسألوا عن فشل الصور، وعن اختلاف الماسحات، وعن مراقبة الانحراف مع الوقت. اسألوا أين يظهر المخرج داخل LIS أو EHR، ومن يرى النتيجة، وكيف توثق موافقة الاختصاصي أو اعتراضه.

اسألوا أيضاً عن القيمة السريرية المحددة. هل يغير النموذج اختيار اختبار إضافي؟ هل يختصر زمن مناقشة الحالة؟ هل يرفع اتساق التقييم بين الاختصاصيين؟ هل يقلل إعادة العمل؟ إذا لم توجد إجابة محددة، فالخطر أن يتحول المشروع إلى تجربة جميلة بلا أثر على تقرير المريض.

نقطة العمل للمختبر

قيمة الذكاء الاصطناعي في علم الأمراض لا تظهر عند إنتاج إشارة جديدة فقط. تظهر عندما تصل هذه الإشارة إلى اختصاصي الأمراض والطبيب المعالج في لحظة تسمح بتغيير القرار. المقال يذكرنا بأن الفشل قد يحدث بعد نجاح العلم، لا قبله.

لذلك يجب أن يبدأ أي مشروع رقمي من سؤال بسيط: من سيستخدم هذه النتيجة، في أي دقيقة من يومه، وبأي سلطة سريرية؟ إذا لم نستطع الإجابة، فالمشكلة ليست في النموذج وحده. المشكلة في الطريق بين الشريحة والقرار.

المصدر: Beyond the Slide: The Translation Gap