Haiku: نموذج ثلاثي الوسائط يربط H&E والـ spatial proteomics والبيانات السريرية

ما الذي يضيفه Haiku للباثولوجي الرقمي؟

طرح فريق من University of Pennsylvania وEnable Medicine نموذجاً جديداً باسم Haiku، وهو foundation model ثلاثي الوسائط يربط صور H&E، وبيانات spatial proteomics من multiplexed immunofluorescence، والنص السريري داخل فضاء embedding واحد. الورقة منشورة كـ preprint على arXiv بعنوان: Linking spatial biology and clinical histology via Haiku.

الفكرة ليست مجرد إضافة قناة بيانات جديدة إلى نموذج موجود. قيمة Haiku تأتي من جعل المورفولوجيا، الإشارة البروتينية المكانية، والسياق السريري قابلة للمقارنة والاسترجاع المتبادل. بالنسبة للباثولوجي، هذه نقطة عملية: هل يمكن لصورة H&E أن تقودنا إلى مؤشرات بروتينية محتملة؟ وهل يمكن لوصف سريري أن يسترجع مناطق نسيجية أو أنماط mIF ذات صلة؟

حجم البيانات التي بُني عليها النموذج

تدريب Haiku اعتمد على واحدة من أكبر مجموعات البيانات المنشورة في هذا الاتجاه، بحسب وصف الفريق. تضم المجموعة أكثر من 26.7 مليون patch من spatial proteomics، مأخوذة من 3,218 مقطعاً نسيجياً مرتبطة بـ 1,606 مرضى. تغطي البيانات 11 عضواً و11 مرضاً و120 biomarker، مع مواءمة بين H&E وmultiplexed immunofluorescence والبيانات السريرية.

هذا مهم لأن كثيراً من نماذج الباثولوجي الرقمي تتعامل مع H&E وحدها، أو تضيف النص والبيانات السريرية في مرحلة لاحقة. Haiku يحاول تدريب التمثيل نفسه على العلاقة بين القنوات الثلاث، لا على كل قناة بمعزل عن الأخرى.

كيف يعمل الربط بين H&E وmIF والنص؟

يعتمد النموذج على contrastive learning لتقريب العينات المتطابقة عبر الوسائط المختلفة وإبعاد العينات غير المتطابقة. بهذا الشكل تصبح صورة H&E، صورة mIF، والوصف السريري المرتبط بها ممثلة داخل فضاء مشترك. النتيجة هي إمكانية إجراء cross-modal retrieval بثلاثة اتجاهات: من H&E إلى mIF، من mIF إلى النص، ومن النص إلى الصور.

في نتائج الورقة، وصل Recall@50 في بعض مهام الاسترجاع إلى 0.611 مقارنة بخط أساس قريب من الصفر. هذا الرقم لا يعني أن النموذج جاهز كأداة تشخيصية، لكنه يبين أن التمثيلات التي تعلمها تحمل علاقة قابلة للقياس بين المورفولوجيا والمناعة المكانية والسياق السريري.

نتائج سريرية وبايوماركرز بدون قياس مباشر

اختبر الفريق Haiku في مهام downstream تشمل التنبؤ بالبقاء في سرطان القولون والمستقيم، حيث حقق C-index يساوي 0.737 مع تحسن نسبي 7.91% مقارنة بنماذج unimodal مذكورة في الورقة. كما عرضت النتائج أداءً في توقع الاستجابة للعلاج، مع AUPRC يساوي 0.660 في melanoma و0.775 في colorectal cancer.

الجزء الأكثر ارتباطاً بالمختبرات التي تفكر بربط H&E مع spatial biology هو zero-shot biomarker inference. في هذا الاختبار، تمكن Haiku من استدلال إشارات عبر 52 قناة biomarker بمتوسط Pearson correlation يساوي 0.718، من دون تضمين معلومات biomarker مباشرة في الاستعلام النصي. هذا لا يستبدل القياس المخبري، لكنه قد يساعد في فرز الفرضيات وتحديد الحالات أو المناطق التي تستحق قياساً أعمق.

Counterfactual prediction: ماذا يحدث إذا ثبتنا النسيج وغيّرنا السياق السريري؟

قدمت الورقة إطاراً تحليلياً يحافظ على المورفولوجيا كما هي، ويغيّر فقط البيانات السريرية داخل الاستعلام. الهدف هو رؤية التحولات الجزيئية المتوقعة المرتبطة بسياق سريري مختلف. في مثال lung adenocarcinoma، استعاد النموذج تغيرات مرتبطة بإنذار أفضل، منها ارتفاع CD8 وgranzyme B وانخفاض PD-L1 وKi67.

هذه النتائج يجب أن تُقرأ كما وصفها المؤلفون: إشارات استكشافية لتوليد فرضيات، وليست ادعاءات ميكانيكية أو بدائل عن التجارب. قوة هذا النوع من التحليل أنه يعطي طريقة منظمة للسؤال: إذا بقي النسيج نفسه، ما النمط الجزيئي الذي يتغير عند تعديل متغير سريري معين؟

لماذا يهم هذا للباثولوجيين؟

مع توسع spatial omics، المشكلة لم تعد في إنتاج البيانات فقط. المشكلة في تفسيرها وربطها بالمشهد النسيجي والسياق السريري. Haiku يقترح مساراً مختلفاً: بدلاً من النظر إلى H&E وmIF والبيانات السريرية كجداول وصور منفصلة، يمكن تمثيلها داخل فضاء واحد يسمح بالاسترجاع، المقارنة، وتوليد الفرضيات.

بالنسبة للباثولوجي الرقمي، هذا النوع من النماذج قد يكون مفيداً في ثلاث مناطق: اختيار مناطق الاهتمام قبل القياس المكلف، ربط الأنماط المورفولوجية بإشارات immune microenvironment، وبناء أدوات بحثية تساعد على تفسير cohorts كبيرة بدلاً من تحليل كل طبقة بيانات وحدها.

لكن الطريق إلى الاستخدام السريري ما زال يحتاج تحققاً خارجياً، cohorts مستقلة، وتقييمات prospective تربط الاسترجاع والتنبؤ بنتائج قابلة للتصرف داخل workflow المرضي. الورقة قوية كاتجاه بحثي، لا كمنتج سريري مكتمل.

روابط المصدر

الورقة على arXiv: https://arxiv.org/abs/2605.00925v1

الكود والـ checkpoints: https://github.com/zhihuanglab/Haiku

اقتراحات روابط داخلية

  • نماذج foundation models في الباثولوجي الرقمي
  • استخدام spatial biology في تفسير الأورام
  • كيف يغير الذكاء الاصطناعي قراءة H&E؟