مكتبة مفاهيم داخلية لتحويل أرشيف تقارير الأمراض إلى بيانات قابلة للبحث - الباثولوجي الرقمي

تملك أقسام علم الأمراض ثروة ضخمة لا تظهر في قواعد البيانات المنظمة: تقارير حرة كتبت خلال عقود، قبل الانتشار الواسع للتقارير القالبية. هذه التقارير تحمل تفاصيل عن الدرجة، النمط النسيجي، الغزو حول الأعصاب، الواسمات، الهوامش، وعبارات تفسيرية لا تدخل دائماً في خانة جاهزة. المشكلة ليست في غياب القيمة. المشكلة أن القيمة مكتوبة بلغة موجهة للطبيب القارئ، لا لمحرك بحث أو قاعدة أبحاث.

المقال المنشور في Pathology News يعرض مشروعاً معلوماتياً قاده Raj Singh من جامعة بنسلفانيا، وهو أيضاً من مؤسسي PathPresenter، مع Alexander Goel من PhenoML. الفكرة العملية بسيطة في ظاهرها: استخراج الملاحظات السريرية من تقارير الأمراض الحرة، ثم حفظ كل مفهوم داخلياً قبل محاولة ربطه مع SNOMED CT أو OMOP. هذه النقطة مهمة للطبيب الممارس، لأن كثيراً مما نكتبه في التقرير لا يجد مقابلاً معيارياً دقيقاً، لكنه يبقى حاسماً عند اختيار المرضى للدراسات أو عند بناء مجموعات بحثية دقيقة.

لماذا لا يكفي الترميز القياسي وحده؟

في نماذج العمل التقليدية، يبدأ النظام غالباً من قاموس معياري. إذا استطاع أن يطابق العبارة مع كود مقبول، تدخل المعلومة إلى قاعدة البيانات. وإذا لم يجد الكود المناسب، قد تضيع المعلومة أو تتحول إلى نص غير قابل للاستعلام. هذا مناسب للحقول الواضحة، لكنه ضعيف أمام لغة تقارير الأمراض القديمة، وأحياناً حتى الحديثة، حين تحمل العبارة معنى سريرياً دقيقاً لا يطابق مصطلحاً واحداً.

مشروع مكتبة المفاهيم الداخلية يعكس ترتيب الخطوات. يبدأ بحفظ المعنى كما ورد في التقرير، ثم يعطي كل ملاحظة معرفاً داخلياً. بعدها فقط يحاول النظام ربط المعلومة مع SNOMED CT أو OMOP. إذا نجح الربط، يصبح المفهوم متوافقاً مع المصطلحات القياسية. وإذا فشل، يبقى المفهوم محفوظاً وقابلاً للاستعلام داخل OMOP عبر معرف مخصص. بهذه الطريقة لا يصبح فشل القاموس سبباً لحذف ملاحظة سريرية مفيدة.

بيانات قديمة، وسؤال حديث

استخدم الفريق 1155 تقرير أمراض حر النص من The Cancer Genome Atlas، شملت حالات سرطان الثدي والرئة والبروستات بين عامي 1978 و2013. هذا الاختيار ليس تفصيلاً ثانوياً. كثير من هذه التقارير كتب قبل سيادة التقارير القالبية الحديثة، ولذلك يشبه أرشيفات حقيقية موجودة في مستشفيات كثيرة. النصوص متفاوتة. بعض الحقول غائبة. بعض العبارات تحمل معنى واضحاً للطبيب، لكنها ليست مبنية كبيانات.

استخرج النظام 13323 ملاحظة سريرية من هذه التقارير. نجح ربط نحو 59.6 في المئة منها مع SNOMED CT. بقيت نحو 39.1 في المئة من الملاحظات بلا ربط معياري، رغم أنها تحمل معنى سريرياً. ووضعت 1.3 في المئة في خانة عدم اليقين بسبب التباس أو تضارب في النص. الرقم الأهم هنا هو نسبة الملاحظات غير القابلة للربط. لو كان النظام يعتمد على الترميز أولاً، لكان جزء كبير من محتوى التقارير خارج التحليل.

استخدام CAP eCPs كاختبار للتغطية

قارن الباحثون الاستخراج مع بروتوكولات College of American Pathologists الإلكترونية للأورام. هذا يعطي معياراً عملياً: هل يستطيع النظام التقاط ما نتوقع عادة وجوده في تقرير سرطان منظم؟ النتائج كانت 32.9 في المئة لتقارير الثدي، و36.5 في المئة للبروستات، و21.8 في المئة للرئة، مع معدل عام 29.2 في المئة.

قد تبدو هذه النسب منخفضة إذا قرئت بمعزل عن السياق. لكنها لا تعني بالضرورة فشل الاستخراج. تقارير TCGA القديمة لا تحتوي دائماً على كل حقول CAP الحديثة. عندما لا يذكر التقرير معلومة عن حقل معين، لا يجوز للنظام أن يخمنها. وهذا يقود إلى درس مهم في استخدام النماذج اللغوية مع تقارير الأمراض: الاستخراج الجيد لا يعني ملء كل خانة، بل يعني احترام ما وثقه التقرير فعلاً.

التقييد أهم من الطلاقة

استخدم الفريق تصميماً مغلقاً للحقول. بمعنى أن النموذج لا يترك ليتخيل قائمة مفتوحة من النتائج، بل يطلب منه العمل ضمن حقول محددة لكل نوع ورم. هذا يقلل من خطر أن يستنتج النموذج نتيجة تبدو منطقية طبياً لكنها غير مذكورة. بالنسبة للتطبيقات السريرية، هذه ليست مسألة شكلية. تقرير الأمراض وثيقة طبية، وأي استخراج منها يجب أن يفرق بين الحاضر، والغائب، وغير المؤكد.

الدراسة تشير أيضاً إلى أن درجات الثقة التي يعلنها النموذج عن نفسه ليست أساساً كافياً لضبط الجودة. الأفضل هو استخدام منطق تأكيدي واضح: هل النتيجة موجودة؟ هل هي منفية؟ هل النص لا يسمح بالحسم؟ ثم فحص توافق المصطلحات، ومراجعة الاتساق بين الحقول. مثال ذلك أن نتيجة واسم معين، ودرجة الورم، والنمط النسيجي يجب أن تبقى متماسكة عند النظر إليها كحزمة واحدة، لا كحقول منفصلة فقط.

ما الذي يهم اختصاصي الأمراض؟

القيمة العملية تظهر عند البحث عن مجموعات مرضى دقيقة. تخيل الاستعلام عن سرطانات ثدي ثلاثية السلبية مع Ki-67 أعلى من 50 في المئة، أو سرطان بروستات بدرجة Gleason تساوي 8 أو أكثر مع غزو حول الأعصاب. إذا كانت بعض هذه الملاحظات غير مربوطة بكود قياسي، فالاعتماد على SNOMED وحده سيجعل الاستعلام ناقصاً. أما حفظ المفهوم داخلياً فيسمح بالبحث عبر كامل البيانات المستخرجة، لا عبر الجزء الذي نجح القاموس في تمثيله فقط.

هذا يغيّر طريقة التفكير في أرشيفات الأقسام. الأرشيف ليس مجرد مستودع تقارير PDF أو نصوص قديمة. يمكن أن يصبح طبقة بيانات للبحث السريري، اختيار المرضى للتجارب، متابعة الأنماط، وربط النتائج المرضية بالمعلومات الجزيئية والسريرية. لكن الشرط هو أن نحافظ على المعنى أولاً، ثم نربطه بالمعايير عندما يكون ذلك ممكناً.

حدود يجب عدم تجاهلها

لا يقدم هذا العمل حلاً سحرياً. التقارير القديمة ناقصة بطبيعتها، وبعض العبارات ستبقى ملتبسة حتى عند قراءتها من طبيب خبير. كما أن إنشاء مفاهيم داخلية مخصصة يحتاج إلى حوكمة واضحة، وإلا قد يتحول إلى قاموس محلي متضخم يصعب ضبطه. لذلك لا بد من مراجعة بشرية للحالات الغامضة، ومن قواعد صارمة عند قبول مفهوم جديد أو ربطه بمصطلح خارجي.

هناك أيضاً سؤال مهم عن قابلية النقل بين المؤسسات. مكتبة مفاهيم مبنية من أرشيف مؤسسة واحدة قد تعكس أسلوب كتابة محدداً، وقوالب محلية، وممارسات تاريخية. عند نقلها إلى مستشفى آخر، ستحتاج إلى اختبار جديد، لا إلى افتراض أنها تعمل كما هي. هذا ينطبق خصوصاً على تقارير مختلطة اللغة، أو تقارير تغيرت فيها المصطلحات عبر الزمن.

الخلاصة العملية

أقوى ما في المشروع أنه لا يتعامل مع التقييس كشرط مسبق لحفظ المعلومة. في علم الأمراض، توجد مسافة بين ما يكتبه الطبيب وما تستطيع القواميس تمثيله. تجاهل هذه المسافة يفقدنا بيانات مهمة. التعامل معها بذكاء يسمح ببناء طبقة بحثية أكثر صدقاً مع النص الأصلي.

بالنسبة لأقسام علم الأمراض التي تفكر في استخراج بيانات من أرشيفاتها، الدرس واضح: ابدأوا بتعريف المفاهيم السريرية التي تهمكم، وضعوا قواعد صارمة للحاضر والغائب وغير المؤكد، ولا تحذفوا المعلومة فقط لأنها لا تجد كوداً جاهزاً. الترميز مفيد، لكنه لا يجب أن يكون البوابة الوحيدة إلى البيانات.

المصدر: Pathology News