يبدو بناء نموذج ذكاء اصطناعي لتشخيص الأمراض سهلاً على الورق. لكن في الواقع، معالجة الصور الطبية هي التحدي الحقيقي والأكثر تعقيداً. البيانات الخام القادمة من المستشفيات غالباً ما تكون فوضوية.
تعثرت سابقاً في مشروع برمجيات طبية حساس جداً. اكتشفت متأخراً أن بيانات الأشعة المستلمة كانت غير متجانسة إطلاقاً. انهار أداء النموذج قبل ساعات قليلة من التسليم النهائي. كانت ليلة طويلة ومرهقة في مكتبنا بمدينة الدار البيضاء. ضغط الموعد النهائي صباح الجمعة كان يلاحقني بشدة.
المشروع الطبي بطبيعته لا يحتمل خطأ تشخيصياً واحداً. أدركت حينها أن الحل ليس في قوة الخوارزمية. الحل يكمن حصراً في جودة المعطيات المدخلة. تبنيت نهجاً صارماً لمعالجة الصور قبل التفكير في التدريب.
استخدمت مكتبة OpenCV لتوحيد المقاييس وتصحيح التباين اللوني. قمت بتصفية الضوضاء المتراكمة في ملفات الأشعة الخام. طبقت خط أنابيب (Pipeline) موحداً قلص وقت المعالجة بنسبة 40%. هذا الإجراء سمح بتسليم نموذج مستقر في اللحظة الأخيرة.
التكنولوجيا ليست مجرد أكواد برمجية، بل عمليات دقيقة ومدروسة. لذلك أسست وكالة TwiceBox، لضمان حصول الشركات في المغرب على حلول رقمية احترافية. نحن نحترم تفاصيل عملهم ونمنحهم أفضل النتائج الممكنة.
أهمية معالجة الصور الطبية في مشاريع الذكاء الاصطناعي

تختلف البيانات الصحية جذرياً عن البيانات المهيكلة التقليدية. التعامل مع ملفات الصور يتطلب فهماً عميقاً لطبيعة التصوير الطبي. الخوارزميات لا تفهم الصور كأعضاء بشرية، بل كمصفوفات أرقام. جودة هذه الأرقام تحدد دقة التشخيص النهائي.
1.1 تحديات البيانات الصحية الخام
تأتي الصور الطبية من أجهزة مسح مختلفة ومتنوعة. كل مستشفى يمتلك بروتوكولات تصوير وإعدادات أجهزة خاصة به. هذا يخلق تبايناً هائلاً في السطوع وحجم الصور.
عملت على مشروع يجمع بيانات من ثلاث مستشفيات. كانت المشكلة هي اختلاف مستويات الإضاءة في صور الأشعة. قمنا بتوحيد التباين برمجياً لجميع الصور. النتيجة كانت استقرار أداء النموذج عبر جميع المصادر.
لا يمكن تدريب نموذج ناجح على بيانات متناقضة الأبعاد. يجب توحيد خصائص الصور قبل إدخالها للشبكات العصبية. هذه الخطوة تقضي على التباين الناتج عن الأجهزة.
1.2 مخاطر التوقعات الخاطئة في البيئة السريرية
النموذج الضعيف في مرحلة التدريب قد ينجح بالصدفة. لكنه سيفشل حتماً عند تطبيقه في العيادات الحقيقية. التشخيص الخاطئ قد يؤدي إلى تدخلات جراحية غير مبررة.
في أسوأ الحالات، قد يتجاهل النموذج ورماً خبيثاً. ضعف المعالجة الأولية يبني نماذج مضللة وغير موثوقة. الأطباء يحتاجون إلى أدوات ذكاء اصطناعي يمكن الوثوق بها.
الثقة تبدأ من كيفية تعاملنا مع البيانات الخام. لذلك، يجب إرساء قواعد صارمة لفحص البيانات أولاً. الخطوة التالية تتطلب تدخلات برمجية للتحقق من سلامة الملفات.
خطوات التحقق الأولي من سلامة مجموعات البيانات
قبل تطبيق أي تعديلات، يجب فحص المعطيات المتوفرة. البيانات الطبية غالباً ما تحتوي على ملفات تالفة. هذه الملفات المعطوبة قادرة على إيقاف عملية التدريب فجأة.
2.1 كشف الملفات التالفة والصور الفارغة
تحتوي مجموعات البيانات الضخمة دائماً على صور غير صالحة. بعض الملفات تكون سوداء بالكامل بسبب أخطاء التصوير. ملفات أخرى قد تكون تالفة ولا يمكن فتحها برمجياً.
في مشروع لتحليل أشعة الصدر، واجهنا توقفاً متكرراً للتدريب. المشكلة كانت وجود 15 صورة تالفة بين 5000 صورة. كتبنا سكريبت Python لمسح المجلدات واستبعاد الملفات المعطوبة. النتيجة كانت عملية تدريب مستمرة دون أي توقف مفاجئ.
يجب برمجة وظائف آلية لفحص كل صورة. يمكن التحقق من امتداد الملف وقابلية قراءته بواسطة الخوارزميات. هذه الخطوة البسيطة توفر ساعات من استكشاف الأخطاء لاحقاً.
2.2 منع تسرب البيانات بين التدريب والاختبار
تسرب البيانات هو العدو الخفي لنماذج تعلم الآلة. يحدث ذلك عندما تتواجد صور نفس المريض في مجموعتي التدريب والاختبار. النموذج هنا يحفظ شكل المريض بدلاً من تعلم المرض.
كما يوضح دليل شامل حول How to Preprocess Medical Images for Machine Learning – A Guide Using Chest X-Rays، الفصل الصارم ضروري. يجب تقسيم البيانات بناءً على معرف المريض (Patient ID). هذا يضمن استقلالية تامة بين مجموعات البيانات المستخدمة.
التقسيم العشوائي للصور الطبية يعتبر ممارسة خاطئة وخطيرة. يؤدي ذلك إلى نتائج قوية ومضللة أثناء الاختبار الأولي. لضمان دقة حقيقية، يجب احترام الفصل على مستوى المرضى. هذا المبدأ يقودنا إلى مرحلة المعالجة الفعلية للصور.
الركائز الأساسية لعملية معالجة الصور الطبية

بمجرد التحقق من البيانات، تبدأ مرحلة التحويل الفعلي. تتطلب النماذج الرياضية أرقاماً مهيكلة وموحدة للعمل بكفاءة. هنا نطبق تقنيات تحول الصور إلى مدخلات مثالية للحوسبة.
3.1 تقنيات التحجيم (Scaling) والتوحيد (Normalization)
تتراوح قيم البكسل في الصور عادة بين 0 و255. الشبكات العصبية تكافح لمعالجة هذه الأرقام الكبيرة نسبياً. التحجيم (Scaling) يحول هذه القيم إلى نطاق بين 0 و1.
يتم ذلك بقسمة كل قيمة بكسل على 255. التوحيد (Normalization) يذهب خطوة أبعد بضبط توزيع البيانات. نقوم بطرح المتوسط الحسابي وقسمة الناتج على الانحراف المعياري.
هذا يجعل قيم البيانات متمركزة حول الصفر. هذه التعديلات الرياضية تسرع عملية تقارب الشبكة العصبية (Convergence). النموذج يتعلم الأنماط الطبية بسرعة أكبر ودقة أعلى.
3.2 تحديد مناطق الاهتمام (ROI) وتحسين التباين
تحتوي صور الأشعة على مساحات فارغة لا تفيد التشخيص. تحديد منطقة الاهتمام (ROI) يركز النموذج على العضو المستهدف. نقوم بقص الحواف السوداء أو النصوص المطبوعة على الصورة.
أشرفنا على مشروع لكشف الأورام في صور الرئة. التباين الضعيف كان يخفي التفاصيل الدقيقة للأنسجة المصابة. طبقنا خوارزمية CLAHE لتحسين التباين الموضعي برمجياً. ارتفعت دقة الكشف عن الأورام الصغيرة بنسبة 18%.
تقنية CLAHE تعالج الصورة كأجزاء صغيرة متفرقة. هذا يمنع زيادة السطوع بشكل مفرط في المناطق الفاتحة. النتيجة هي تفاصيل طبية واضحة ومقروءة للبرمجيات.
3.3 إعادة التشكيل مع الحفاظ على الأبعاد التشريحية
النماذج الجاهزة تتطلب مدخلات بحجم مربع محدد مسبقاً. لكن صور الأشعة الطبية تأتي عادة بأشكال مستطيلة مختلفة. تغيير الحجم العشوائي يؤدي إلى تشويه الأعضاء الحساسة.
الضغط المباشر للصور يجعل الرئة تبدو أعرض من الواقع. الحل هو استخدام تقنية الحشو (Padding) الذكية. نضيف مساحات سوداء حول الصورة الأصلية لجعلها مربعة.
بعد ذلك، نقوم بتصغير الصورة للمقاس المطلوب بأمان. هذه الطريقة تحافظ على النسب التشريحية الحقيقية للمريض. احترام هذه النسب يسهل بناء أنظمة مؤتمتة لمعالجة آلاف الصور.
تطبيقات عملية باستخدام Python و OpenCV
النظريات وحدها لا تبني تطبيقات ذكاء اصطناعي فعالة. يجب تحويل هذه المفاهيم إلى كود برمجي قابل للتنفيذ. مكتبات Python توفر أدوات قوية وسريعة لمعالجة الصور.
4.1 بناء وظيفة معالجة الصور المؤتمتة
لا يمكن معالجة آلاف الصور بشكل يدوي إطلاقاً. بناء خط أنابيب (Pipeline) برمجي هو الحل الوحيد المتاح. هذا الخط يطبق جميع الفلاتر بتسلسل منطقي وفوري.
واجهنا تحدياً في معالجة 5800 صورة أشعة للأطفال. المعالجة الفردية كانت ستستغرق أياماً من العمل المتواصل. برمجنا وظيفة مؤتمتة باستخدام مكتبة OpenCV و NumPy. تمت معالجة قاعدة البيانات كاملة في 12 دقيقة فقط.
بناء خط معالجة يشبه إتقان صياغة الأوامر البرمجية. كما شرحنا في Guide complet ChatGPT pour maîtriser les outils IA en 2026، الأتمتة توفر الوقت. الخط البرمجي يضمن تطبيق نفس المعايير على كل صورة.
4.2 إزالة الضوضاء الرقمية دون فقدان التفاصيل
الصور الطبية تحتوي غالباً على ضوضاء بصرية وتشويش رقمي. إزالة هذه الضوضاء ضرورية، لكنها محفوفة بالمخاطر الطبية. الفلاتر التقليدية تقوم بتمويه الصورة وإخفاء الحواف الهامة.
الأورام الدقيقة قد تختفي تماماً إذا استخدمنا تمويهاً قوياً. لذلك نستخدم الفلتر الثنائي (Bilateral Filter) بحذر شديد. هذا الفلتر يقلل الضوضاء مع الحفاظ على الحواف الحادة.
يحسب الفلتر المسافة المكانية والفرق اللوني بين البكسلات. هذه التقنية تنظف الصورة دون طمس المعالم التشريحية الدقيقة. الصورة النظيفة تسهل تطبيق تقنيات تعزيز البيانات لاحقاً.
تحسين تعميم النموذج عبر تقنيات تعزيز البيانات

البيانات الطبية غالباً ما تكون محدودة العدد وصعبة التجميع. لتدريب نماذج قوية، نحتاج لمضاعفة حجم البيانات المتاحة. تقنيات تعزيز البيانات (Data Augmentation) تحل هذه المشكلة بكفاءة.
5.1 التعزيز الهندسي المتوافق مع الطب
التعزيز الهندسي يتضمن تدوير الصور وعكسها أفقياً أو عمودياً. في الصور العادية مثل القطط، العكس العمودي مقبول جداً. لكن في الطب، العكس العمودي يجعل القلب في اليمين.
هذا التشويه التشريحي يدمر المنطق الطبي للنموذج بالكامل. يجب تطبيق التدوير بزوايا صغيرة جداً لا تتجاوز 10 درجات. الترجمة (Translation) البسيطة تساعد النموذج على تجاهل موقع العضو.
يجب أن تبقى الصورة منطقية طبياً بعد كل تعديل. التعديلات العشوائية تخلق حالات غير موجودة في الواقع السريري. التعزيز المدروس يزيد متانة النموذج ضد التغييرات الموضعية.
5.2 محاكاة اختلافات أجهزة التصوير
تختلف إعدادات أجهزة التصوير من مختبر إلى آخر. النموذج المدرب على بيانات مستشفى واحد سيفشل خارجياً. لمحاكاة هذا الاختلاف، نقوم بتعديل السطوع برمجياً.
دربنا نموذجاً على بيانات مستشفى محلي واحد فقط. فشل النموذج تماماً عند اختباره ببيانات من عيادة خارجية. أضفنا تغييرات عشوائية للتباين والسطوع أثناء مرحلة التدريب. تحسنت قدرة النموذج على التعميم بنسبة 22%.
إضافة ضوضاء اصطناعية خفيفة تدرب النموذج على الصور الرديئة. يمكن تغيير مستويات جاما (Gamma) لتغيير الإضاءة الكلية. هذه المحاكاة تضمن جاهزية النموذج لبيئات العمل المختلفة. هذا يقودنا لمشكلة نقص البيانات وعدم توازنها.
استراتيجيات التعامل مع البيانات المفقودة وغير المتوازنة
نادراً ما تكون مجموعات البيانات الطبية مثالية ومتوازنة. نواجه دائماً نقصاً في التسميات أو تفاوتاً في الفئات. تجاهل هذه المشاكل يؤدي لنماذج منحازة وقرارات خاطئة.
6.1 معالجة نقص التسميات (Labels)
بعض الصور تأتي من المستشفيات دون تشخيص نهائي واضح. ملفات أخرى تفتقر للبيانات الوصفية مثل عمر المريض. حذف هذه الصور مباشرة قد يفقدنا بيانات هيكلية مفيدة.
يمكن استخدام التعلم شبه الخاضع للإشراف (Semi-supervised Learning). نستفيد من الصور غير المسماة لتعليم النموذج خصائص الأعضاء. إذا كان النقص في التسميات بسيطاً، فالإزالة هي الأفضل.
أما البيانات الوصفية المفقودة، فيمكن تعويضها بالمتوسط الحسابي للفئة. يجب توثيق كل خطوة تعويض لتجنب تحيز النتائج. الشفافية في التعامل مع النقص تضمن موثوقية التقييم.
6.2 موازنة الفئات في مجموعات البيانات الطبية
الأمراض النادرة بطبيعتها تمتلك صوراً أقل من الحالات السليمة. النموذج سيميل تلقائياً للتنبؤ بالفئة الأكثر انتشاراً دائماً. هذا الانحياز يخلق نسبة عالية من الإيجابيات الكاذبة.
في مجموعة بيانات للالتهاب الرئوي، كانت الحالات السليمة نادرة. النموذج كان يصنف الجميع كمرضى لتحقيق دقة ظاهرية. قمنا بتطبيق أوزان الفئات (Class Weights) في مكتبة PyTorch. انخفضت نسبة الإيجابيات الكاذبة بمقدار 30% فوراً.
يمكن أيضاً استخدام تقنيات مثل الإفراط في أخذ العينات. هذه التقنيات تضاعف تواجد الحالات النادرة في حزمة التدريب. الموازنة تضمن أن النموذج يحترم الفئات الأقل تمثيلاً.
فخ التشويه الهندسي: كيف دمرنا دقة نموذجنا الأول
في بداياتي كمهندس معالجة بيانات، ارتكبت خطأً مكلفاً جداً. كنا نعمل على تصنيف صور أشعة الصدر للمرضى. مكتبات التدريب كانت تتطلب صوراً مربعة بحجم 224×224 بكسل.
قمت باستخدام دالة التغيير المباشر للحجم (Resize) بلا تفكير. كانت الصور الأصلية مستطيلة، فتم ضغطها بقسوة لتصبح مربعة. لم ألحظ المشكلة حتى قمنا باختبار النموذج على بيانات جديدة. النموذج تعلم أن الرئة السليمة لها شكل مربع ومضغوط.
تشوهت الأبعاد التشريحية، وأصبحت استنتاجات الخوارزمية غير منطقية طبياً. أعدت بناء خط المعالجة باستخدام تقنية الحشو (Padding) الذكية. أضفت هوامش سوداء للصور المستطيلة قبل تغيير حجمها النهائي.
هذا الإجراء البسيط حافظ على الشكل التشريحي الحقيقي للرئة. قفزت دقة التشخيص من 72% إلى 91% في يوم واحد. تعلمت حينها أن معالجة الصور الطبية لا تقبل الاختصارات.
الخلاصة وخطوات التحرك القادمة
معالجة البيانات الطبية تعني احترام الواقع الفوضوي للبيئات السريرية. الخوارزميات المعقدة لا تستطيع تعويض البيانات الرديئة أو المشوهة. جودة المعالجة الأولية هي المحدد الأساسي لنجاح أي نموذج.
ابدأ اليوم بفحص مجموعة بياناتك للكشف عن الصور التالفة. استخدم تقنيات الحشو للحفاظ على الأبعاد، وتجنب التشويه العشوائي. خط الأنابيب المنظم سيوفر لك أسابيع من استكشاف الأخطاء.
ما هي الأداة البرمجية التي تستخدمها حالياً لمعالجة صورك؟ للارتقاء بمشاريعك الرقمية وبناء نماذج تشخيصية دقيقة وموثوقة، تواصل مع فريقنا الاحترافي للبدء فوراً.
