Grid Search Evaluation of ML Algorithms for Early Disease Detection in Imbalanced Medical Datasets

نوع المستند : المقالة الأصلية

المؤلفون

1 مركز المعلومات ودعم اتخاذ القرار، رئاسة مجلس الوزراء المصري، مصر

2 كلية الهندسة بشبرا، جامعة بنها وجامعة بنها الاهلية، مصر

3 كلية الهندسة بشبرا، جامعة بنها، مصر

المستخلص

مع تزايد عدد الأمراض المزمنة في العالم، يصبح التعرف المبكر عليها ضرورة أساسية لبدء استخدام طُرق العلاج المناسبة، حيث يمكن أن تتحول هذه الأمراض إلى حالات خطيرة لا يمكن علاجها. لهذا السبب، تلعب تقنيات التعلم الآلي دورًا حيويًّا في تحليل البيانات الطبية بشكل متقدم، مما يتيح اكتشاف العلاقات المعقدة والأنماط الخفية التي قد يصعب تحديدها من قبل الأطباء بالوسائل التقليدية. وتستعرض هذه الورقة البحثية تطبيق مجموعة من نماذج التعلم الآلي مثل الانحدار اللوجستي، والشبكات العصبية الاصطناعية، وأشجار القرار، مع التركيز على كيفية التعامل مع مجموعات بيانات غير متوازنة تم جمعها من مستودع جامعة كاليفورنيا للتعلم الآلي ومنصة.Kaggleلكل نموذج قدراته الخاصة التي تمكنه من التعامل مع تعقيدات البيانات الطبية، وتتمثل التحديات الأساسية في تحسين دقة هذه النماذج لتحقيق أداء فاعل يتوافق مع متطلبات التنبؤ الطبي المبكر. وتمثل تقنية البحث الشبكي (Grid Search) خطوة مهمة في تحسين أداء النماذج المختارة؛ حيث يتم استكشاف مجموعة واسعة من معلمات النماذج لتحديد القيم المثلى التي تؤدي إلى تحسين الأداء. وتعتمد الدراسة بشكل خاص على معالجة مشكلة توازن الفئات في مجموعات البيانات الطبية؛ حيث تم تطبيق تقنيات مثل SMOTE لتحقيق توازن أفضل بين الفئات وزيادة دقة التنبؤ بالفئة الأقل تمثيلًا (فئة المرضى). ومن خلال تحليل مسبق للبيانات، مثل معالجة القيم المفقودة واختيار الميزات الأكثر تأثيرًا، يتم إعداد البيانات لاستخدامها بكفاءة في النماذج المختلفة. تُختتم الدراسة بتقييم شامل لأداء النماذج؛ حيث يتم اختيار النموذج الأفضل دقة بناءً على معايير مثل الدقة، الاستدعاء، وF1-score، مع التركيز على تحسين عملية اتخاذ القرار الطبي باستخدام البحث الشبكي. توصي الدراسة باستخدام تقنيات تحسين المعلمات الفائقة مثل البحث الشبكي (Grid Search) لتحسين أداء النماذج على مجموعات البيانات الطبية غير المتوازنة، مع التركيز على تقليل النتائج السلبية الكاذبة التي قد تؤدي إلى عواقب خطيرة في التطبيقات السريرية. كما تُبرز أهمية الاعتماد على مقاييس تقييم شاملة، مثل الاسترجاع والدقة و (F1-Score)لضمان تقييم دقيق لأداء النماذج. وتوصي الدراسة أيضًا بتوظيف نماذج قوية مثل XGBoost  وغابة القرارات العشوائية (Random Forest)، حيث إن الأولى توفر توازنًا بين الأداء وسرعة التنفيذ  في حين تُحقق الثانية أعلى دقة على حساب وقت التنفيذ.

الكلمات الرئيسية