في ذكاء الأعمال ، يرتبط تجميع البيانات وتصنيفها ارتباطا وثيقا ، ولكن التصنيف تنبؤي بينما يكون التجميع وصفيا. يعد استخدام المتغيرات ذات القيم المعروفة للتنبؤ بالقيم غير المعروفة أو المستقبلية للمتغيرات الأخرى جوهر تصنيف البيانات.
تشمل أمثلة التطبيقات التسويق المباشر ، واكتشاف الاحتيال في مجال التأمين ، وإجراء التشخيصات الطبية.
من أجل إنتاج العدد المطلوب من الفئات ، يجب أولا تجميع مجموعة البيانات المستخدمة لتدريب الفئات. تخضع الفئات التالية لخوارزمية تعرف باسم المصنف ، والتي تنتج نموذجا وصفيا لكل منها. يمكن بعد ذلك استخدام نظام التصنيف المطور حديثا مع هذه النماذج لتصنيف الأشياء الجديدة.
الفعالية
هذه هي الطرق التي يقوم بها جولفاريلي وريزي بتقييم أداء المصنف:
- دقة التنبؤ: ما مدى توقعها لفئات الملاحظات الجديدة تماما؟
- سرعة: ما مقدار قوة الحوسبة التي يتطلبها المصنف؟
- متانة: ما مدى جودة عمل النماذج المطورة عندما تكون جودة البيانات رديئة؟
- قابلية: يمكن التعامل مع المصنف كميات هائلة من البيانات دون أن تفقد فعالية؟
- قابلية التفسير: يمكن للمستهلكين فهم النتائج؟ المتغيرات مثل التركيبة السكانية أو تفاصيل نمط الحياة أو السلوك الاقتصادي هي أمثلة نموذجية لمدخلات تصنيف البيانات.
التحديات
عند العمل مع تصنيف البيانات ، هناك العديد من الصعوبات. أحدها على وجه الخصوص هو أن نهج النمذجة التكرارية مطلوب لجميع الفئات التي سيتم استخدامها ، مثل المستهلكين أو العملاء. يتم ذلك للتأكد من أن الفئات الحالية لا تصبح عفا عليها الزمن وعفا عليها الزمن بسبب التغييرات غير المكتشفة في خصائص مجموعات العملاء.
قد تجد الشركات في صناعات التأمين أو البنوك ، حيث يكون اكتشاف الاحتيال أمرا بالغ الأهمية ، أن هذا له قيمة خاصة. إذا لم يتم إنشاء طرق لمراقبة هذه التغييرات والإخطار عند تغيير الفئات أو التلاشي أو ظهور فئات جديدة ونشرها ، فقد لا يتم اكتشاف ممارسات الاحتيال الجديدة.