المتطلبات وإعداد البيانات

يمكن لخوارزمية oracle MSET اكتشاف الأعراض المبكرة للفشل، مثل حالات الشذوذ في درجات الحرارة والتغيرات في ملفات تعريف الاهتزاز.

وللكشف الفعال عن الأعراض المبكرة، يجب أن تستوفي مواصفات البيانات معايير معينة. وتوضح المعايير بمزيد من التفصيل في وقت لاحق، ولكن باختصار، يجب أن تكون قراءات أجهزة الاستشعار متسلسلة. الطوابع الزمنية ليست أساسية، ولكن قراءات أجهزة الاستشعار يجب أن تكون بترتيب زمني دقيق، ويجب أن تكون جميعها رقمية. كما ينبغي أن تتألف بيانات التدريب من قراءات أجهزة استشعار خالية من أوجه الخلل وتقع ضمن بارامترات التشغيل العادية.

تعني المتطلبات أنك قد تحتاج إلى معالجة البيانات الأولية من أجهزة الاستشعار قبل تغذيتها في نموذج الكشف الشاذ.

متطلبات الخدمة

للحصول على نتائج صالحة من الخدمة، يجب إعداد بيانات التدريب والاختبار المناسبة.

يجب ألا تحتوي بيانات التدريب والاختبار إلا على طوابع زمنية وسمات رقمية أخرى. وعادة ما تكون البيانات مستمدة من قراءات أجهزة الاستشعار والإشارات. الحقول المصنفة غير مدعومة في الإصدار الحالي.

وعلى مستوى عال، توجد لدى الدائرة ثلاثة متطلبات رئيسية تتعلق بنوعية البيانات من أجل بيانات التدريب:

  • وينبغي أن تكون بيانات التدريب خالية من العيوب وبدون منافذ. وينبغي أن يتضمن ملاحظات مستمدة من الظروف التشغيلية العادية فقط.
  • يجب أن تغطي بيانات التدريب كل سيناريوهات الأعمال العادية التي تحتوي على نطاقات القيم الكاملة في كل السمات.
  • يجب أن تكون السمات الموجودة في البيانات مرتبطة بشكل جيد أو تنتمي إلى نفس النظام أو الأصل. نوصي بنماذج منفصلة للتدريب إذا كانت السمات من أنظمة مختلفة.

يجب أن تحتوي بيانات الكشف على نفس سمات بيانات التدريب. كما ينبغي أن يكون من نفس النظام أو الأصول التي تنتمي إليها بيانات التدريب. يمكن أن تحتوي بيانات الكشف على نقاط بيانات غير صحيحة.

جودة البيانات

يجب أن تمثل بيانات التدريب والاختبار النموذجية قيمًا من سمات متعددة، مثل الإشارات وأجهزة الاستشعار، المسجلة بترتيب زمني.

لتكوين نموذج عالي الجودة، تأكد من تقيد البيانات الموجودة في مجموعة التدريب بقائمة المتطلبات التالية.

ختم الوقت
عمود التوقيت اختياري. ومع ذلك، إذا كان هذا العمود موجودا، فيجب أن يكون العمود الأول في الجدول.
  • يجب أن يحتوي عمود التوقيت على التسمية "timestamp"، وكل الأحرف الصغيرة بدون مسافات.
  • يجب فرز الطوابع الزمنية بترتيب تصاعدي.
  • يجب ألا تكون هناك طوابع زمنية مكررة.
  • يمكن أن تحتوي الطوابع الزمنية على تكرار متغير. على سبيل المثال، 50 ملاحظة في ساعة واحدة و200 ملاحظة في الساعة التالية.
  • في حالة عدم وجود عمود ختم زمني، يفترض فرز البيانات بالتسلسل حسب الوقت.
السمات
كل صف من البيانات عبارة عن ملاحظة واحدة في التوقيت المحدد.
  • يجب أن تكون قيمة السمة رقمية. بالنسبة للقيم المنطقية، استخدم 1 للقيمة صواب و0 للقيمة خطأ.
  • يتم تمثيل القيم المفقودة بواسطة null في ملفات JSON وبحقل فارغ في ملفات CSV.
  • يجب أن يحتوي كل صف على سمة واحدة على الأقل غير موجودة. أي أنه لا يمكن أن يكون لديك صف ليس إلا ختم الوقت.
  • يجب أن تحتوي البيانات على ثلاث سمات مترابطة ترابطاً وثيقاً على الأقل.
  • يجب أن يكون اسم كل سمة فريدًا.
  • يجب ألا يزيد عدد السمات عن 300.
تدريب
لتحديد عدد الصفوف التي يجب أن يكون لديك في مجموعة التدريب، قم بضرب عدد السمات في ثمانية. يجب أن يكون لديك 40 صفًا على الأقل في مجموعة التدريب.
على سبيل المثال، إذا كان لديك 100 جهاز استشعار، فسيكون عدد الصفوف 8000. إذا كان لديك 4 أجهزة استشعار فقط، فسيكون عدد الصفوف 40 صفًا.
كشف
عند استخدام المعالجة الدفعية، يكون الحد الأقصى لعدد نقاط البيانات في الدفعة هو 30,000 نقطة. عدد نقاط البيانات هو عدد الإشارات مضروبًا في عدد الصفوف.
على سبيل المثال، إذا كان لديك 50 جهاز استشعار، فإن الحد الأقصى المسموح به هو 30,000/50 = 600 صف في دفعة واحدة.
اعتبارات أخرى
في حالة إضافة سمة واحدة أو أكثر في وقت ما في المستقبل، يجب إعادة تدريب النموذج بالسمات الجديدة في مجموعة التدريب.
أثناء التدريب، يتم إسقاط السمات التي يتم تحديدها على أنها إشارات ثابتة أو إشارات أحادية أو إشارات منخفضة الارتباط أو إشارات مكررة تلقائيًا بواسطة خدمة الكشف الشاذة. يمكن أن تكون السمة التي تم إسقاطها موجودة في بيانات الكشف، ولكن سيتم تجاهلها.

مخطط البيانات

تقبل خدمة الاكتشاف الشاذة صيغتي بيانات: CSV وJSON.

بالنسبة لملفات CSV، يمثل كل عمود بيانات جهاز الاستشعار. يمثل كل صف القيم المقابلة لكل جهاز استشعار في وقت معين.

يجب أن تكون قيم التوقيت بصيغة ISO 8601. استخدم الوقت بأكبر قدر ممكن من الدقة لتجنب التكرار في بيانات التدريب.

يجب أن تحتوي البيانات المنسقة بواسطة CSV على سطور مفصولة بفواصل، مع السطر الأول كعنوان وسطور أخرى كبيانات. العمود الأول هو عمود التوقيت. فيما يلي مثال للبيانات المنسقة بواسطة CSV:

timestamp,sensor1,sensor2,sensor3,sensor4,sensor5
2020-07-13T14:03:46Z,,0.6459,-0.0016,-0.6792,0
2020-07-13T14:04:46Z,0.1756,-0.5364,-0.1524,-0.6792,1
2020-07-13T14:05:46Z,0.4132,-0.029,,0.679,0

ملاحظة:

يجب ألا يحتوي ملف CSV على أية سطور فارغة، بما في ذلك السطر الأخير.

فيما يلي نفس البيانات، باستثناء صيغة JSON:

{
    "requestType": "INLINE",
    "signalNames": ["sensor1", "sensor2", "sensor3", "sensor4", "sensor5"],
    "data": [{
            "timestamp": "2020-07-13T14:03:46Z",
            "values": [null, 0.6459, -0.0016, -0.6792, 0]
        },
        {
            "timestamp": "2020-07-13T14:04:46Z",
            "values": [0.1756, -0.5364, -0.1524, -0.6792, 1]
        },
        {
            "timestamp": "2020-07-13T14:05:46Z",
            "values": [0.4132, -0.029, null, 0.679, 0]
        }
    ]
}