عمليات توصيف البيانات والتوصيات الدلالية

عند تكوين مجموعة بيانات، يقوم Oracle Analytics بتعريف البيانات على مستوى العمود لإنتاج مجموعة من التوصيات الدلالية لإصلاح بياناتك أو إثرائها. عندما تقوم بتكوين المصنفات، يمكنك أيضًا تضمين إثراء المعرفة في تمثيلاتك المرئية عن طريق إضافتها من لوحة البيانات.

ملاحظة:

عادةً ما يتم تمكين الإثراءات المعرفية بشكل افتراضي، ولكن يمكن لمحرري المصنفات تمكينها أو تعطيلها لمجموعات البيانات التي يمتلكونها أو التي لديهم امتيازات تحريرها. لا تقدم Oracle Analytics تلقائيًا توصيات إثراء لمجموعات البيانات التي تم إنشاؤها من تدفق بيانات. في هذه الحالة، يجب على مالك مجموعة البيانات أو المسئول أولاً تمكين خيار إثراء المعرفة لمجموعة البيانات. يرجى الاطلاع على تمكين إثراء المعرفة لمجموعات البيانات.

وتستند تلك التوصيات إلى النوع الدلالي المحدد الذي اكتشفه النظام بشكل تلقائي أثناء خطوة التوصيف. على سبيل المثال، يتم تعريف بيانات مجموعات البيانات في مناطق الموضوعات المحلية باستخدام عينة أعلى رقم بسيطة.

هناك فئات من الأنواع الدلالية مثل المواقع الجغرافية المحددة بأسماء المدن والأنماط التي يمكن التعرف عليها كما في بطاقات الائتمان وعناوين البريد الإلكتروني وأرقام الضمان الاجتماعي والتواريخ والأنماط المتكررة. يمكنك أيضًا إنشاء الأنواع الدلالية الخاصة بك.

فئات الأنواع الدلالية

يسري التحليل على العديد من الأنواع الدلالية.

يتم تصنيف فئات الأنواع الدلالية للتعرف على:

  • المواقع الجغرافية مثل أسماء المدن.
  • الأنماط مثل أرقام بطاقات الائتمان أو عناوين البريد الإلكتروني.
  • الأنماط المتكررة مثل بيانات العبارات ذات الواصلة.

توصيات الأنواع الدلالية

يتم تحديد التوصيات المتعلقة بإصلاح مجموعة البيانات أو تحسينها أو إثرائها وفقًا لنوع البيانات.

أمثلة على التوصيات بشأن الأنواع الدلالية:

  • عمليات الإثراء - إضافة عمود جديد إلى البيانات مناظر لنوع بيانات موجود، مثل الموقع الجغرافي. ومثل ذلك، إضافة بيانات الكتلة السكانية إلى مدينة.
  • تسلسل الأعمدة - عند اكتشاف عمودين في مجموعة البيانات، يشتمل أحدهما على الأسماء الأولى فيما يشتمل الثاني على الألقاب، فإن النظام يوصي بإنشاء سلسلة تضم الأسماء في عمود واحد. مثل عمود first_name_last_name.
  • عمليات الاستخراج الدلالية - متى كان هناك نوع دلالي يتألف من أنواع فرعية، مثل رقم us_phone والذي يتضمن رمز المنطقة، فإن النظام يوصي باستخراج النوع الفرعي في عمود مستقل.
  • استخراج الأجزاء - عند اكتشاف فاصل نمطي عام في البيانات، فإن النظام يوصي باستخراج أجزاء ذلك النمط. على سبيل المثال، في حالة اكتشاف النظام لتكرار ورود الواصلة في البيانات، إنه يوصي باستخراج الأجزاء في أعمدة منفصلة حتى تصبح البيانات أعظم فائدة في التحليل.
  • عمليات استخراج التاريخ - عند اكتشاف وجود تواريخ فإن النظام يوصي باستخراج أجزاء التاريخ التي قد تعزز تحليل البيانات. فمثلا، يمكن استخراج اليوم من تاريخ شراء أو فاتورة.
  • التعتيم/الإخفاء/الحذف الكلي والجزئي - عند اكتشاف وجود حقول بيانات حساسة، مثل رقم بطاقة الائتمان، فإن النظام يوصي بإجراء إخفاء، بل وربما إزالة، كلية أو جزئية للعمود.

الأنواع الدلالية المعترف بها ذات النمط

يتم تبين الأنواع الدلالية تبعًا للأنماط الموجودة في بياناتك.

يتم تقديم توصيات بشأن تلك الأنواع الدلالية:

  • التواريخ (بأكثر من 30 صيغة)
  • أرقام الضمان الاجتماعي في الولايات المتحدة (SSN)
  • أرقام بطاقة الائتمان
  • سمات بطاقة الائتمان (رقم التعريف وتاريخ انتهاء الصلاحية)
  • عناوين البريد الإلكتروني
  • أرقام الهواتف في أمريكا الشمالية
  • العناوين في الولايات المتحدة

الأنواع الدلالية ذات المرجعية

يتم التعرف على الأنواع الدلالية وفقًا للمحتوى المعرفي المرجعي المحمل مسبقًا مع الخدمة.

يتم تقديم توصيات تستند إلى مراجع لتلك الأنواع الدلالية:

  • أسماء البلاد
  • رموز البلاد
  • أسماء الولايات (الأقاليم)
  • رموز الولايات
  • أسماء المقاطعات (الولايات القضائية)
  • أسماء المدن (الأسماء المترجمة)
  • الرموز البريدية

عمليات الإثراء الموصى بها

تستند عمليات الإثراء الموصى بها على الأنواع الدلالية.

تتحدد عمليات الإثراء بناءً على تدرج المواقع الجغرافية:

  • البلد
  • الإقليم (الولاية)
  • الولاية القضائية (المقاطعة)
  • خط الطول
  • خط العرض
  • عدد السكان
  • الارتفاع عن سطح البحر (بالأمتار)
  • المنطقة الزمنية
  • رموز البلاد بنظام الأيزو
  • سلسلة معالجة المعلومات الفيدرالية (FIPS)
  • اسم البلد
  • العاصمة
  • القارة
  • معرف الأسماء الجغرافية
  • اللغات المستخدمة
  • كود هاتف البلد
  • صيغة الرمز البريدي
  • نمط الرمز البريدي
  • كود هاتف البلد
  • اسم العملة
  • اختصار العملة
  • النطاق الجغرافي الأعلى (GeoLTD)
  • الكيلومتر المربع

الحدود المطلوبة

تستخدم عملية التحليل حدودًا بعينها لاتخاذ قرارات بشأن أنواع دلالية محددة.

وكقاعدة عامة، يجب أن تلبي 85% من قيم البيانات في العمود معاييرَ نوع دلالي واحد حتى يتسنى للنظام اتخاذ قرار بشأن التصنيف. ونتيجة لذلك، فإن عمودًا يشتمل بنسبة 70% على الأسماء الأولى و30% على "قيم أخرى" لا يفي بمتطلبات الحد، ومن ثَمَّ لا يتم تقديم توصيات.

توصيات المعرفة المخصصة

استخدم توصيات المعرفة المخصصة لتحسين معرفة نظام Oracle Analytics. تتيح المعرفة المخصصة لمحلل صياغة Oracle Analytics تعريف أنواع الصياغة الأكثر تحديدًا للأعمال والحصول على توصيات إثراء محوكمة وذات صلة. على سبيل المثال، قد تحتاج إلى إضافة مرجع معرفة مخصصة يقوم بتصنيف أدوية موصوفة في فئات أدوية USP لـ Analgesics أو Opioid.

أيقونة تعليمية المادة التعليمية

اطلب من المسؤول لديك تحميل ملفات المعرفة المخصصة إلى Oracle Analytics. عندما تقوم بإثراء مجموعات البيانات، تقدم Oracle Analytics توصيات إثراء بناءً على البيانات الدلالية هذه. عندما تقوم بتكوين المصنفات، يمكنك أيضًا تضمين إثراء المعرفة في تمثيلاتك المرئية عن طريق إضافتها من لوحة البيانات.

إنشاء ملفات المعرفة المخصصة الخاصة بك

عند إنشاء ملفات الصياغة، اتبع الإرشادات التالية:

  • إنشاء ملف بيانات بتنسيق CSV أو Microsoft Excel (XLSX). الحد الأقصى لحجم الملف الذي يمكن تحميله هو 250 ميجابايت.
  • ملء العمود الأول بالمفتاح الذي يستخدمه Oracle Analytics لتحليل البيانات. على سبيل المثال، قد يكون المفتاح تاريخًا يحتوي على دقة اليوم لتمكين تحليل البيانات حسب السنة المالية.
  • ملء الأعمدة الأخرى بقيم الإثراء.

اطلب من المسؤول لديك تحميل ملف المعرفة المخصصة الخاص بك إلى Oracle Analytics.

مثال - دمج الأطر الزمنية للأعمال في بياناتك

يوضح هذا المثال كيفية إضافة الأطر الزمنية للأعمال إلى بيانات المبيعات وتمكين تحليل المبيعات حسب السنة المالية إذا كانت مجموعة البيانات الأصلية لا تحتوي على بيانات مالية.

يعرض مثال التصور المبيعات حسب ربع السنة في السنوات 2019، و2020، و2021، و2022، و2023، حيث يتم تمثيل كل عام بلون مختلف. ليس لديك بيانات مالية في بيانات مبيعاتك المصدر، لذا يمكنك نشر معرفة مخصصة إضافية لإضافة البيانات المالية إلى مجموعة بياناتك.

أولاً، يمكنك إعداد البيانات المالية في ملف مالي Calendar.xlsx. يحتوي ملفك على التاريخ (dd-mm-yyyy) والسنة المالية والشهر المالي والأسبوع المالي. على سبيل المثال، يمكن أن يحتوي ملف المصدر على 01-23-2025 في عمود التاريخ، و2025 في عمود السنة المالية، وسمات إكمال الأعمدة المتبقية.

اطلب من المسئول تحميل Fiscal Calendar.xlsx إلى منطقة المعرفة المخصصة في وحدة التحكم.

يمكنك بعد ذلك تكوين مجموعة بيانات تحتوي على Sales وORDER_DATE، وفي محرر مجموعة البيانات حدد إثراء ORDER_DATE بالسنة المالية وإثراء ORDER_DATE بالشهر المالي في توصيات الإثراء. يضيف Oracle Analytics هذين الإثراءين إلى مجموعة البيانات.

وأخيرًا، يمكنك تكوين مصنف وإضافة السنة المالية وربع السنة المالية (ضمن ORDER_DATE) والمبيعات إلى تمثيل مرئي. ملاحظة: يمكنك إضافة السنة المالية وربع السنة المالية مباشرةً دون الحاجة إلى إضافة عمود ORDER_DATE الأصلي.