عمليات توصيف البيانات والتوصيات الدلالية

عند تكوين مجموعة بيانات، يقوم Oracle Analytics بتعريف البيانات على مستوى العمود لإنتاج مجموعة من التوصيات الدلالية لإصلاح بياناتك أو إثرائها. عندما تقوم بتكوين المصنفات، يمكنك أيضًا تضمين إثراء المعرفة في تمثيلاتك المرئية عن طريق إضافتها من لوحة البيانات.

وتستند تلك التوصيات إلى النوع الدلالي المحدد الذي اكتشفه النظام بشكل تلقائي أثناء خطوة التوصيف. على سبيل المثال، يتم تعريف بيانات مجموعات البيانات في مناطق الموضوعات المحلية باستخدام عينة أعلى رقم بسيطة.

هناك فئات من الأنواع الدلالية مثل المواقع الجغرافية المحددة بأسماء المدن والأنماط التي يمكن التعرف عليها كما في بطاقات الائتمان وعناوين البريد الإلكتروني وأرقام الضمان الاجتماعي والتواريخ والأنماط المتكررة. يمكنك أيضًا إنشاء الأنواع الدلالية الخاصة بك.

فئات الأنواع الدلالية

يسري التحليل على العديد من الأنواع الدلالية.

يتم تصنيف فئات الأنواع الدلالية للتعرف على:

  • المواقع الجغرافية مثل أسماء المدن.
  • الأنماط مثل أرقام بطاقات الائتمان أو عناوين البريد الإلكتروني.
  • الأنماط المتكررة مثل بيانات العبارات ذات الواصلة.

توصيات الأنواع الدلالية

يتم تحديد التوصيات المتعلقة بإصلاح مجموعة البيانات أو تحسينها أو إثرائها وفقًا لنوع البيانات.

أمثلة على التوصيات بشأن الأنواع الدلالية:

  • عمليات الإثراء - إضافة عمود جديد إلى البيانات مناظر لنوع بيانات موجود، مثل الموقع الجغرافي. ومثل ذلك، إضافة بيانات الكتلة السكانية إلى مدينة.
  • تسلسل الأعمدة - عند اكتشاف عمودين في مجموعة البيانات، يشتمل أحدهما على الأسماء الأولى فيما يشتمل الثاني على الألقاب، فإن النظام يوصي بإنشاء سلسلة تضم الأسماء في عمود واحد. مثل عمود first_name_last_name.
  • عمليات الاستخراج الدلالية - متى كان هناك نوع دلالي يتألف من أنواع فرعية، مثل رقم us_phone والذي يتضمن رمز المنطقة، فإن النظام يوصي باستخراج النوع الفرعي في عمود مستقل.
  • استخراج الأجزاء - عند اكتشاف فاصل نمطي عام في البيانات، فإن النظام يوصي باستخراج أجزاء ذلك النمط. على سبيل المثال، في حالة اكتشاف النظام لتكرار ورود الواصلة في البيانات، إنه يوصي باستخراج الأجزاء في أعمدة منفصلة حتى تصبح البيانات أعظم فائدة في التحليل.
  • عمليات استخراج التاريخ - عند اكتشاف وجود تواريخ فإن النظام يوصي باستخراج أجزاء التاريخ التي قد تعزز تحليل البيانات. فمثلا، يمكن استخراج اليوم من تاريخ شراء أو فاتورة.
  • التعتيم/الإخفاء/الحذف الكلي والجزئي - عند اكتشاف وجود حقول بيانات حساسة، مثل رقم بطاقة الائتمان، فإن النظام يوصي بإجراء إخفاء، بل وربما إزالة، كلية أو جزئية للعمود.

الأنواع الدلالية المعترف بها ذات النمط

يتم تبين الأنواع الدلالية تبعًا للأنماط الموجودة في بياناتك.

يتم تقديم توصيات بشأن تلك الأنواع الدلالية:

  • التواريخ (بأكثر من 30 صيغة)
  • أرقام الضمان الاجتماعي في الولايات المتحدة (SSN)
  • أرقام بطاقة الائتمان
  • سمات بطاقة الائتمان (رقم التعريف وتاريخ انتهاء الصلاحية)
  • عناوين البريد الإلكتروني
  • أرقام الهواتف في أمريكا الشمالية
  • العناوين في الولايات المتحدة

الأنواع الدلالية ذات المرجعية

يتم التعرف على الأنواع الدلالية وفقًا للمحتوى المعرفي المرجعي المحمل مسبقًا مع الخدمة.

يتم تقديم توصيات تستند إلى مراجع لتلك الأنواع الدلالية:

  • أسماء البلاد
  • رموز البلاد
  • أسماء الولايات (الأقاليم)
  • رموز الولايات
  • أسماء المقاطعات (الولايات القضائية)
  • أسماء المدن (الأسماء المترجمة)
  • الرموز البريدية

عمليات الإثراء الموصى بها

تستند عمليات الإثراء الموصى بها على الأنواع الدلالية.

تتحدد عمليات الإثراء بناءً على تدرج المواقع الجغرافية:

  • البلد
  • الإقليم (الولاية)
  • الولاية القضائية (المقاطعة)
  • خط الطول
  • خط العرض
  • عدد السكان
  • الارتفاع عن سطح البحر (بالأمتار)
  • المنطقة الزمنية
  • رموز البلاد بنظام الأيزو
  • سلسلة معالجة المعلومات الفيدرالية (FIPS)
  • اسم البلد
  • العاصمة
  • القارة
  • معرف الأسماء الجغرافية
  • اللغات المستخدمة
  • كود هاتف البلد
  • صيغة الرمز البريدي
  • نمط الرمز البريدي
  • كود هاتف البلد
  • اسم العملة
  • اختصار العملة
  • النطاق الجغرافي الأعلى (GeoLTD)
  • الكيلومتر المربع

الحدود المطلوبة

تستخدم عملية التحليل حدودًا بعينها لاتخاذ قرارات بشأن أنواع دلالية محددة.

وكقاعدة عامة، يجب أن تلبي 85% من قيم البيانات في العمود معاييرَ نوع دلالي واحد حتى يتسنى للنظام اتخاذ قرار بشأن التصنيف. ونتيجة لذلك، فإن عمودًا يشتمل بنسبة 70% على الأسماء الأولى و30% على "قيم أخرى" لا يفي بمتطلبات الحد، ومن ثَمَّ لا يتم تقديم توصيات.

توصيات المعرفة المخصصة

استخدم توصيات المعرفة المخصصة لتحسين معرفة نظام Oracle Analytics. تتيح المعرفة المخصصة لمحلل صياغة Oracle Analytics تعريف أنواع الصياغة الأكثر تحديدًا للأعمال والحصول على توصيات إثراء محوكمة وذات صلة. على سبيل المثال، قد تحتاج إلى إضافة مرجع معرفة مخصصة يقوم بتصنيف أدوية موصوفة في فئات أدوية USP لـ Analgesics أو Opioid.

أيقونة تعليمية المادة التعليمية