Perfiles de datos y recomendaciones semánticas

Cuando crea un juego de datos, Oracle Analytics realiza una creación de perfiles de nivel de columna para generar un juego de recomendaciones semánticas para reparar o enriquecer sus datos. Al crear libros de trabajo, también puede incluir enriquecimientos de conocimientos en las visualizaciones agregándolas desde el panel de datos.

Estas recomendaciones se basan en que el sistema detecta automáticamente un tipo semántico específico durante el paso del perfil. Por ejemplo, se crean perfiles de juegos de datos basadas en áreas temáticas locales con una muestra sencilla de N principales.

Existen categorías de tipos semánticos como ubicaciones geográficas que se identifican mediante nombres de ciudades, patrones reconocibles como en las tarjetas de crédito, direcciones de correo electrónico y números de seguridad social, fechas y patrones recurrentes. También puede crear sus propios tipos semánticos personalizados.

Categorías de tipo semántico

La creación de perfiles se aplica a varios tipos semánticos.

Se crean perfiles de categorías de tipos semánticos para identificar:

  • Ubicaciones geográficas, como nombres de ciudades.
  • Patrones como los que se encuentran en números de tarjetas de crédito o direcciones de correo electrónico.
  • Patrones recurrentes, como datos de frases con guion.

Recomendaciones de tipo semántico

Los diferentes tipos de datos determinan las recomendaciones para reparar, mejorar o enriquecer los juegos de datos.

Estos son algunos ejemplos de recomendaciones de tipos semánticos:

  • Enriquecimientos: Adición de una nueva columna correspondiente a un tipo específico detectado (como una ubicación geográfica) a los datos. Por ejemplo, la adición de datos de población para una ciudad.
  • Concatenaciones de columnas: Cuando se detectan dos columnas en el juego de datos, una con nombres y otra con apellidos, el sistema recomienda concatenar los nombres en una sola columna. Por ejemplo, una columna first_name_last_name.
  • Extracciones semánticas: Cuando un tipo semántico está compuesto por subtipos (por ejemplo, un número us_phone que incluye el código de área), el sistema recomienda extraer el subtipo en su propia columna.
  • Extracción de partes: cuando se detecta un separador de patrón genérico en los datos, el sistema recomienda extraer partes de ese patrón. Por ejemplo, si el sistema detecta un patrón repetido en el uso de guiones en los datos, recomienda extraer las partes en columnas independientes para que los datos puedan ser más útiles a la hora de realizar análisis.
  • Extracciones de fechas: Cuando se detectan fechas, el sistema recomienda extraer partes de la fecha que puedan aumentar el análisis de los datos. Por ejemplo, podría extraer el día de la semana de una fecha de factura o de compra.
  • Ocultación/enmascaramiento total o parcial: Si se detectan campos confidenciales, como un número de tarjeta de crédito, el sistema recomienda enmascarar la columna total o parcialmente, o incluso suprimirla.

Tipos semánticos basados en patrones reconocidos

Los tipos semánticos se identifican según los patrones que se encuentran en los datos.

Se proporcionan recomendaciones para estos tipos semánticos:

  • Fechas (en más de 30 formatos)
  • Números de la seguridad social de Estados Unidos
  • Números de tarjeta de crédito
  • Atributos de tarjeta de crédito (CVV y fecha de caducidad)
  • Direcciones de correo electrónico
  • Números de teléfono del plan de Norteamérica
  • Direcciones de Estados Unidos

Tipos semánticos basados en referencias

El reconocimiento de los tipos semánticos está determinado por el conocimiento de referencia cargado que se proporciona con el servicio.

Se proporcionan recomendaciones basadas en referencias para estos tipos semánticos:

  • Nombres de país
  • Códigos de país
  • Nombres de estado (provincias)
  • Códigos de estado
  • Nombres de condados (jurisdicciones)
  • Nombres de ciudades (nombres localizados)
  • Códigos postales

Enriquecimientos recomendados

Los enriquecimientos recomendados se basan en los tipos semánticos.

Los enriquecimientos se determinan según la jerarquía de la ubicación geográfica:

  • País
  • Provincia (estado)
  • Jurisdicción (condado)
  • Longitud
  • Latitud
  • Población
  • Elevación (en metros)
  • Zona horaria
  • Códigos de país ISO
  • Serie federal de procesamiento de información (FIPS)
  • Nombre de país
  • Capital
  • Continente
  • ID de GeoNames
  • Idiomas hablados
  • Código de país de teléfono
  • Formato de código postal
  • Patrón de código postal
  • Código de país de teléfono
  • Nombre de moneda
  • Abreviatura de moneda
  • Dominio de nivel superior geográfico (GeoLTD)
  • Kilómetros cuadrados

Umbrales necesarios

El proceso de creación de perfiles utiliza umbrales específicos para decidir sobre tipos semánticos específicos.

Como regla general, el 85% de los valores de datos de la columna deben cumplir el criterio de un único tipo de semántica para que el sistema pueda realizar la determinación de clasificación. Por ello, una columna que contenga un 70% de nombres y un 30% de otros elementos no cumple con los requisitos del umbral y, por lo tanto, no se generan recomendaciones.

Recomendaciones de conocimientos personalizados

Utilice las recomendaciones de conocimientos para aumentar los conocimientos del sistema Oracle Analytics. Los conocimientos personalizados permiten al analizador de perfiles semántico de Oracle Analytics identificar más tipos semánticos específicos del negocio y realizar recomendaciones de enriquecimiento más relevantes y gestionadas. Por ejemplo, puede agregar una referencia de conocimiento personalizado que clasifique el medicamento recetado en las categorías de medicamentos de la USP (Farmacopea de los Estados Unidos) de Analgésicos u Opiáceos.

Icono de tutorial Tutorial