Perfiles de datos y recomendaciones semánticas

Cuando crea un juego de datos, Oracle Analytics realiza una creación de perfiles de nivel de columna para generar un juego de recomendaciones semánticas para reparar o enriquecer sus datos. Al crear libros de trabajo, también puede incluir enriquecimientos de conocimientos en las visualizaciones agregándolas desde el panel de datos.

Nota:

Los enriquecimientos de conocimientos suelen estar activados por defecto, pero los editores del libro de trabajo pueden activarlos o desactivarlos para los juegos de datos que poseen o para los que tienen privilegios de edición. Oracle Analytics no proporciona automáticamente recomendaciones de enriquecimiento para juegos de datos generados a partir de un flujo de datos. En este caso, el propietario o administrador del juego de datos debe activar primero la opción de enriquecimiento de conocimientos para el juego de datos. Consulte Activación de enriquecimientos de conocimientos para juegos de datos.

Estas recomendaciones se basan en que el sistema detecta automáticamente un tipo semántico específico durante el paso del perfil. Por ejemplo, se crean perfiles de juegos de datos basadas en áreas temáticas locales con una muestra sencilla de N principales.

Existen categorías de tipos semánticos como ubicaciones geográficas que se identifican mediante nombres de ciudades, patrones reconocibles como en las tarjetas de crédito, direcciones de correo electrónico y números de seguridad social, fechas y patrones recurrentes. También puede crear sus propios tipos semánticos personalizados.

Categorías de tipo semántico

La creación de perfiles se aplica a varios tipos semánticos.

Se crean perfiles de categorías de tipos semánticos para identificar:

  • Ubicaciones geográficas, como nombres de ciudades.
  • Patrones como los que se encuentran en números de tarjetas de crédito o direcciones de correo electrónico.
  • Patrones recurrentes, como datos de frases con guion.

Recomendaciones de tipo semántico

Los diferentes tipos de datos determinan las recomendaciones para reparar, mejorar o enriquecer los juegos de datos.

Estos son algunos ejemplos de recomendaciones de tipos semánticos:

  • Enriquecimientos: Adición de una nueva columna correspondiente a un tipo específico detectado (como una ubicación geográfica) a los datos. Por ejemplo, la adición de datos de población para una ciudad.
  • Concatenaciones de columnas: Cuando se detectan dos columnas en el juego de datos, una con nombres y otra con apellidos, el sistema recomienda concatenar los nombres en una sola columna. Por ejemplo, una columna first_name_last_name.
  • Extracciones semánticas: Cuando un tipo semántico está compuesto por subtipos (por ejemplo, un número us_phone que incluye el código de área), el sistema recomienda extraer el subtipo en su propia columna.
  • Extracción de partes: cuando se detecta un separador de patrón genérico en los datos, el sistema recomienda extraer partes de ese patrón. Por ejemplo, si el sistema detecta un patrón repetido en el uso de guiones en los datos, recomienda extraer las partes en columnas independientes para que los datos puedan ser más útiles a la hora de realizar análisis.
  • Extracciones de fechas: Cuando se detectan fechas, el sistema recomienda extraer partes de la fecha que puedan aumentar el análisis de los datos. Por ejemplo, podría extraer el día de la semana de una fecha de factura o de compra.
  • Ocultación/enmascaramiento total o parcial: Si se detectan campos confidenciales, como un número de tarjeta de crédito, el sistema recomienda enmascarar la columna total o parcialmente, o incluso suprimirla.

Tipos semánticos basados en patrones reconocidos

Los tipos semánticos se identifican según los patrones que se encuentran en los datos.

Se proporcionan recomendaciones para estos tipos semánticos:

  • Fechas (en más de 30 formatos)
  • Números de la seguridad social de Estados Unidos
  • Números de tarjeta de crédito
  • Atributos de tarjeta de crédito (CVV y fecha de caducidad)
  • Direcciones de correo electrónico
  • Números de teléfono del plan de Norteamérica
  • Direcciones de Estados Unidos

Tipos semánticos basados en referencias

El reconocimiento de los tipos semánticos está determinado por el conocimiento de referencia cargado que se proporciona con el servicio.

Se proporcionan recomendaciones basadas en referencias para estos tipos semánticos:

  • Nombres de país
  • Códigos de país
  • Nombres de estado (provincias)
  • Códigos de estado
  • Nombres de condados (jurisdicciones)
  • Nombres de ciudades (nombres localizados)
  • Códigos postales

Enriquecimientos recomendados

Los enriquecimientos recomendados se basan en los tipos semánticos.

Los enriquecimientos se determinan según la jerarquía de la ubicación geográfica:

  • País
  • Provincia (estado)
  • Jurisdicción (condado)
  • Longitud
  • Latitud
  • Población
  • Elevación (en metros)
  • Zona horaria
  • Códigos de país ISO
  • Serie federal de procesamiento de información (FIPS)
  • Nombre de país
  • Capital
  • Continente
  • ID de GeoNames
  • Idiomas hablados
  • Código de país de teléfono
  • Formato de código postal
  • Patrón de código postal
  • Código de país de teléfono
  • Nombre de moneda
  • Abreviatura de moneda
  • Dominio de nivel superior geográfico (GeoLTD)
  • Kilómetros cuadrados

Umbrales necesarios

El proceso de creación de perfiles utiliza umbrales específicos para decidir sobre tipos semánticos específicos.

Como regla general, el 85% de los valores de datos de la columna deben cumplir el criterio de un único tipo de semántica para que el sistema pueda realizar la determinación de clasificación. Por ello, una columna que contenga un 70% de nombres y un 30% de otros elementos no cumple con los requisitos del umbral y, por lo tanto, no se generan recomendaciones.

Recomendaciones de conocimientos personalizados

Utilice las recomendaciones de conocimientos para aumentar los conocimientos del sistema Oracle Analytics. Los conocimientos personalizados permiten al analizador de perfiles semántico de Oracle Analytics identificar más tipos semánticos específicos del negocio y realizar recomendaciones de enriquecimiento más relevantes y gestionadas. Por ejemplo, puede agregar una referencia de conocimiento personalizado que clasifique el medicamento recetado en las categorías de medicamentos de la USP (Farmacopea de los Estados Unidos) de Analgésicos u Opiáceos.

Icono de tutorial Tutorial

Pida al administrador que cargue los archivos de conocimientos personalizados en Oracle Analytics. Cuando enriquece los juegos de datos, Oracle Analytics presenta recomendaciones de enriquecimiento basadas en estos datos semánticos. Al crear libros de trabajo, también puede incluir enriquecimientos de conocimientos en las visualizaciones agregándolas desde el panel de datos.

Creación de sus propios archivos de conocimientos personalizados

A la hora de crear archivos semánticos, siga estas directrices:

  • Cree un archivo de datos con formato CSV o Microsoft Excel (XLSX). El tamaño máximo de archivo que puede cargar es 250 MB.
  • Rellene la primera columna con la clave, la cual utiliza Oracle Analytics para mostrar un perfil de los datos. Por ejemplo, la clave puede ser una fecha con el detalle del día para permitir que los datos se analicen por año fiscal.
  • Rellene las demás columnas con los valores de enriquecimiento.

Pida al administrador que cargue el archivo de conocimientos personalizados en Oracle Analytics.

Ejemplo: integración de los plazos de negocio en los datos

En este ejemplo, se muestra cómo puede agregar plazos de negocio a los datos de ventas y activar el análisis de ventas por año fiscal si el juego de datos original no contiene datos fiscales.

En el ejemplo de visualización, se muestran las ventas por trimestre en los años 2019, 2020, 2021, 2022 y 2023, donde cada año se representa con un color diferente. No tiene datos fiscales en los datos de ventas de origen, por lo que despliega conocimientos personalizados adicionales para agregar datos fiscales al juego de datos.

En primer lugar, debe preparar los datos fiscales en un archivo Fiscal Calendar.xlsx. El archivo contiene la fecha (dd-mm-aaaa), el año fiscal, el mes fiscal y la semana fiscal. Por ejemplo, el archivo de origen podría tener 01-23-2025 en la columna de fecha, 2025 en la columna de año fiscal y los atributos para completar las columnas restantes.

Pida al administrador que cargue Fiscal Calendar.xlsx en el área de conocimientos personalizados de la consola.

A continuación, cree un juego de datos que contenga Sales y ORDER_DATE y, en el editor de juegos de datos, seleccione Enriquecer ORDER_DATE con Fiscal Year y Enriquecer ORDER_DATE con Fiscal Month en las recomendaciones de enriquecimiento. Oracle Analytics agrega estos dos enriquecimientos al juego de datos.

Por último, creará un libro de trabajo y agregará el año fiscal, el trimestre fiscal (en ORDER_DATE) y las ventas a una visualización. Nota: Puede agregar el año fiscal y el trimestre fiscal directamente sin tener que agregar la columna ORDER_DATE original.