Referencia de enriquecimiento y transformación

Utilice esta información de referencia como ayuda para enriquecer y transformar los datos.

Referencia de transformación

Obtenga información sobre las opciones de transformación de datos a las que puede acceder en el editor de transformación haciendo clic con el botón derecho en una columna del juego de datos. Por ejemplo, para categorizar los tiempos de vuelta de carrera en una columna de juego de datos, puede hacer clic con el botón derecho en la columna Tiempo de vuelta" y seleccionar Discretizar.

Opción Descripción
Discretizar Le permite crear sus propios grupos personalizados para rangos de números. Por ejemplo, puede crear bins para una columna Edad con rangos de edad discretizados en Preadolescente, Adulto joven, Adulto o Anciano basado en requisitos personalizados.
Convertir en fecha Cambia el tipo de dato de la columna a fecha, y suprime los valores que no son fechas de la columna.
Convertir en número Cambia el tipo de dato de la columna a número, lo cual suprime todos los valores que no son números de la columna.
Convertir en texto Cambia el tipo de dato de una columna a texto.
Crear Crea una columna basada en una función.
Duplicar Crea una columna con el mismo contenido que la columna seleccionada.
Editar Edita la columna. Por ejemplo, puede cambiarle el nombre, seleccionar otra columna o actualizar sus funciones.
Grupo, Grupo condicional Seleccione Grupo para crear sus propios grupos personalizados. Por ejemplo, puede agrupar estados con regiones personalizadas, y categorizar las cantidades en dólares en grupos que indican pequeñas, medianas y grandes.
Ocultar Oculta la columna en el panel de datos y en las visualizaciones. Si desea ver las columnas ocultas, haga clic en Columnas ocultas (icono fantasma) en el pie de página. A continuación, puede mostrar columnas individuales o todas las columnas al mismo tiempo.
Log Calcula el logaritmo neperiano de una expresión.
Minúsculas Actualiza el contenido de una columna con todos los valores en letras minúsculas.
Potencia Eleva los valores de una columna a la potencia que especifique. La potencia por defecto es 2.
Cambiar nombre Permite cambiar el nombre de cualquier columna.
Sustituir Cambia el texto específico de la columna seleccionada a cualquier valor que se especifique. Por ejemplo, puede cambiar todas las instancias de Señor a Sr en la columna.
Uso de mayúsculas en oraciones Actualiza el contenido de una columna con la primera letra de la primera palabra de una frase en mayúsculas.
Dividir Divide el valor de una columna específica en varias partes. Por ejemplo, puede dividir una columna denominada Nombre en Nombre y Apellidos.
Raíz cuadrada Crea una columna que se rellena con la raíz cuadrada del valor de la columna seleccionada.
Mayúsculas Actualiza el contenido de una columna con todos los valores en letras mayúsculas.

Perfiles de datos y recomendaciones semánticas

Cuando crea un juego de datos, Oracle Analytics realiza una creación de perfiles de nivel de columna para generar un juego de recomendaciones semánticas para reparar o enriquecer sus datos. Al crear libros de trabajo, también puede incluir enriquecimientos de conocimientos en las visualizaciones agregándolas desde el panel de datos.

Estas recomendaciones se basan en que el sistema detecta automáticamente un tipo semántico específico durante el paso del perfil. Por ejemplo, se crean perfiles de juegos de datos basadas en áreas temáticas locales con una muestra sencilla de N principales.

Existen categorías de tipos semánticos como ubicaciones geográficas que se identifican mediante nombres de ciudades, patrones reconocibles como en las tarjetas de crédito, direcciones de correo electrónico y números de seguridad social, fechas y patrones recurrentes. También puede crear sus propios tipos semánticos personalizados.

Categorías de tipo semántico

La creación de perfiles se aplica a varios tipos semánticos.

Se crean perfiles de categorías de tipos semánticos para identificar:

  • Ubicaciones geográficas, como nombres de ciudades.
  • Patrones como los que se encuentran en números de tarjetas de crédito o direcciones de correo electrónico.
  • Patrones recurrentes, como datos de frases con guion.

Recomendaciones de tipo semántico

Los diferentes tipos de datos determinan las recomendaciones para reparar, mejorar o enriquecer los juegos de datos.

Estos son algunos ejemplos de recomendaciones de tipos semánticos:

  • Enriquecimientos: Adición de una nueva columna correspondiente a un tipo específico detectado (como una ubicación geográfica) a los datos. Por ejemplo, la adición de datos de población para una ciudad.
  • Concatenaciones de columnas: Cuando se detectan dos columnas en el juego de datos, una con nombres y otra con apellidos, el sistema recomienda concatenar los nombres en una sola columna. Por ejemplo, una columna first_name_last_name.
  • Extracciones semánticas: Cuando un tipo semántico está compuesto por subtipos (por ejemplo, un número us_phone que incluye el código de área), el sistema recomienda extraer el subtipo en su propia columna.
  • Extracción de partes: cuando se detecta un separador de patrón genérico en los datos, el sistema recomienda extraer partes de ese patrón. Por ejemplo, si el sistema detecta un patrón repetido en el uso de guiones en los datos, recomienda extraer las partes en columnas independientes para que los datos puedan ser más útiles a la hora de realizar análisis.
  • Extracciones de fechas: Cuando se detectan fechas, el sistema recomienda extraer partes de la fecha que puedan aumentar el análisis de los datos. Por ejemplo, podría extraer el día de la semana de una fecha de factura o de compra.
  • Ocultación/enmascaramiento total o parcial: Si se detectan campos confidenciales, como un número de tarjeta de crédito, el sistema recomienda enmascarar la columna total o parcialmente, o incluso suprimirla.

Tipos semánticos basados en patrones reconocidos

Los tipos semánticos se identifican según los patrones que se encuentran en los datos.

Se proporcionan recomendaciones para estos tipos semánticos:

  • Fechas (en más de 30 formatos)
  • Números de la seguridad social de Estados Unidos
  • Números de tarjeta de crédito
  • Atributos de tarjeta de crédito (CVV y fecha de caducidad)
  • Direcciones de correo electrónico
  • Números de teléfono del plan de Norteamérica
  • Direcciones de Estados Unidos

Tipos semánticos basados en referencias

El reconocimiento de los tipos semánticos está determinado por el conocimiento de referencia cargado que se proporciona con el servicio.

Se proporcionan recomendaciones basadas en referencias para estos tipos semánticos:

  • Nombres de país
  • Códigos de país
  • Nombres de estado (provincias)
  • Códigos de estado
  • Nombres de condados (jurisdicciones)
  • Nombres de ciudades (nombres localizados)
  • Códigos postales

Enriquecimientos recomendados

Los enriquecimientos recomendados se basan en los tipos semánticos.

Los enriquecimientos se determinan según la jerarquía de la ubicación geográfica:

  • País
  • Provincia (estado)
  • Jurisdicción (condado)
  • Longitud
  • Latitud
  • Población
  • Elevación (en metros)
  • Zona horaria
  • Códigos de país ISO
  • Serie federal de procesamiento de información (FIPS)
  • Nombre de país
  • Capital
  • Continente
  • ID de GeoNames
  • Idiomas hablados
  • Código de país de teléfono
  • Formato de código postal
  • Patrón de código postal
  • Código de país de teléfono
  • Nombre de moneda
  • Abreviatura de moneda
  • Dominio de nivel superior geográfico (GeoLTD)
  • Kilómetros cuadrados

Umbrales necesarios

El proceso de creación de perfiles utiliza umbrales específicos para decidir sobre tipos semánticos específicos.

Como regla general, el 85% de los valores de datos de la columna deben cumplir el criterio de un único tipo de semántica para que el sistema pueda realizar la determinación de clasificación. Por ello, una columna que contenga un 70% de nombres y un 30% de otros elementos no cumple con los requisitos del umbral y, por lo tanto, no se generan recomendaciones.

Recomendaciones de conocimientos personalizados

Utilice las recomendaciones de conocimientos para aumentar los conocimientos del sistema Oracle Analytics. Los conocimientos personalizados permiten al analizador de perfiles semántico de Oracle Analytics identificar más tipos semánticos específicos del negocio y realizar recomendaciones de enriquecimiento más relevantes y gestionadas. Por ejemplo, puede agregar una referencia de conocimiento personalizado que clasifique el medicamento recetado en las categorías de medicamentos de la USP (Farmacopea de los Estados Unidos) de Analgésicos u Opiáceos.

Icono de tutorial Tutorial

Puede utilizar los archivos semánticos existentes, como los archivos USP (Analizador semántico no supervisado), o puede crear sus propios archivos semánticos. Pida al administrador que cargue los archivos de conocimientos personalizados en Oracle Analytics. Cuando enriquece los juegos de datos, Oracle Analytics presenta recomendaciones de enriquecimiento basadas en estos datos semánticos. Al crear libros de trabajo, también puede incluir enriquecimientos de conocimientos en las visualizaciones agregándolas desde el panel de datos.

Creación de sus propios archivos de conocimientos personalizados

Al crear sus propios archivos semánticos, siga estas directrices:

  • Cree un archivo de datos con formato CSV o Microsoft Excel (XLSX). El tamaño máximo de archivo que puede cargar es 250 MB.
  • Rellene la primera columna con la clave, la cual utiliza Oracle Analytics para mostrar un perfil de los datos.
  • Rellene las demás columnas con los valores de enriquecimiento.

Pida al administrador que cargue el archivo de conocimientos personalizados en Oracle Analytics.

Cadenas de formato personalizado generales

Puede utilizar cadenas de formato personalizado generales para crear formatos de fecha y hora personalizados.

La tabla muestra las cadenas de formato personalizado generales y los resultados que muestran. Estas cadenas permiten visualizar los campos de fecha y hora en la configuración regional del usuario.

Cadena de formato general Resultado

[FMT:dateShort]

Aplica a la fecha el formato de fecha abreviada de la configuración regional. También puede introducir [FMT:date].

[FMT:dateLong]

Aplica a la fecha el formato de fecha larga de la configuración regional.

[FMT:dateInput]

Aplica a la fecha un formato aceptable para introducirla de nuevo en el sistema.

[FMT:time]

Aplica a la hora el formato de hora de la configuración regional.

[FMT:timeHourMin]

Aplica a la hora el formato de hora de la configuración regional pero omite los segundos.

[FMT:timeInput]

Aplica a la hora un formato aceptable para introducirla de nuevo en el sistema.

[FMT:timeInputHourMin]

Aplica a la hora un formato aceptable para introducirla de nuevo en el sistema, pero omite los segundos.

[FMT:timeStampShort]

Equivale a introducir [FMT:dateShort] [FMT:time]. Aplica a la fecha el formato de fecha abreviada de la configuración regional y a la hora el formato de hora de la configuración regional. También puede introducir [FMT:timeStamp].

[FMT:timeStampLong]

Equivale a introducir [FMT:dateLong] [FMT:time]. Aplica a la fecha el formato de fecha larga de la configuración regional y a la hora el formato de hora de la configuración regional.

[FMT:timeStampInput]

Equivalente a [FMT:dateInput] [FMT:timeInput]. Aplica a la fecha y la hora un formato aceptable para introducirlas de nuevo en el sistema.

[FMT:timeHour]

Solo aplica al campo de la hora el formato de la configuración regional, por ejemplo, 8 PM.

YY o yy

Muestra los dos últimos dígitos del año, por ejemplo, 11 para 2011.

YYY o yyy

Muestra los tres últimos dígitos del año, por ejemplo, 011 para 2011.

YYYY o yyyy

Muestra los cuatro dígitos del año, por ejemplo, 2011.

M

Muestra el mes numérico (por ejemplo, 2 para febrero).

MM

Muestra el mes numérico, con ceros a la izquierda en el caso de meses de un solo dígito (por ejemplo, 02 para febrero).

MMM

Muestra el nombre abreviado del mes de la configuración regional del usuario (por ejemplo, Feb).

MMMM

Muestra el nombre completo del mes de la configuración regional del usuario (por ejemplo, Febrero).

D o d

Muestra el día del mes (por ejemplo, 1).

DD o dd

Muestra el día del mes, con ceros a la izquierda en el caso de días de un solo dígito (por ejemplo, 01).

DDD o ddd

Muestra el nombre abreviado del día de la semana de la configuración regional del usuario (por ejemplo, Jue para jueves).

DDDD o dddd

Muestra el nombre completo del día de la semana de la configuración regional del usuario (por ejemplo, Jueves para jueves).

DDDDD o ddddd

Muestra la primera letra del nombre del día de la semana de la configuración regional del usuario (por ejemplo, J para jueves).

r

Muestra el día del año (por ejemplo, 1).

rr

Muestra el día del año, con ceros a la izquierda en el caso de días del año de un solo dígito (por ejemplo, 01).

rrr

Muestra el día del año, con ceros a la izquierda en el caso de días del año de un solo dígito (por ejemplo, 001).

w

Muestra la semana del año (por ejemplo, 1).

ww

Muestra la semana del año, con ceros a la izquierda en el caso de semanas de un solo dígito (por ejemplo, 01).

q

Muestra el trimestre del año (por ejemplo, 4).

h

Muestra la hora en formato de 12 horas (por ejemplo, 2).

H

Muestra la hora en formato de 24 horas (por ejemplo, 23).

hh

Muestra la hora en formato de 12 horas, con ceros a la izquierda en el caso de horas de un solo dígito (por ejemplo, 01).

HH

Muestra la hora en formato de 24 horas, con ceros a la izquierda en el caso de horas de un solo dígito (por ejemplo, 23).

m

Muestra el minuto (por ejemplo, 7).

mm

Muestra el minuto, con ceros a la izquierda en el caso de minutos de un solo dígito (por ejemplo, 07).

s

Muestra el segundo (por ejemplo, 2).

También puede incluir decimales en la cadena, como s.# o s.00 (donde # representa un dígito opcional y 0 un dígito obligatorio).

ss

Muestra los segundos, con ceros a la izquierda en el caso de segundos de un solo dígito (por ejemplo, 02).

También puede incluir decimales en la cadena, como ss.# o ss.00 (donde # representa un dígito opcional y 0 un dígito obligatorio).

S

Muestra los milisegundos (por ejemplo, 2).

SS

Muestra los milisegundos, con ceros a la izquierda en el caso de milisegundos de un solo dígito (por ejemplo, 02).

SSS

Muestra los milisegundos, con ceros a la izquierda en el caso de milisegundos de un solo dígito (por ejemplo, 002).

tt

Muestra la abreviatura de antes del mediodía y después del mediodía en la configuración regional del usuario (por ejemplo, pm).

gg

Muestra la era de la configuración regional del usuario.