Funciones de análisis de base de datos

Las funciones de análisis de base de datos le permiten realizar análisis avanzados y análisis de minería de datos; por ejemplo, análisis de detección de anomalías, datos de agrupación en clusters, datos de muestreo y afinidad. Las funciones de análisis están disponibles cuando se conecta a una base de datos de Oracle o a Oracle Autonomous Data Warehouse.

Icono de tutorial Sprint de LiveLabs

Para ver el paso Analizar base de datos en el editor de flujos de datos, debe conectarse a una base de datos Oracle o a una instancia de Oracle Autonomous Data Warehouse.

Tipos de función Descripción

Detección dinámica de anomalías

Permite detectar anomalías en los datos introducidos sin un modelo predefinido. Por ejemplo, tal vez desee resaltar las transacciones financieras inusuales.

Cuando despliegue esta función con juegos de datos de gran tamaño, configure las columnas de partición para maximizar el rendimiento.

Agrupación dinámica en clusters

Permite agrupar en clusters los datos introducidos sin un modelo predefinido. Por ejemplo, tal vez desee caracterizar y detectar segmentos de clientes para utilizarlos en actividades de marketing.

Cuando despliegue esta función con juegos de datos de gran tamaño, configure las columnas de partición para maximizar el rendimiento.

Juego de elementos frecuentes

Descubra relaciones en los datos mediante la identificación de juegos de elementos que aparecen junto con frecuencia. Esta técnica de minería de datos también se conoce como aprendizaje de reglas de asociación, análisis de afinidad o, en el sector minorista, como análisis de cesta de mercado. Si utiliza juegos de elementos frecuentes como una herramienta de análisis de cesta de mercado, es posible que observe que los clientes que compran champú también compran acondicionador.

Esta operación requiere un mayor uso de recursos y su rendimiento depende de varios factores, como el volumen del juego de datos de entrada, la cardinalidad del identificador de transacción y la cardinalidad de la columna de valor Elemento. Para evitar la posible degradación del rendimiento en la base de datos, pruebe con un valor más alto de porcentaje de soporte mínimo (el valor por defecto es 0,25) y redúzcalo gradualmente para incluir más juegos de elementos en la salida.

Datos de muestreo

Permite seleccionar un porcentaje de muestreo aleatorio de los datos de una tabla. Solo tiene que especificar el porcentaje de datos del que desea realizar el muestreo. Por ejemplo, puede que desee realizar un muestreo aleatoriamente del diez por ciento de los datos.

Tokenización de texto

Analice datos textuales desglosándolos en palabras distintas y contando las ocurrencias de cada palabra. Cuando ejecuta su flujo de datos, Oracle Analytics crea una tabla en la base de datos denominada DR$IndexName$I, que contiene el texto de token y los detalles relacionados con el recuento de tokens. Utilice la tabla DR$IndexName$I para crear un juego de datos.

  • En Salidas, utilice la opción Crear situada junto a cada campo para seleccionar las columnas que se van a indexar.

  • En Parámetros y, después, en Columna de texto, haga clic en Selecciona una columna para seleccionar el campo que le gustaría desglosar en palabras distintas. Utilice las opciones Columna de referencia<número> para incluir una o más columnas en el juego de datos de salida.

La conexión de base de datos que utilice para el flujo de datos requiere privilegios de base de datos especiales. Compruebe con el administrador que:
  • La cuenta de base de datos tiene grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Utilice una conexión de Oracle Analytics con el mismo nombre de usuario que el esquema en el que existe la tabla de origen. Esta es la mejor práctica para evitar incidencias de privilegios de acceso cuando se ejecute el flujo de datos.
  • La columna de tabla de base de datos no tiene ningún índice CONTEXT existente. Si hay un índice CONTEXT existente en la tabla de base de datos que está analizando, elimine dicho índice antes de ejecutar el flujo de datos de tokenización de texto.

Serie de tiempo

La serie de tiempo en una técnica de minería de datos que realiza una previsión de valor objetivo basándose en un historial conocido de valores objetivo. La entrada en el análisis de serie de tiempo es una secuencia de valores objetivo. Proporciona estimaciones del valor objetivo para cada período de una ventana de tiempo que puede incluir un máximo de 30 períodos además de los datos históricos.

El modelo también calcula varias estadísticas que miden la bondad de ajuste a los datos históricos. Estas estadísticas están disponibles como juego de datos de salida adicional a través de un valor de parámetro.

Nota: El algoritmo de serie de tiempo solo está disponible a partir de la versión 18c de la base de datos Oracle.

Anulación del giro de los datos

Permite transponer los datos almacenados en columnas en formato de filas. Por ejemplo, puede que desee transponer varias columnas que muestren un valor de métrica de ingresos para cada año a una sola columna de ingresos con varias filas de valores para la dimensión de año. Solo tiene que seleccionar las columnas de métricas que va a transponer y especificar un nombre para la nueva columna. Se generará un nuevo juego de datos con menos columnas y más filas.

Nota: Para utilizar las funciones de análisis, asegúrese de que el administrador ha activado las funciones de análisis (a través de Consola, Configuración del sistema, Rendimiento y compatibilidad, Activar nodo Análisis de base de datos en flujos de datos).