Функции аналитики баз данных

Функции аналитики баз данных позволяет выполнять расширенный анализ и интеллектуальный анализ данных, например обнаруживать аномалии, разбивать данные на кластеры, делать выборки данных и анализировать сходство. Функции аналитики доступны при подключении к базе данных Oracle или Oracle Autonomous Data Warehouse.

Значок руководства LiveLabs Sprint

Чтобы отобразить шаг Аналитика баз данных в редакторе потоков данных, необходимо подключиться к базе данных Oracle или автономному хранилищу данных Oracle.

Типы функций Описание

Динамическое обнаружение аномалий

Обнаруживайте аномалии во входных данных без предварительно определенной модели. Например, можно выделять необычные финансовые операции.

При развертывании этой функции с большими наборами данных настройте столбцы разделов для максимального повышения производительности.

Динамическая кластеризация

Объединяйте входные данные в кластер без предварительно определенной модели. Например, можно характеризовать и обнаруживать сегменты заказчиков в маркетинговых целях.

При развертывании этой функции с большими наборами данных настройте столбцы разделов для максимального повышения производительности.

Набор часто используемых позиций

Выявляйте взаимосвязи в данных путем определения наборов позиций, которые часто появляются вместе. Этот метод интеллектуального анализа данных также известен как изучение правил ассоциации, анализ сходства или анализ розничных продаж как анализ рыночной корзины (в розничной торговле). Если вы используете набор часто используемых позиций в качестве инструмента для анализа рыночной корзины, вы сможете найти покупателей, которые помимо шампуня также покупают кондиционер для волос.

Эта операция требует большого количества ресурсов, а ее производительность зависит от нескольких факторов, таких как том наборов входных данных, кардинальное число идентификатора транзакции и кардинальное число столбца значения позиции. Чтобы избежать возможного снижения производительности базы данных, попробуйте увеличить минимальный процент поддержки (значение по умолчанию — 0,25) и постепенно уменьшайте его, чтобы вместить в выходных данных больше наборов позиций.

Выборка данных

Выбор процента произвольной выборки данных из таблицы. Достаточно просто указать процент данных, выборку которых вы хотите получить. Например, вы собираетесь выполнить произвольную выборку десяти процентов данных.

Разметка текста

Анализируйте текстовые данные, разбивая их на отдельные слова и подсчитывая вхождения каждого слова. При выполнении потока данных Oracle Analytics создает в базе данных таблицу DR$IndexName$I с текстом маркера и сведениями о количестве маркеров. Используйте таблицу DR$IndexName$I для создания набора данных.

  • В разделе Выходы используйте команду Создать рядом с каждым полем, чтобы выбрать столбцы для индексации.

  • В разделе Параметры выберите Текстовый столбец и нажмите Выбрать столбец, чтобы выбрать поле, которое необходимо разбить на отдельные слова. Используйте параметры Справочный столбец <номер>, чтобы включить один или несколько столбцов в набор выходных данных. Выбирайте особые языки, такие как китайский, датский, нидерландский, английский, финский, немецкий, норвежский, японский, корейский и шведский, с помощью параметра Использовать лексический анализатор специальных языков. См. Документация по базе данных Oracle для получения подробных сведений о поддерживаемых языках.

Для подключения к базе данных, используемого для потока данных, требуются специальные права доступа к базе данных. Уточните у администратора следующее:
  • У вашей учетной записи базы данных имеется grant EXECUTE on CTXSYS.CTX_DDL to schema name.
  • Вы используете подключение Oracle Analytics с тем же именем пользователя, что и схема, в которой существует исходная таблица. Рекомендуется избегать проблем с правами доступа при работе с потоком данных.
  • У анализируемого столбца таблицы базы данных нет индекса CONTEXT. Если в анализируемой таблице базы данных имеется индекс CONTEXT, удалите этот индекс перед запуском потока данных для разметки текста.

Временные ряды

Временные ряды —это метод интеллектуального анализа данных, при котором прогнозируется целевое значение на основе имеющейся истории целевых значений. Анализ входных данных по временным рядам представляет собой последовательность целевых значений. В нем приводятся оценки целевого значения для каждого периода временного окна, которое может включать до 30 периодов, выходящих за пределы исторических данных.

Модель также вычисляет различные статистические данные, которые измеряют соответствие историческим данным. Эти статистические данные доступны в качестве дополнительного выходного набора данных с помощью настройки параметра.

Примечание. Алгоритм временных рядом доступен только в базе данных Oracle 18c и более поздних версий.

Преобразование столбцов данных в строки

Преобразование данных, хранящихся в столбцах, в формат строк. Например, можно преобразовать несколько столбцов, показывающих значение показателя доходов за каждый год, в один столбец доходов с несколькими строками значений для измерения "год". Просто выберите столбцы показателей для преобразования и задайте имя для нового столбца. Вы получите новый набор данных с меньшим количеством столбцов и большим количеством строк.

Примечание. Чтобы использовать функции аналитики, убедитесь, что администратор включил эти функции (в консоли выполните переход: "Расширенные системные настройки, Производительность и совместимость, Включение узла аналитики базы данных в потоки данных").