Улучшение данных в визуализациях с помощью статической аналитики

Статистическая аналитика позволяет выделить кластеры или выбросы, добавить прогнозы и продемонстрировать в рабочих книгах линии трендов и опорные линии.

Перед началом работы со статистической аналитикой

Чтобы добавить в рабочую книгу статистическую аналитику, например прогнозы, выбросы и линии трендов, можно либо воспользоваться готовой аналитикой с панели аналитики в окне данных, либо использовать функции в построителе выражений, если нужно точнее настроить конфигурацию.

Oracle Analytics позволяет добавить разные варианты статистической аналитики с панели "Аналитика" в окне "Данные". Эти варианты заранее настроены, и для получения результатов не нужно быть специалистом по статистике.
Описание GUID-F6772E69-9E99-49A9-9DFE-0679A982807A-default.png ниже
.png

Базовые параметры этой аналитики можно настроить в окне "Синтаксис". Например, если визуализация анализирует внеплановые расходы по месяцам, можно использовать параметр Периоды, чтобы указать количество месяцев в прогнозе (в нашем примере "3" означает прогноз на три месяца — январь, февраль и март, когда конечная точка соответствует декабрю).

Если вам нужно уточнить настройки статистики или вы хотите использовать аналитику в других визуализациях, можно добавить расчет и воспользоваться построителем выражений для создания нужной функции. (На панели "Данные" в окне "Данные" нажмите Добавить (+), а затем Создать расчет, чтобы вывести на экран построитель выражений.) Например, можно воспользоваться функцией FORECAST().
Описание GUID-9C973284-481F-4C20-A5FE-390B986ABE0A-default.png ниже
.png

См. раздел "Создание вычисляемых элементов данных".

Можно также создать расчет на основе кластера или выброса и сохранить его в разделе "Мои расчеты", чтобы затем использовать на других холстах рабочей книги. См. раздел "Создание расчета на основе кластера или выброса".

Какую статистическую аналитику можно добавить в визуализации?

Добавьте статическую аналитику к визуализациям, чтобы получить более точный анализ своих данных.
Описание GUID-F6772E69-9E99-49A9-9DFE-0679A982807A-default.png ниже
.png

Прогноз

Функция прогнозирования использует линейную регрессию для прогнозирования будущих значений на основе существующих значений в рамках линейного тренда.

Можно задать количество временных периодов в будущем, для которых требуется спрогнозировать значение на основе имеющихся данных временного ряда. См. раздел "Добавление статистической аналитики в визуализации".

Oracle поддерживает модели прогнозирования этих типов:

  • Auto-Regressive Integrated Moving Average (ARIMA) — используется, если данные прошлого временного ряда не являются сезонными, но содержат достаточно наблюдений (не менее 50, но желательно более 100 наблюдений) для объяснения и проектирования будущего.
  • Seasonal ARIMA — используется, если для ваших данных характерны регулярные изменения, повторяющиеся в течение временных периодов. Например, сезонность в месячных данных может проявляться в том, что высокие значения приходятся на летние месяцы, а низкие — на зимние.
  • Exponential Triple Smoothing (ETS) — используется для анализа повторяющихся данных временных рядов, которые не имеют четкой закономерности. Тип модели создает экспоненциальное скользящее среднее, которое учитывает тенденцию данных повторяться в интервалах времени.

Кроме того, можно создать настраиваемый расчет с помощью функции FORECAST, чтобы улучшить контроль над настройками или использовать прогноз в других визуализациях. См. раздел "Функции временного ряда".

Кластеры

Функция cluster группирует набор объектов таким образом, что объекты в одной группе демонстрируют большую согласованность и близость друг к другу, чем объекты в других группах. Например, в рассеянной диаграмме можно использовать цвета, чтобы показать кластеры различных групп. См. раздел "Добавление статистической аналитики в визуализации".

  • Кластеризация K-средних — Используйте для разделения "n" наблюдений на "k" кластеров, в которых каждое наблюдение относится к кластеру с ближайшим средним значением, служащим прототипом кластера.
  • Иерархическая кластеризация — используется для создания иерархии кластеров, построенных с использованием либо агломеративного (снизу вверх), либо разделительного (сверху вниз) подхода.

Можно также создать настраиваемый расчет с помощью функции CLUSTER, чтобы улучшить контроль над настройками или использовать кластер в других визуализациях. См. раздел "Аналитические функции".

Выбросы

Функция выбросов заключается в отображении записей данных, которые наиболее удалены от среднего ожидания отдельных значений. Например, в эту категорию попадают экстремальные значения, которые сильнее всего отклоняются от других наблюдений. Выбросы могут указывать на изменчивость измерений, экспериментальные ошибки или новизну. Если добавить выбросы на диаграмму, на которой уже есть кластеры, то выбросы представляются разными фигурами.

В выбросах можно использовать кластеризацию K-средних или иерархическую кластеризацию. См. раздел "Добавление статистической аналитики в визуализации".

Либо создайте настраиваемый расчет с помощью функции OUTLIER, чтобы улучшить контроль над настройками или использовать выброс в других визуализациях. См. раздел "Аналитические функции".

Опорные линии

Функция опорных линий заключается в определении на диаграмме горизонтальных или вертикальных линии, соответствующих значениям оси X или оси Y. См. раздел "Добавление опорных линий в визуализации".

  • Линия — можно выбрать для расчета линии между средним, минимумом или максимумом. Например, в отрасли авиаперевозок, если построить график пассажиропотока по времени, то опорная линия может показать положение относительно среднего уровня пассажиропотока (выше или ниже) в конкретном месяце.
  • Диапазон представляет собой верхний и нижний диапазон точек данных. Можно выбрать настраиваемый вариант или функцию стандартного отклонения, а также между средним, максимальным и минимальным значениями. Например, анализируя продажи по месяцам и используете пользовательский базисный диапазон от среднего до максимального, можно определить месяцы, в которых продажи выше среднего, но ниже максимального уровня.

Линии тренда

Функция линии тренда — указывать общий ход рассматриваемой метрики. Линия тренда — это прямая линия, соединяющая несколько точек на графике. Линия тренда помогает анализировать конкретное направление группы наборов значений в визуализации. См. раздел "Добавление статистической аналитики в визуализации".

  • Линейный — используется с линейными данными. Распределение данных линейно, если структура точек данных похожа на прямую. Линия линейного тренда показывает, что метрика увеличивается или уменьшается с постоянной скоростью.
  • Полиномиальная — эта кривая используется в случае флуктуации данных. Это полезно, например, для анализа прибылей и убытков по большому набору данных.
  • Экспоненциальная — используйте эту кривую линию, когда значения данных растут или падают с возрастающей скоростью. Если данные содержат нулевые или отрицательные значения, создать экспоненциальную линию тренда невозможно.

Либо создайте настраиваемый расчет с помощью функции TRENDLINE, чтобы улучшить контроль над настройками или использовать линию тренда в других визуализациях. См. раздел "Аналитические функции".

Добавление статистической аналитики в визуализации

Статистическая аналитика позволяет выделить кластеры или выбросы, добавить прогнозы и продемонстрировать в рабочих книгах линии трендов и опорные линии.

  1. На главной странице выберите рабочую книгу и в меню Действия выберите Открыть.
  2. Убедитесь, что в визуализации есть необходимые данные для добавляемой аналитики.
    Например, для прогноза необходимо хотя бы одно временное измерение и показатель или метрика.
  3. На панели "Данные" или "Синтаксис" нажмите на значок Аналитика Чтобы перейти к статистической аналитике, нажмите на значок "Аналитика" на панели Данные или Синтаксис.

  4. Перетащите нужную аналитику с панели Аналитика в визуализацию.
  5. Чтобы настроить аналитику, воспользуйтесь панелью "Аналитика" в окне "Синтаксис".
    Например, при добавлении прогноза можно изменить тип модели или количество периодов в прогнозе.

Кроме того, параметры статистической аналитики можно открыть, нажав правой кнопкой мыши на визуализации и выбрав Добавить статистику.

.

Добавление опорных линий в визуализации

Опорные линии позволяют выделить в визуализации средние и медианные значения, процентили и тому подобную информацию.

  1. На главной странице выберите рабочую книгу и в меню Действия выберите Открыть.
  2. На панели данных нажмите значок Аналитика Добавление расширенных аналитических функций с помощью значка "Аналитика".
  3. Перетащите функцию Опорная линия в визуализацию. Также можно дважды щелкнуть по функции Опорная линия, чтобы добавить ее к выбранной визуализации.
  4. Чтобы настроить линию, воспользуйтесь панелью "Аналитика" в окне "Синтаксис".
    Например, чтобы отобразить линию или диапазон, можно использовать параметр Метод, а для изменения линии по умолчанию на "Среднее значение", "Процентиль" или "Первые N" — параметр Функция.
  5. Нажмите Сохранить.