Автоаналитика генерирует различные типа визуализаций, которые позволяют получить определенные сведения о данных. Для каждой из этих визуализаций используются различные столбцы данных. Они ранжируются в зависимости от ценности информации в контексте данных.
- Разбивки измерений – эти визуализации объединяют значение показателя для различных компонентов измерения в данных. Это позволяет быстро получить представление о том, как выбранная метрика распределяется по заданному измерению. Показателем может быть метрика из набора данных, количество записей или среднее значение метрики для каждой записи.
- Сводные таблицы тепловой карты – эти визуализации объединяют значение показателя для пересечений двух измерений в данных. Каждая ячейка в сводной таблице соответствует пересечению компонентов двух выбранных измерений D2. Эти визуализации помогают быстро понять, где находятся самые высокие значения показателя. Для этого нужно посмотреть на самые темные ячейки в таблицах. Показатели в этой визуализации могут быть метрикой из набора данных, количеством записей, средним значением метрики для каждой записи или процентом, представляющим любой из этих вариантов (при этом общий показатель в правом верхнем углу равен 100 %).
- Десять лучших – эта визуализация показывает лучшие компоненты измерения по убыванию их значения для показателя в наборе данных. Последний столбик на диаграмме показывает среднее значение показателя для всех компонентов, не входящих в девятку лучших. То есть среднее значение M1 для всех отдельных участников, не занимающих первые места в рейтинге. Эта информация демонстрирует, насколько далеко продвинулись лучшие участники по сравнению со средними показателями остальной популяции.
- 80/20 – эта визуализация показывает, какой вес имеют записи в верхних 20 % данных в общем наборе данных для заданного показателя. Верхние 20 % рассчитываются на основе подробных строк в наборе данных. На кольцевой диаграмме показано, насколько важны лучшие участники в данных для этого показателя. Дуги на кольцевой диаграмме представляют квантили записей, то есть последовательные блоки записей по 20 % по убыванию количества строк (верхние 20 %, затем следующие 20 % и так далее). Размер дуг отражает суммарное агрегированное значение показателя для каждого квантиля.
- Парето – эта визуализация диаграммы Парето показывает каждый компонент измерения (со средним кардинальным числом), упорядоченный по убыванию значения показателя. Каждый столбик представляет показатель для одного компонента, а линия – совокупный процент значения показателя (суммируется до 1,0 = 100 %) по мере добавления каждого компонента измерения в совокупности. Диаграмма Парето фокусируется на тех областях, которые обладают наибольшей относительной ценностью или частотой.
- Диаграммы рассеяния и кластеры – визуализация диаграммы рассеяния показывает все компонент измерения (со средним кардинальным числом) на сетке с двумя уникальными показателями из данных в качестве осей. Каждый показатель классифицируется по среднему значению единицы. Разброс между этими записями и потенциальные отклонения могут дать полезную информацию о компонентах измерения. Эта диаграмма позволяет быстро понять, как эти два показателя коррелируют друг с другом для компонентов B1, а также, какие компоненты попадают в тот или иной квадрант. Вариант точечной диаграммы показывает автоматическую кластеризацию записей в шесть когерентных групп.
- Простые столбчатые диаграммы трендов – эта визуализация отображает изменение показателя по столбцу времени в наборе данных. Она может выявить интересные тенденции, например рост или спад. Показателем может быть метрика из набора данных, количество записей или среднее значение метрики для каждой записи. Тот же вывод можно отобразить с помощью дополнительной строки прогноза в правой части диаграммы.
- Сравнительное изменение по измерению – в этой визуализации сравнивается, как значение показателя менялось с течением времени для каждого компонента измерения в данных. Каждая строка на этой диаграмме показывает изменение показателя для данного компонента измерения. Рост или снижение значения показателя может не совпадать по всем компонентам измерения. Это может стать интересным открытием: какие тренды компонента отличаются от других?
- Сравнительное индексированное изменение – в этой визуализации сравнивается относительный рост показателя с течением времени для каждого компонента столбца измерения в данных. Каждая строка соответствует одному компоненту измерения с базовым значением индекса 1.00, установленным в исходный период времени. Изменение с течением времени показывает относительное значение в последующие периоды по сравнению со значением индекса 1.00 в исходном периоде. Использование индексации вместо абсолютных величин позволяет провести объективное сравнение различных трендов, так как графики отражают реальную относительную динамику, показывая рост всех компонентов по отношению друг к другу. При анализе абсолютных, а не индексированных значений метрик из-за различий в значениях часто бывает невозможно корректно сравнить рост или спад. Использование индексов помогает понять фактическое относительное поведение.
- Индексированное изменение по показателям – в этой визуализации сравнивается относительная динамика нескольких показателей в наборе данных с течением времени. В линейной диаграмме отображается индексированное значение различных метрик в наборе данных за определенный период времени, причем каждая линия соответствует определенному показателю. Использование индексации вместо абсолютных величин позволяет провести объективное сравнение различных трендов. Если анализировать абсолютные значения показателей, то зачастую невозможно корректно сравнить рост или спад. Начальное значение индекса (1.00) устанавливается для всех метрик в исходный период времени, а линия показывает относительную динамику каждой метрики по сравнению с ее начальной точкой на диаграмме (индекс).
- Сезонность – столбики в этой визуализации отражают распределение показателя по месяцам года, дням месяца или дням недели объекта времени в наборе данных. Это позволяет определить возможную сезонность значения коэффициента по месяцам. Диаграммы сезонности полезны для определения повторяющихся шаблонов в данных за определенный период. Это может быть очень важно для понимания сезонных колебаний значений показателя.
- Мост вклада компонентов – эта каскадная диаграмма показывает вклад каждого компонента измерения в наборе данных в изменение значения показателя с течением времени. Она помогает понять, какие компоненты внесли наибольший вклад в изменение в течение определенного периода времени, будь то рост или спад. Серые столбики на диаграмме соответствуют общему значению показателя за период T1. Зеленые или красные столбики между двумя периодами показывают, какие компоненты увеличились или уменьшились, и, следовательно, какой вклад они внесли в общее изменение.
- Разбивка компонентов измерения по сравнению со значением показателя – эта визуализация помогает понять распределение всех компонентов измерения в данных по мере роста значения показателя. Столбики отражают относительные значения показателя: дециль 1 = низкое значение показателя по записям (первые 10 % записей), дециль 2 = вторые 10 %, до дециля 10 = высокое значение показателя по записям. Цвет столбика показывает долю (процент от общего числа) каждого компонента измерения в общем значении показателя для данного дециля. Это помогает определить, что структура набора компонентов меняется при изменении значения показателя.
- Гистограмма показателя по ячейкам записи – эта визуализация показывает, как показатель распределяется по ячейкам другой метрики. Столбики на диаграмме показывают агрегирование показателя. Каждый столбик представляет собой ячейку для показателя: ячейка 1 = низкое значение показателя по записям, а ячейка 10 = высокое значение показателя по записям.
- Блочная диаграмма компонентов измерения – в данной визуализации блочной диаграммы сравнивается распределение компонентов в измерении D1 (со средним кардинальным числом) в данных (точки) со значением показателя в данных, который представлен каждым компонентом другого измерения D2 в данных (столбики). Каждый вертикальный столбик блочной диаграммы соответствует компоненту D2, а каждая точка в столбике – это единичный компонент D1, а ось ординат показывает среднее значение единицы. В каждом столбике представлено три значения для данного компонента D2: первое квартильное значение в нижней части столбика, среднее значение в середине столбика и третье квартильное значение в верхней части. Эта визуализация поможет разобраться в распределении записей в измерении D1 и сравнить различия в этом распределении с компонентами измерения D2.
- Распределение значений записей по измерению – эта визуализация диаграммы показывает дисперсию (распределение) записей по значению показателя для каждого компонента измерения (столбики). На оси абсцисс отражено среднее значение показателя по записям. Точки в каждом из столбиков соответствуют случайным группам детализированных записей из набора данных. Эта визуализация поможет понять, как распределение может отличаться между разными компонентами измерения (разные горизонтальные полосы на визуализации).
- Сравнение трендов квантилей – с помощью этой визуализации можно сравнить динамику изменения значения показателя с течением времени в каждой из 20 % групп записей в данных (отсортированных по значению показателя) – от верхних до нижних (квантили). Был ли рост или спад в верхней и нижней группах одинаковым? Для какой группы этот показатель имеет другой тренд? Каждая линия на графике представляет собой квантиль, демонстрирующий динамику изменения значения M1 с течением времени. Квантили – это группы по 20 % записей набора данных, упорядоченные по убыванию значения показателя: записи с верхним значением 20 %, затем следующие 20 % и так далее.