Использование Explain для определения наиболее значимых сегментов записей в наборе данных

В Oracle Analytics правой кнопкой мыши нажмите на столбец в наборе данных, выберите Explain, а затем вкладку Сегменты Через несколько секунд появится список сегментов, каждый из которых представлен в виде одного столбика на столбчатой диаграмме в верхней части экрана.

Сегменты – это группы записей в вашем наборе данных, которые алгоритм Explain определил как значимые, отличающиеся от среднего значения по всему набору данных для целевого столбца. Подробные результаты отличаются для показателей и атрибутов.

Использование Explain для столбца показателя

Для показателей алгоритм сегментации Explain ищет группы записей в наборе данных, для которых среднее значение существенно отличается от среднего значения по всему набору данных. Например, если целевой показатель – возраст, а средний возраст по всему набору данных составляет 23 года, то сегментом может быть группа записей в данных, где возраст составляет 55 лет, что значительно выше, чем средний возраст по всему набору данных. Отдельный сегмент определяется несколькими фильтрами в наборе данных, которые выявляют группу записей с необычным средним значением для анализируемого столбца. Например, фильтрами могут быть тип города и тип работы.
Описание GUID-83744C61-9978-4F83-9E38-9EF06C7A8061-default.png ниже
.png

Вертикальная столбчатая диаграмма в верхней части экрана показывает размер каждого сегмента в количестве записей (высота столбика), а интенсивность цвета указывает на то, насколько сильно среднее значение сегмента отличается от среднего значения по всему набору данных.

Каждая из маркированных диаграмм в нижней части панели дает подробное представление об отдельном сегменте. В описаниях указывается среднее значение показателя для сегмента (целевой показатель), общее количество записей в сегменте и критерии, определяющие сегмент. На диаграмме размер пузырька обозначает количество записей в сегменте, а цвет и положение на оси абсцисс – насколько среднее значение сегмента отличается от среднего значения по всему набору данных (пунктирная линия). Если навести курсор на диаграмму, можно увидеть всплывающую подсказку, в которой отображаются эти сведения. Также можно настроить сортировку всех этих сегментов или отобразить список сегментов с подробным описанием в виде таблицы, изменив сортировку панели или тип визуализации панели в правом верхнем углу.

Чтобы добавить интересующий вас сегмент на холст рабочей книги, нажмите на него. При добавлении сегмента на холст рабочей книги:

Создается визуализация таблицы с подсчетом количества строк в сегменте и за его пределами.
Создается настраиваемый расчет, определяющий значение "В сегменте" или "Вне сегмента", которое можно использовать для агрегирования любого показателя в наборе данных по этому критерию. Этот объект также можно использовать в качестве мощного фильтра для холста, чтобы показать, как записи в сегменте соотносятся с записями за его пределами.

Использование Explain для столбца атрибута

Если ваша цель – атрибут, то в общих данных каждое отдельное значение этого атрибута собирает определенную долю записей. Например, в столбце с двумя значениями "Да" или "Нет" может быть 20 % "Да" и 80 % "Нет". Алгоритм сегмента определяет группы записей в данных, для которых эти пропорции значительно отличаются от среднего распределения. Например, сегмент 1 может представлять собой группу записей в данных, где "Да" составляет 55 % (вместо 20 % по всему набору данных), а "Нет" составляет 45 % (вместо 80 %). Отдельный сегмент определяется несколькими фильтрами в наборе данных, которые выявляют группу записей с необычным распределением по анализируемому столбцу. Например, сегмент 1 может определяться как все записи в данном городе и с заданным возрастом.
Описание GUID-30051023-F52C-49D3-8324-47C12A219B9A-default.png ниже
.png

Explain сканирует данные и выявляет множество разных сегментов. Они не являются кумулятивными, то есть одна запись может относиться к двум разным сегментам. Вертикальная столбчатая диаграмма в верхней части экрана показывает размер каждого сегмента в записях (высота столбика), а цвет столбика указывает на анализируемое значение компонента. Можно отфильтровать определенные значения компонентов, если нажать на гиперссылку в тексте в верхней части страницы.

Каждая из горизонтальных столбчатых диаграмм в нижней части панели дает подробное представление об отдельном сегменте. В описаниях указывается значение анализируемого компонента (например, "Да" или "Нет"), общее количество записей в сегменте и критерии, определяющие сегмент. На диаграмме представлена доля этого значения в сегменте (выделено цветом) по сравнению со средней долей по всему набору данных (пунктирная линия). Если навести курсор на диаграмму, можно увидеть всплывающую подсказку, в которой эти сведения отображаются более подробно. Также можно отсортировать сегменты и изменить способ их отображения, изменив тип сортировки или визуализации панели в правом верхнем углу.

Создается визуализация таблицы с подсчетом количества строк в сегменте и за его пределами.
Создается настраиваемый расчет, определяющий значение "В сегменте" или "Вне сегмента", которое можно использовать для агрегирования любого показателя в наборе данных по этому критерию. Этот объект также можно использовать в качестве мощного фильтра для холста, чтобы показать, как записи в сегменте соотносятся с записями за его пределами.