Оценка моделей машинного обучения с помощью диаграмм улучшения и усиления

Диаграммы улучшения и усиления позволяют сравнивать различные модели машинного обучения для определения наиболее точной.

Обзор использования диаграмм улучшения и усиления

Диаграммы улучшения и усиления позволяют оценить прогностические модели машинного обучения, отображая статистику моделирования в визуализации в Oracle Analytics.

Во время использования потока данных в целях применения модели классификации к набору данных Oracle Analytics позволяет вычислять значения улучшения и усиления. Затем эти данные можно визуализировать в виде графика, который поможет оценить точность прогностических моделей и определить из них лучшую для использования.

Описание GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png ниже
.png

Предварительные условия

  • Oracle Database или Oracle Autonomous Data Warehouse
  • Модель классификации, включающая вероятность предсказания (например, модель с несколькими классификаторами, созданная с помощью обучающего наивного байесовского алгоритма).

    Вы получаете доступ к существующим моделям с предсказанием в области машинного обучения в Oracle Analytics.

Статистические данные для анализа улучшения и усиления

При применении прогностической модели классификации к набору данных и генерировании статистики улучшения и усиления вы создаете набор данных с именем <Имя потока данных>_LIFT со следующими столбцами:
  • PopulationPercentile — популяция данных разбита на 100 равных групп.
  • CumulativeGain — отношение совокупного количества положительных целей до заданного процентиля к общему количеству положительных целей. Чем ближе линия совокупной прибыли к левому верхнему углу графика, тем больше прибыль; тем выше доля охваченных респондентов при меньшей доле клиентов, с которыми был установлен контакт.
  • GainChartBaseline — общая частота ответов: линия представляет собой процент положительных записей, которые мы ожидаем получить при случайном отборе записей. Например, в рамках маркетинговой кампании, если мы свяжемся с X% клиентов случайным образом, мы получим X% от общего количества положительных ответов.
  • LiftChartBaseline имеет значение 1 и используется в качестве базового уровня для сравнения повышения.
  • LiftValue — совокупное превышение для процентиля. Lift — это отношение совокупной плотности положительных записей для выбранных данных к плотности положительных записей по всем тестовым данным.
  • IdealModelLine — отношение совокупного количества положительных целей к общему количеству положительных целей.
  • OptimalGain указывает на оптимальное количество клиентов, с которыми необходимо связаться. После этой точки кривая совокупной прибыли выравнивается.

Затем можно визуализировать набор данных <Имя потока данных>_LIFT на диаграмме Oracle Analytics. Например, для анализа прибыли можно отложить PopulationPercentile на оси x, а CumulativeGain, GainChartBaseline, IdealModelLine и OptimalGain — на оси y.

Описание GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png ниже
.png

Создание прогнозных данных для диаграмм улучшения и усиления

Во время использования потока данных в целях применения модели классификации к набору данных Oracle Analytics позволяет вычислять статистику, которую можно визуализировать в диаграммах улучшения и усиления.

Прежде чем начать, создайте модель классификации, включающую вероятность предсказания (например, модель с несколькими классификаторами, созданную с помощью обучающего наивного байесовского алгоритма). В Oracle Analytics отображаются доступные модели на вкладке "Модели" страницы "Машинное обучение" (на главной странице нажмите Машинное обучение).
  1. На главной странице нажмите Создать, а затем выберите Поток данных.
  2. Выберите источник данных, а затем нажмите Добавить.
  3. Нажмите Добавить шаг и выберите Применить модель.
  4. В разделе "Выбор модели" выберите модель классификации, которая включает вероятность предсказания, а затем нажмите ОК.
  5. Окно "Применение модели", раздел Параметры:
    • В элементе Вычислить улучшение и усиление выберите Да.
    • В поле Целевой столбец для вычисления улучшения выберите имя столбца прогнозируемого значения. Например, если модель прогнозирует членство клиентов, используя столбец с именем SIGNUP, выберите SIGNUP.
    • В поле Положительный класс для вычисления укажите значение данных с учетом регистра, представляющее положительный класс (или предпочтительный исход) в прогнозе. Например, если модель прогнозирует регистрацию клиентов на основе столбца SIGNUP со значениями ДА или НЕТ, укажите ДА.
  6. Добавьте узел Сохранить данные в поток данных.
  7. Выполните этот поток данных.
Поток данных порождает набор данных с именем <Имя потока данных>_LIFT, содержащий статистику улучшения и усиления, которую вы можете оценить.

Оценка модели машинного обучения с помощью диаграммы улучшения и усиления

С помощью диаграммы проанализируйте статистические данные, полученные с помощью моделей классификации машинного обучения, чтобы определить наилучшую модель для использования.

Прежде чем начать, примените модель с предсказанием к своим данным и сгенерируйте статистику улучшения и усиления в наборе данных.
  1. На главной странице нажмите Создать и выберите Рабочая книга.
  2. В разделе Добавление набора данных выберите набор данных <Имя потока данных>_LIFT, созданный вами в предыдущем задании, а затем нажмите Добавить в рабочую книгу.
  3. На панели Визуализация выберите статистику для анализа, нажмите правую кнопку мыши и выберите Выбрать визуализацию, а затем выберите Линейный график.
    Например, для анализа усиления можно разместить PopulationPercentile на оси x, а CumulativeGain, GainChartBaseline, IdealModelLine и OptimalGain на оси y.
    Для анализа улучшения можно поместить PopulationPercentile на ось x, а LiftChartBaseline и LiftValue на ось y.