Создание и использование моделей с предсказанием Oracle Analytics

В моделях с предсказанием Oracle Analytics используется несколько встроенных алгоритмов машинного обучения Oracle для анализа наборов данных, прогнозирования целевого значения или определения классов записей. Для создания, обучения и применения моделей с предсказанием к вашим данным используйте редактор потоков данных.

Что такое модели с предсказанием Oracle Analytics?

В модели с предсказанием Oracle Analytics к набору данных применяется специфический алгоритм для прогнозирования значений, прогнозирования классов или определения групп в данных.

Для прогнозирования данных можно также использовать модели машинного обучения Oracle.

В Oracle Analytics включены алгоритмы, которые помогают обучать модели с предсказанием в соответствии с различными целями. Примерами алгоритмов являются деревья классификации и регрессии (CART), логистическая регрессия и метод k-средних.

Редактор потоков данных используется для обучения модели на наборе данных обучения. После обучения модели с предсказанием ее можно применить к наборам данных, для которых необходимо выполнить прогнозирование.

Можно предоставить подготовленную модель другим пользователям, которые могут применять ее к своим данным для прогнозирования значений. В некоторых случаях определенные пользователи обучают модели, а другие пользователи применяют эти модели.

Примечание.:

Если неизвестно, что именно нужно искать в данных, можно начать с использования модели Explain, в которой используется машинное обучение для определения тенденций и закономерностей. Затем с использованием редактора потоков данных для создания и обучения моделей с предсказанием можно получить подробную информацию о тенденциях и шаблонах, которые были найдены с помощью Explain.
Использование редактора потока данных для обучения модели:
  • Сначала необходимо создать поток данных и добавить набор данных, который будет использоваться для обучения модели. Этот набор данных обучения содержит данные, для которых требуется выполнить прогнозирование (например, значение, такое как объем продаж или длительность существования, или переменная, такая как блок кредитного риска).
  • При необходимости редактор потоков данных можно использовать для редактирования набора данных путем добавления столбцов, выбора столбцов, объединения и т. д.
  • После подтверждения того, что обучать модель нужно на этих данных, в поток данных следует добавить этап обучения и выбрать алгоритм классификации (двоичной или мультиклассификации), регрессии или кластера для обучения модели. Затем следует присвоить имя результирующей модели, сохранить поток данных и запустить его для обучения и создания модели.
  • Проверьте свойства объектов машинного обучения, чтобы определить качество модели. При необходимости можно повторять процесс обучения до тех пор, пока качество модели не достигнет требуемого уровня.

С использованием готовой модели оцените неизвестные или непомеченные данные для создания набора данных в потоке данных или для добавления визуализации прогнозирования в рабочую книгу.

Пример

Предположим, требуется создать и обучить модель мультиклассификации для прогнозирования того, у каких пациентов существует высокий риск развития заболевания сердца.

  1. Предоставьте набор данных для обучения, содержащий данные о возрасте и поле пациентов, и о том, испытывали ли они боль в груди, а также такие показатели, как артериальное давление, уровень сахара в крови натощак, уровень холестерина и максимальная частота сердечных сокращений. Набор данных обучения также содержит столбец "Вероятность", которому присваивается одно из следующих значений: "отсутствует", "низкая вероятность", "вероятно", "высокая вероятность" или "присутствует".
  2. Выберите алгоритм CART (дерево принятия решений), поскольку он игнорирует лишние столбцы, которые не добавляют значений для прогнозирования, и идентифицирует и использует только столбцы, которые могут быть полезны для прогнозирования целевого объекта. При добавлении алгоритма в поток данных необходимо для обучения модели выбрать столбец "Вероятность". Алгоритм использует машинное обучение для выбора столбцов определяющих факторов, которые он должен учесть, и вывода прогнозов и связанных наборов данных.
  3. Проверьте результаты и выполните точную настройку модели обучения, а затем примените модель к более крупному набору данных, чтобы определить, у каких пациентов существует высокая вероятность заболевания сердца или развития этого заболевания.

Как выбрать алгоритм модели с предсказанием?

Oracle Analytics предоставляет алгоритмы для любых задач моделирования машинного обучения: численное прогнозирование, мультиклассификатор, двоичный классификатор и кластеризация.

Функции машинного обучения Oracle предназначены для опытных аналитиков данных, которые имеют представление о том, что они ищут в своих данных, знакомы с практикой упреждающей аналитики и понимают различия между алгоритмами.

Примечание.:

При использовании данных, полученных из Oracle Autonomous Data Warehouse, можно применить функцию AutoML для быстрого и простого обучения модели с предсказаниями без необходимости в навыках работы с машинным обучением. См. раздел Обучение модели с предсказаниями с помощью AutoML в Autonomous Data Warehouse.

Обычно пользователи хотят создать несколько моделей прогнозирования, сравнить их и выбрать модель, которая, скорее всего, обеспечит результаты, отвечающие их критериям и требованиям. Эти критерии могут быть различными. Например, иногда пользователи выбирают модели с более высокой общей точностью, иногда — модели с наименьшим числом ошибок типа I (ложноположительные) и типа II (ложноотрицательные), иногда — модели, которые позволяют быстрее получать результаты и обеспечивают приемлемый уровень точности даже в том случае, если результаты не являются идеальными.

Oracle Analytics содержит несколько алгоритмов машинного обучения для каждого типа прогнозирования или классификации. С помощью этих алгоритмов пользователи могут создавать несколько моделей, использовать различные точно настроенные параметры или использовать различные входных наборы данных обучения, а затем выбирать оптимальную модель. Пользователь может выбрать оптимальную модель, сравнивая и оценивая модели в соответствии с собственными критериями. Чтобы определить оптимальную модель, пользователи могут применять модели и визуализировать результаты вычислений для определения точности или открывать и просматривать связанные наборы данных, для вывода которых компонент Oracle Analytics использовал эту модель.

Сведения о предоставляемых алгоритмах см. в следующей таблице:

Имя Тип Категория Функция Описание
CART

Классификация

Регрессия

Двоичный классификатор

Мультиклассификатор

Численный

- Использует деревья принятия решений для прогнозирования как дискретных, так и непрерывных значений.

Используется с большими наборами данных.

Линейная регрессия эластичной сетки Регрессия Численный ElasticNet Расширенная регрессионная модель. Предоставляет дополнительную информацию (регуляризация), выполняет выбор переменных и выполняет линейные комбинации. Недостатки методов регрессии Lasso и Ridge.

Используются с большим количеством атрибутов для предотвращения коллинеарности (когда несколько атрибутов идеально коррелированы) и избыточного обучения.

Иерархический Кластеризация Кластеризация AgglomerativeClustering Построение иерархии кластеризации с использованием порядка либо "снизу вверх" (каждое наблюдение представляет собственный кластер, а затем объединяется), либо "сверху вниз" (все наблюдения запускаются как один кластер) и показателей расстояния.

Используется, если набор данных имеет небольшой размер и число кластеров неизвестно заранее.

Метод k-средних Кластеризация Кластеризация Метод k-средних Итеративно разбивает записи на k кластеров, в которых каждое наблюдение относится к кластеру с ближайшим средним значением.

Используется для кластеризации столбцов показателей и с заданным ожиданием необходимого числа кластеров. Эффективно работает с большими наборами данных. Результаты для каждого прогона различаются.

Линейная регрессия Регрессия Численный Обычный метод наименьших квадратов

Ridge

Lasso

Линейный подход к моделированию взаимосвязи между целевой переменной и другими атрибутами в наборе данных.

Используется для прогнозирования числовых значений, когда атрибуты не полностью коррелированы.

Логистическая регрессия Регрессия Двоичный классификатор LogisticRegressionCV Используется для прогнозирования значения категориальной зависимой переменной. Зависимая переменная представляет собой двоичную переменную, содержащую данные, закодированные в виде 1 или 0.
Наивный байесовский алгоритм Классификация

Двоичный классификатор

Мультиклассификатор

GaussianNB Вероятностная классификация на основе теорема Байеса, которая не предполагает зависимости между функциями.

Используется при большом количестве входных измерений.

Нейронные сети Классификация

Двоичный классификатор

Мультиклассификатор

MLPClassifier Итеративный алгоритм классификации, который обучается путем сравнения его результата классификации с фактическим значением и возвращает его в сеть для изменения алгоритма для последующих итераций.

Используется для анализа текста.

Случайный лес Классификация

Двоичный классификатор

Мультиклассификатор

Численный

- Ансамбль методов, который создает несколько деревьев принятия решений и выводит значение, которое в совокупности представляет все деревья решений.

Используется для прогнозирования числовых и категориальных переменных.

SVM Классификация

Двоичный классификатор

Мультиклассификатор

LinearSVC, SVC Классификация записей путем их отображения в пространстве и построения гиперплоскостей, которые можно использовать для классификации. Новые записи (данные оценки) отображаются в том же пространстве и, по прогнозу, будут относиться к одной из категорий в зависимости от того, по какую сторону гиперплоскости они отображаются.

Обучение модели с предсказаниями с помощью AutoML в Oracle Autonomous Data Warehouse

При использовании данных из Oracle Autonomous Data Warehouse можно применить функцию AutoML для рекомендации и обучения модели с предсказаниями. AutoML анализирует данные, рассчитывает оптимальный для использования алгоритм и регистрирует модель с предсказаниями в Oracle Analytics для прогнозирования данных.

Использование AutoML означает, что Oracle Autonomous Data Warehouse берет на себя все трудоемкие задачи, чтобы вы могли развернуть модель с предсказаниями без машинного обучения или навыков искусственного интеллекта. Созданная модель с предсказаниями сохраняется в области "Модели" на странице "Машинное обучение". Чтобы спрогнозировать данные на основе новой модели, создайте поток данных и выполните операцию Применить модель.
Перед началом работы:
  • Создайте набор данных на основе данных в Oracle Autonomous Data Warehouse, для которых требуется прогнозирование. Например, у вас могут быть данные об убыли сотрудников, включая поле ATTRITION (УБЫЛЬ) со значением "Да" или "Нет", указывающим на убыль.
  • Убедитесь, что пользователю базы данных, указанному в подключении Oracle Analytics к Oracle Autonomous Data Warehouse, назначена роль OML_Developer и он не является суперпользователем с правами администратора (admin). В противном случае сохранение или выполнение потока данных будет невозможно.
  1. На главной странице нажмите Создать, а затем — Поток данных.
  2. В разделе "Добавить набор данных" выберите на основе Oracle Autonomous Data Warehouse набор с данными для анализа.
  3. Нажмите Добавить шаг, а затем выберите AutoML.
  4. В поле Целевой объект нажмите Выбрать столбец и выберите столбец с данными, содержащий значение, которое вы пытаетесь спрогнозировать.
    Например, для прогнозирования убыли сотрудников можно выбрать поле ATTRITION (УБЫЛЬ) со значением "TRUE" или "FALSE", указывающим, покинули ли сотрудники организацию или нет.

  5. Примите предложенные значения Тип задачи и Метрика ранжирования модели, рекомендованные Oracle Analytics, или выберите другой алгоритм.
  6. Нажмите Сохранить модель и укажите имя созданной модели с предсказаниями.
  7. Нажмите Сохранить и укажите имя потока данных.
  8. Нажмите Выполнить, чтобы проанализировать данные и создать модель с предсказаниями.
  9. На главной странице нажмите Перейти, выберите Машинное обучение, а затем нажмите правой кнопкой мыши на созданную модель и выберите Проверить.
Модель, которую генерирует Oracle Analytics, можно найти на странице Машинное обучение на вкладке Модели. Проверьте модель, чтобы оценить ее качество. См. раздел "Оцените качество модели с предсказанием". Теперь можно также ссылаться на связанные наборы данных, которые созданы для моделей, сгенерированных AutoML. См. раздел "Что такое наборы данных, связанные с моделью с предсказанием?".

Создание и обучение модели с предсказанием

Опытные аналитики данных создают и обучают модели с предсказанием, которые можно использовать с целью развертывания алгоритмов машинного обучения Oracle для анализа наборов данных, прогнозирования целевого значения или определения классов записей. Для создания, обучения и применения моделей с предсказанием к вашим данным используйте редактор потоков данных.

Значок руководства LiveLabs Sprint

Получение точной модели — это итеративный процесс, и опытный аналитик данных может опробовать различные модели, сравнить их результаты и точно настроить параметры, используя метод проб и ошибок. Аналитик данных может использовать завершенную, точную модель с предсказанием для прогнозирования тенденций в других наборах данных или добавления модели в рабочие книги.

Примечание.:

При использовании данных, полученных из Oracle Autonomous Data Warehouse, можно применить функцию AutoML для быстрого и простого обучения модели с предсказаниями без необходимости в навыках работы с машинным обучением. См. раздел Обучение модели с предсказаниями с помощью AutoML в Autonomous Data Warehouse.

Oracle Analytics предоставляет алгоритмы для численного прогнозирования, мультиклассификации, двоичной классификации и кластеризации.

  1. На главной странице нажмите Создать и выберите Поток данных.
  2. Выберите набор данных, который будет использоваться для обучения модели. Нажмите Добавить.
  3. В редакторе потоков данных нажмите Добавить шаг (+).
    После добавления набора данных можно либо использовать все столбцы в наборе данных для построения модели, либо выбрать только необходимые столбцы. Выбор необходимых столбцов требует понимания набора данных. Игнорируйте столбцы, которые, как вам известно, не влияют на поведение результата или содержат избыточные данные. Можно выбрать только необходимые столбцы, добавив шаг Выбрать столбцы. Если определить необходимые столбцы затруднительно, используйте все столбцы.
  4. Выберите один из этапов обучения модели (например, Обучение численному прогнозированию или Обучение кластеризации).
  5. Выберите алгоритм и нажмите ОК.
  6. При работе с контролируемой моделью, например прогнозом или классификацией, нажмите кнопку Целевой и выберите столбец, для которого требуется выполнить прогнозирование. Например, если создается модель для прогнозирования дохода физического лица, выберите столбец "Доход".
    При работе с неконтролируемой моделью, например кластеризацией, целевой столбец не требуется.
  7. Чтобы выполнить точную настройку и повысить точность прогнозируемого результата, измените настройки по умолчанию для вашей модели. Эти настройки определяются используемой моделью.
  8. Нажмите шаг Сохранить модель и укажите имя и описание.
  9. Чтобы сохранить поток данных, нажмите Сохранить, введите имя и описание потока данных и нажмите OK.
  10. Чтобы создать модель с предсказанием на основе набора входных данных и настроек модели, нажмите Выполнить поток данных.

Шаги потока данных для обучения моделей машинного обучения

Oracle Analytics позволяет обучать модели машинного обучения, используя этапы в потоках данных. Обучив модель машинного обучения, примените ее к данным в ходе выполнения шага Применить модель.

Название шага Описание
AutoML (требуется Oracle Autonomous Data Warehouse) Использование функции AutoML из Oracle Autonomous Data Warehouse для рекомендации и обучения модели с предсказаниями. В ходе выполнения шага AutoML выполняется анализ данных, вычисление оптимального алгоритма и регистрация модели с предсказаниями в Oracle Analytics.
Обучение двоичной классификации

Применение модели машинного обучения для классифицирования данных в одну из двух предварительно определенных категорий.

Обучение кластеризации Применение модели машинного обучения для разделения групп с похожими чертами и распределения их по кластерам.
Обучение мультиклассификации Применение модели машинного обучения для классифицирования данных по трем или более предварительно определенным категориям.
Обучение численному прогнозированию Применение модели машинного обучения для прогнозирования числового значения на основе известных значений данных.

Проверка модели с предсказанием

После создания модели с предсказанием и запуска потока данных можно просмотреть информацию о модели, чтобы определить ее точность. Используйте эту информацию для итеративного задания настроек модели, чтобы повысить точность и прогнозировать более хорошие результаты.

Просмотр сведений о модели с предсказанием

Подробная информация о модели с предсказанием поможет понять модель и определить, подходит ли она для прогнозирования данных. Сведения о модели включают в себя класс модели, алгоритм, входные и выходные столбцы.

  1. На главной странице нажмите Навигатор и выберите Машинное обучение.
  2. Нажмите на значок меню рядом с моделью обучения и выберите Проверить.
  3. Нажмите Сведения, чтобы просмотреть информацию о модели.

Оцените качество модели с предсказанием

Просмотрите информацию, которая поможет понять качество модели с предсказанием. Например, можно просмотреть показатели точности, такие как точность модели, точность, отзыв, значение F1 и ложная положительная скорость.

Oracle Analytics предоставляет аналогичные показатели независимо от алгоритма, используемого для создания модели, что упрощает сравнение различных моделей. В процессе создания модели набор входных данных разделяется на две части для обучения и тестирования модели в соответствии с параметром "Процент разделения обучения на части". Эта модель использует тестовую часть набора данных для тестирования точности построенной модели.
На основании результатов, полученных на вкладке (Качество), возможно, потребуется изменить параметры модели и провести ее повторную подготовку.
  1. На главной странице нажмите Навигатор и выберите Машинное обучение.
  2. Нажмите на значок меню рядом с моделью обучения и выберите Проверить.
  3. Перейдите на вкладку Качество, чтобы просмотреть показатели качества и оценить модель. Например, оцените Точность модели.

Совет. Нажмите Дополнительно, чтобы просмотреть подробную информацию о представлениях, созданных для модели.

Что такое наборы данных, связанные с моделью с предсказанием?

При запуске потока данных для создания модели обучения модели с предсказанием Oracle Analytics создает набор связанных наборов данных. На этих наборах данных можно открывать и создавать рабочие книги, чтобы оценить точность модели.

В зависимости от алгоритма, выбранного для вашей модели, связанные наборы данных содержат сведения о модели, такие как правила прогнозирования, показатели точности, матрица путаницы и ключевые определяющие факторы прогнозирования. Можно использовать эту информацию для точной настройки модели для получения лучших результатов, а также использовать связанные наборы данных для сравнения моделей и выявления более точной модели.

Например, вы открываете набор данных "Определяющие факторы", чтобы определить, какие столбцы оказывают сильное положительное или отрицательное влияние на модель. Изучив эти столбцы, вы обнаруживаете, что некоторые столбцы не обрабатываются как переменные модели, поскольку они не являются реалистичными входными данными или слишком детализированы для прогноза. С помощью редактора потока данных вы открываете модель и на основе полученной информации удаляете ненужные или слишком детализированные столбцы и повторно создаете модель. Проверяете вкладки "Качество" и "Результаты" и убеждаетесь, что точность модели повысилась. После чего продолжаете этот процесс, пока не будете удовлетворены точностью модели и не будете готовы оценить новый набор данных.

Различные алгоритмы генерируют подобные связанные наборы данных. Отдельные параметры и имена столбцов в наборе данных могут изменяться в зависимости от типа алгоритма, но функциональность набора данных остается неизменной. Например, имена столбцов в наборе статистических данных могут изменяться, вместо имени "Линейная регрессия" иметь имя "Логистическая регрессия", но этот набор статистических данных содержит показатели точности модели.

Связанные наборы данных для моделей AutoML

При обучении прогнозирующей модели с помощью AutoML Oracle Analytics создает дополнительные наборы данных, содержащие полезную информацию о модели. Число созданных наборов данных зависит от алгоритма модели. Например, для моделей с наивным байесовским алгоритмом Oracle Analytics создает набор данных, содержащий информацию об условных вероятностях. Набор данных для модели дерева решений предлагает информацию о статистике дерева. При проверке модели, сгенерированной AutoML, с помощью алгоритма обобщенной линейной модели (GLM) показываются записи с префиксом GLM*, относящиеся к наборам данных конкретной модели, которые содержат метаданные этой модели.
Описание GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png ниже
.png

Связанные наборы данных

Примечание.:

Oracle Analytics добавляет выходное имя к связанному типу набора данных. Например, если для модели CART выход потока данных называется cart_model2, то набор данных будет называться cart_model2_CART.

CART

Oracle Analytics создает таблицу для набора данных, связанного с CART (Classification and Regression Tree). Она содержит столбцы, в которых представлены условия и критерии условий в дереве принятия решений, прогноз для каждой группы и достоверность прогнозирования. Используйте визуализацию древовидной схемы для визуализации дерева принятия решений.

Набор данных CART создается при выборе представленных комбинаций модели и алгоритма.

Модель Алгоритм
Числовая CART для численного прогнозирования
Двоичная классификация CART
Мультиклассификация CART

Отчет о классификации

Oracle Analytics создает таблицу для набора данных, связанного с отчетом о классификации. Например, если целевой столбец может иметь два отдельных значения "Да" и "Нет", в этом наборе данных отображаются показатели точности, такие как F1, точность представления, отзыв и поддержка (число строк в наборе данных обучения с этим значением) для каждого отдельного значения в целевом столбце.

Набор данных "Классификация" создается при выборе представленных комбинаций модели и алгоритма.

Модель Алгоритмы
Двоичная классификация

Наивный байесовский алгоритм

Нейронные сети

Машина опорных векторов

Мультиклассификация

Наивный байесовский алгоритм

Нейронные сети

Машина опорных векторов

Матрица неточностей

Oracle Analytics создает сводную таблицу для набора данных, связанного со статистикой. Каждая строка представляет экземпляр прогнозируемого класса, а каждый столбец представляет экземпляр в фактическом классе. В этой таблице указано число ложноположительных, ложноотрицательных, истинно положительных и истинно отрицательных результатов, которые используются для вычисления показателей точности представления, Recall и F1.

Набор данных "Матрица смешения" создается при выборе представленных ниже комбинаций модели и алгоритма.

Модель Алгоритмы
Двоичная классификация

Логистическая регрессия

CART (дерево принятия решений)

Наивный байесовский алгоритм

Нейронные сети

Случайный лес

Машина опорных векторов

Мультиклассификация

CART (дерево принятия решений)

Наивный байесовский алгоритм

Нейронные сети

Случайный лес

Машина опорных векторов

Факторы

Oracle Analytics создает таблицу для набора данных, связанного с определяющими факторами. Она содержит информацию о столбцах, определяющих значения целевых столбцов. Для идентификации этих столбцов используются линейные регрессии. Каждому столбцу назначаются значения коэффициентов и корреляции. Значение коэффициента описывает весомость столбца, используемую для определения значения целевого столбца. Значение корреляции указывает направление связи между целевым столбцом и зависимым столбцом. Например, если значение целевого столбца увеличивается или уменьшается в соответствии с зависимым столбцом.

Набор данных "Факторы" создается при выборе представленных ниже комбинаций модели и алгоритма.

Модель Алгоритмы
Числовая

Линейная регрессия

Линейная регрессия эластичной сетки

Двоичная классификация

Логистическая регрессия

Машина опорных векторов

Мультиклассификация Машина опорных векторов

Карта совпадений

Oracle Analytics создает таблицу для набора данных, связанного с "Картой совпадений". Она содержит информацию о простых узлах дерева принятия решений. Каждая строка в таблице представляет простой узел и содержит информацию, описывающую значение, которое представляет простой узел, например, размер сегмента, достоверность и ожидаемое число строк. Например, ожидаемое число правильных прогнозов равняется размеру сегмента, умноженному на достоверность.

Набор данных "Карта совпадений" создается при выборе представленных ниже комбинаций модели и алгоритма.

Модель Алгоритм
Числовая CART для численного прогнозирования

Остатки

Oracle Analytics создает таблицу для набора данных, связанного с остатками. Она содержит информацию о качестве остаточных прогнозов. Остаток — это разность между измеренным значением и прогнозируемым значением регрессионной модели. Этот набор данных содержит совокупное значение абсолютной разности между фактическими и прогнозируемыми значениями для всех столбцов в наборе данных.

Набор данных "Остатки" создается при выборе представленных ниже комбинаций модели и алгоритма.

Модель Алгоритмы
Числовые

Линейная регрессия

Линейная регрессия эластичной сетки

CART для численного прогнозирования

Двоичная классификация CART (дерево принятия решений)
Мультиклассификация CART (дерево принятия решений)

Статистика

Oracle Analytics создает таблицу для набора данных, связанного со статистикой. Показатели этого набора данных зависят от алгоритма, используемого для его создания. Ниже приводится список показателей в соответствии с алгоритмами:

  • Линейная регрессия, CART для численного прогнозирования, линейная регрессия эластичной сетки — эти алгоритмы содержат следующее: R-квадрат, скорректированный R-квадрат, средняя абсолютная ошибка (MAE), средняя квадратическая ошибка (MSE), относительная абсолютная ошибка (RAE), относительная квадратическая ошибка (RSE), среднеквадратическая ошибка (RMSE).
  • CART (деревья классификации и регрессии), наивная байесовская классификация, нейронная сеть, метод опорных векторов (SVM), случайный лес, логистическая регрессия — эти алгоритмы содержат следующее: точность, итоговое значение F1.

Этот набор данных создается при выборе представленных комбинаций модели и алгоритма.

Модель Алгоритм
Числовая

Линейная регрессия

Линейная регрессия эластичной сетки

CART для численного прогнозирования

Двоичная классификация

Логистическая регрессия

CART (дерево принятия решений)

Наивный байесовский алгоритм

Нейронные сети

Случайный лес

Машина опорных векторов

Мультиклассификация

Наивный байесовский алгоритм

Нейронные сети

Случайный лес

Машина опорных векторов

Сводка

Oracle Analytics создает таблицу для набора данных, связанного со сводкой. Она содержит сведения об имени целевого объекта и имени модели.

Набор данных "Сводка" создается при выборе представленных ниже комбинаций модели и алгоритма.

Модель Алгоритмы
Двоичная классификация

Наивный байесовский алгоритм

Нейронные сети

Машина опорных векторов

Мультиклассификация

Наивный байесовский алгоритм

Нейронные сети

Машина опорных векторов

Поиск связанных наборов данных модели с предсказанием

Связанные наборы данных создаются при обучении модели с предсказанием.

В зависимости от алгоритма связанные наборы данных содержат подробные сведения о модели, такие как правила прогнозирования, показатели точности, матрицу смешения, ключевые определяющие факторы прогнозирования и т. д. Эти параметры помогают понять правила, используемые моделью для определения прогнозов и классификаций.
  1. На главной странице нажмите Навигатор и выберите Машинное обучение.
  2. Нажмите на значок меню рядом с моделью обучения и выберите Проверить.
  3. Перейдите на вкладку Связанные, чтобы получить доступ к связанным наборам данных модели.
  4. Дважды щелкните по имени связанного набора данных, чтобы просмотреть его или использовать в рабочей книге.

Добавление модели с предсказанием в рабочую книгу

При создании сценария в рабочей книге к набору данных рабочей книги применяется модель с предсказанием, которая позволяет выявить тенденции и шаблоны, для поиска которых была разработана данная модель.

Примечание.:

Невозможно применить модель машинного обучения Oracle к данным рабочей книги.
После добавления модели в рабочую книгу и сопоставления входных данных модели со столбцами набора данных панель данных содержит объекты модели, которые можно перетаскивать на холст. Машинное обучение создает значения модели на основе соответствующих столбцов данных визуализации.
  1. На главной странице нажмите Создать, а затем — Рабочая книга.
  2. Выберите набор данных, который будет использоваться для создания рабочей книги, и нажмите Добавить в рабочую книгу.
  3. На панели Данные нажмите Добавить и выберите Создать сценарий.
  4. В диалоговом окне Создать сценарий — Выбрать модель выберите модель и нажмите ОК.
    Можно применить только модель с предсказанием. Невозможно применить модель машинного обучения Oracle.
    Если невозможно сопоставить входные данные модели с элементами данных, отображается диалоговое окно Сопоставление данных с моделью.
  5. Если отображается диалоговое окно Сопоставление данных с моделью, в поле Набор данных выберите набор данных, который будет использоваться с этой моделью.
  6. При необходимости сопоставьте входные данные модели и элементы данных. Нажмите Готово.
    Сценарий отображается в виде набора данных на панели Элементы данных.
  7. Перетащите элементы из набора данных и модели на холст "Визуализация".
  8. Чтобы настроить сценарий, нажмите правой кнопкой мыши сценарий на панели Элементы данных и выберите Редактировать сценарий.
  9. Измените набор данных и при необходимости обновите сопоставление входных данных модели и элементов данных.
  10. Чтобы сохранить рабочую книгу, нажмите Сохранить, чтобы сохранить рабочую книгу.