В моделях с предсказанием Oracle Analytics используется несколько встроенных алгоритмов машинного обучения Oracle для анализа наборов данных, прогнозирования целевого значения или определения классов записей. Для создания, обучения и применения моделей с предсказанием к вашим данным используйте редактор потоков данных.
В модели с предсказанием Oracle Analytics к набору данных применяется специфический алгоритм для прогнозирования значений, прогнозирования классов или определения групп в данных.
Для прогнозирования данных можно также использовать модели машинного обучения Oracle.
В Oracle Analytics включены алгоритмы, которые помогают обучать модели с предсказанием в соответствии с различными целями. Примерами алгоритмов являются деревья классификации и регрессии (CART), логистическая регрессия и метод k-средних.
Редактор потоков данных используется для обучения модели на наборе данных обучения. После обучения модели с предсказанием ее можно применить к наборам данных, для которых необходимо выполнить прогнозирование.
Можно предоставить подготовленную модель другим пользователям, которые могут применять ее к своим данным для прогнозирования значений. В некоторых случаях определенные пользователи обучают модели, а другие пользователи применяют эти модели.
Примечание.:
Если неизвестно, что именно нужно искать в данных, можно начать с использования модели Explain, в которой используется машинное обучение для определения тенденций и закономерностей. Затем с использованием редактора потоков данных для создания и обучения моделей с предсказанием можно получить подробную информацию о тенденциях и шаблонах, которые были найдены с помощью Explain.С использованием готовой модели оцените неизвестные или непомеченные данные для создания набора данных в потоке данных или для добавления визуализации прогнозирования в рабочую книгу.
Пример
Предположим, требуется создать и обучить модель мультиклассификации для прогнозирования того, у каких пациентов существует высокий риск развития заболевания сердца.
Oracle Analytics предоставляет алгоритмы для любых задач моделирования машинного обучения: численное прогнозирование, мультиклассификатор, двоичный классификатор и кластеризация.
Функции машинного обучения Oracle предназначены для опытных аналитиков данных, которые имеют представление о том, что они ищут в своих данных, знакомы с практикой упреждающей аналитики и понимают различия между алгоритмами.
Примечание.:
При использовании данных, полученных из Oracle Autonomous Data Warehouse, можно применить функцию AutoML для быстрого и простого обучения модели с предсказаниями без необходимости в навыках работы с машинным обучением. См. раздел Обучение модели с предсказаниями с помощью AutoML в Autonomous Data Warehouse.Обычно пользователи хотят создать несколько моделей прогнозирования, сравнить их и выбрать модель, которая, скорее всего, обеспечит результаты, отвечающие их критериям и требованиям. Эти критерии могут быть различными. Например, иногда пользователи выбирают модели с более высокой общей точностью, иногда — модели с наименьшим числом ошибок типа I (ложноположительные) и типа II (ложноотрицательные), иногда — модели, которые позволяют быстрее получать результаты и обеспечивают приемлемый уровень точности даже в том случае, если результаты не являются идеальными.
Oracle Analytics содержит несколько алгоритмов машинного обучения для каждого типа прогнозирования или классификации. С помощью этих алгоритмов пользователи могут создавать несколько моделей, использовать различные точно настроенные параметры или использовать различные входных наборы данных обучения, а затем выбирать оптимальную модель. Пользователь может выбрать оптимальную модель, сравнивая и оценивая модели в соответствии с собственными критериями. Чтобы определить оптимальную модель, пользователи могут применять модели и визуализировать результаты вычислений для определения точности или открывать и просматривать связанные наборы данных, для вывода которых компонент Oracle Analytics использовал эту модель.
Сведения о предоставляемых алгоритмах см. в следующей таблице:
Имя | Тип | Категория | Функция | Описание |
---|---|---|---|---|
CART |
Классификация Регрессия |
Двоичный классификатор Мультиклассификатор Численный |
- | Использует деревья принятия решений для прогнозирования как дискретных, так и непрерывных значений.
Используется с большими наборами данных. |
Линейная регрессия эластичной сетки | Регрессия | Численный | ElasticNet | Расширенная регрессионная модель. Предоставляет дополнительную информацию (регуляризация), выполняет выбор переменных и выполняет линейные комбинации. Недостатки методов регрессии Lasso и Ridge.
Используются с большим количеством атрибутов для предотвращения коллинеарности (когда несколько атрибутов идеально коррелированы) и избыточного обучения. |
Иерархический | Кластеризация | Кластеризация | AgglomerativeClustering | Построение иерархии кластеризации с использованием порядка либо "снизу вверх" (каждое наблюдение представляет собственный кластер, а затем объединяется), либо "сверху вниз" (все наблюдения запускаются как один кластер) и показателей расстояния.
Используется, если набор данных имеет небольшой размер и число кластеров неизвестно заранее. |
Метод k-средних | Кластеризация | Кластеризация | Метод k-средних | Итеративно разбивает записи на k кластеров, в которых каждое наблюдение относится к кластеру с ближайшим средним значением.
Используется для кластеризации столбцов показателей и с заданным ожиданием необходимого числа кластеров. Эффективно работает с большими наборами данных. Результаты для каждого прогона различаются. |
Линейная регрессия | Регрессия | Численный | Обычный метод наименьших квадратов
Ridge Lasso |
Линейный подход к моделированию взаимосвязи между целевой переменной и другими атрибутами в наборе данных.
Используется для прогнозирования числовых значений, когда атрибуты не полностью коррелированы. |
Логистическая регрессия | Регрессия | Двоичный классификатор | LogisticRegressionCV | Используется для прогнозирования значения категориальной зависимой переменной. Зависимая переменная представляет собой двоичную переменную, содержащую данные, закодированные в виде 1 или 0. |
Наивный байесовский алгоритм | Классификация |
Двоичный классификатор Мультиклассификатор |
GaussianNB | Вероятностная классификация на основе теорема Байеса, которая не предполагает зависимости между функциями.
Используется при большом количестве входных измерений. |
Нейронные сети | Классификация |
Двоичный классификатор Мультиклассификатор |
MLPClassifier | Итеративный алгоритм классификации, который обучается путем сравнения его результата классификации с фактическим значением и возвращает его в сеть для изменения алгоритма для последующих итераций.
Используется для анализа текста. |
Случайный лес | Классификация |
Двоичный классификатор Мультиклассификатор Численный |
- | Ансамбль методов, который создает несколько деревьев принятия решений и выводит значение, которое в совокупности представляет все деревья решений.
Используется для прогнозирования числовых и категориальных переменных. |
SVM | Классификация |
Двоичный классификатор Мультиклассификатор |
LinearSVC, SVC | Классификация записей путем их отображения в пространстве и построения гиперплоскостей, которые можно использовать для классификации. Новые записи (данные оценки) отображаются в том же пространстве и, по прогнозу, будут относиться к одной из категорий в зависимости от того, по какую сторону гиперплоскости они отображаются. |
При использовании данных из Oracle Autonomous Data Warehouse можно применить функцию AutoML для рекомендации и обучения модели с предсказаниями. AutoML анализирует данные, рассчитывает оптимальный для использования алгоритм и регистрирует модель с предсказаниями в Oracle Analytics для прогнозирования данных.
OML_Developer
и он не является суперпользователем с правами администратора (admin). В противном случае сохранение или выполнение потока данных будет невозможно.Опытные аналитики данных создают и обучают модели с предсказанием, которые можно использовать с целью развертывания алгоритмов машинного обучения Oracle для анализа наборов данных, прогнозирования целевого значения или определения классов записей. Для создания, обучения и применения моделей с предсказанием к вашим данным используйте редактор потоков данных.
Получение точной модели — это итеративный процесс, и опытный аналитик данных может опробовать различные модели, сравнить их результаты и точно настроить параметры, используя метод проб и ошибок. Аналитик данных может использовать завершенную, точную модель с предсказанием для прогнозирования тенденций в других наборах данных или добавления модели в рабочие книги.
Примечание.:
При использовании данных, полученных из Oracle Autonomous Data Warehouse, можно применить функцию AutoML для быстрого и простого обучения модели с предсказаниями без необходимости в навыках работы с машинным обучением. См. раздел Обучение модели с предсказаниями с помощью AutoML в Autonomous Data Warehouse.Oracle Analytics предоставляет алгоритмы для численного прогнозирования, мультиклассификации, двоичной классификации и кластеризации.
Oracle Analytics позволяет обучать модели машинного обучения, используя этапы в потоках данных. Обучив модель машинного обучения, примените ее к данным в ходе выполнения шага Применить модель.
Название шага | Описание |
---|---|
AutoML (требуется Oracle Autonomous Data Warehouse) | Использование функции AutoML из Oracle Autonomous Data Warehouse для рекомендации и обучения модели с предсказаниями. В ходе выполнения шага AutoML выполняется анализ данных, вычисление оптимального алгоритма и регистрация модели с предсказаниями в Oracle Analytics. |
Обучение двоичной классификации |
Применение модели машинного обучения для классифицирования данных в одну из двух предварительно определенных категорий. |
Обучение кластеризации | Применение модели машинного обучения для разделения групп с похожими чертами и распределения их по кластерам. |
Обучение мультиклассификации | Применение модели машинного обучения для классифицирования данных по трем или более предварительно определенным категориям. |
Обучение численному прогнозированию | Применение модели машинного обучения для прогнозирования числового значения на основе известных значений данных. |
После создания модели с предсказанием и запуска потока данных можно просмотреть информацию о модели, чтобы определить ее точность. Используйте эту информацию для итеративного задания настроек модели, чтобы повысить точность и прогнозировать более хорошие результаты.
Подробная информация о модели с предсказанием поможет понять модель и определить, подходит ли она для прогнозирования данных. Сведения о модели включают в себя класс модели, алгоритм, входные и выходные столбцы.
Просмотрите информацию, которая поможет понять качество модели с предсказанием. Например, можно просмотреть показатели точности, такие как точность модели, точность, отзыв, значение F1 и ложная положительная скорость.
При запуске потока данных для создания модели обучения модели с предсказанием Oracle Analytics создает набор связанных наборов данных. На этих наборах данных можно открывать и создавать рабочие книги, чтобы оценить точность модели.
В зависимости от алгоритма, выбранного для вашей модели, связанные наборы данных содержат сведения о модели, такие как правила прогнозирования, показатели точности, матрица путаницы и ключевые определяющие факторы прогнозирования. Можно использовать эту информацию для точной настройки модели для получения лучших результатов, а также использовать связанные наборы данных для сравнения моделей и выявления более точной модели.
Например, вы открываете набор данных "Определяющие факторы", чтобы определить, какие столбцы оказывают сильное положительное или отрицательное влияние на модель. Изучив эти столбцы, вы обнаруживаете, что некоторые столбцы не обрабатываются как переменные модели, поскольку они не являются реалистичными входными данными или слишком детализированы для прогноза. С помощью редактора потока данных вы открываете модель и на основе полученной информации удаляете ненужные или слишком детализированные столбцы и повторно создаете модель. Проверяете вкладки "Качество" и "Результаты" и убеждаетесь, что точность модели повысилась. После чего продолжаете этот процесс, пока не будете удовлетворены точностью модели и не будете готовы оценить новый набор данных.
Различные алгоритмы генерируют подобные связанные наборы данных. Отдельные параметры и имена столбцов в наборе данных могут изменяться в зависимости от типа алгоритма, но функциональность набора данных остается неизменной. Например, имена столбцов в наборе статистических данных могут изменяться, вместо имени "Линейная регрессия" иметь имя "Логистическая регрессия", но этот набор статистических данных содержит показатели точности модели.
Связанные наборы данных для моделей AutoML
При обучении прогнозирующей модели с помощью AutoML Oracle Analytics создает дополнительные наборы данных, содержащие полезную информацию о модели. Число созданных наборов данных зависит от алгоритма модели. Например, для моделей с наивным байесовским алгоритмом Oracle Analytics создает набор данных, содержащий информацию об условных вероятностях. Набор данных для модели дерева решений предлагает информацию о статистике дерева. При проверке модели, сгенерированной AutoML, с помощью алгоритма обобщенной линейной модели (GLM) показываются записи с префиксом GLM*, относящиеся к наборам данных конкретной модели, которые содержат метаданные этой модели.
.png
Связанные наборы данных
Примечание.:
Oracle Analytics добавляет выходное имя к связанному типу набора данных. Например, если для модели CART выход потока данных называется cart_model2, то набор данных будет называться cart_model2_CART.CART
Oracle Analytics создает таблицу для набора данных, связанного с CART (Classification and Regression Tree). Она содержит столбцы, в которых представлены условия и критерии условий в дереве принятия решений, прогноз для каждой группы и достоверность прогнозирования. Используйте визуализацию древовидной схемы для визуализации дерева принятия решений.
Набор данных CART создается при выборе представленных комбинаций модели и алгоритма.
Модель | Алгоритм |
---|---|
Числовая | CART для численного прогнозирования |
Двоичная классификация | CART |
Мультиклассификация | CART |
Отчет о классификации
Oracle Analytics создает таблицу для набора данных, связанного с отчетом о классификации. Например, если целевой столбец может иметь два отдельных значения "Да" и "Нет", в этом наборе данных отображаются показатели точности, такие как F1, точность представления, отзыв и поддержка (число строк в наборе данных обучения с этим значением) для каждого отдельного значения в целевом столбце.
Набор данных "Классификация" создается при выборе представленных комбинаций модели и алгоритма.
Модель | Алгоритмы |
---|---|
Двоичная классификация |
Наивный байесовский алгоритм Нейронные сети Машина опорных векторов |
Мультиклассификация |
Наивный байесовский алгоритм Нейронные сети Машина опорных векторов |
Матрица неточностей
Oracle Analytics создает сводную таблицу для набора данных, связанного со статистикой. Каждая строка представляет экземпляр прогнозируемого класса, а каждый столбец представляет экземпляр в фактическом классе. В этой таблице указано число ложноположительных, ложноотрицательных, истинно положительных и истинно отрицательных результатов, которые используются для вычисления показателей точности представления, Recall и F1.
Набор данных "Матрица смешения" создается при выборе представленных ниже комбинаций модели и алгоритма.
Модель | Алгоритмы |
---|---|
Двоичная классификация |
Логистическая регрессия CART (дерево принятия решений) Наивный байесовский алгоритм Нейронные сети Случайный лес Машина опорных векторов |
Мультиклассификация |
CART (дерево принятия решений) Наивный байесовский алгоритм Нейронные сети Случайный лес Машина опорных векторов |
Факторы
Oracle Analytics создает таблицу для набора данных, связанного с определяющими факторами. Она содержит информацию о столбцах, определяющих значения целевых столбцов. Для идентификации этих столбцов используются линейные регрессии. Каждому столбцу назначаются значения коэффициентов и корреляции. Значение коэффициента описывает весомость столбца, используемую для определения значения целевого столбца. Значение корреляции указывает направление связи между целевым столбцом и зависимым столбцом. Например, если значение целевого столбца увеличивается или уменьшается в соответствии с зависимым столбцом.
Набор данных "Факторы" создается при выборе представленных ниже комбинаций модели и алгоритма.
Модель | Алгоритмы |
---|---|
Числовая |
Линейная регрессия Линейная регрессия эластичной сетки |
Двоичная классификация |
Логистическая регрессия Машина опорных векторов |
Мультиклассификация | Машина опорных векторов |
Карта совпадений
Oracle Analytics создает таблицу для набора данных, связанного с "Картой совпадений". Она содержит информацию о простых узлах дерева принятия решений. Каждая строка в таблице представляет простой узел и содержит информацию, описывающую значение, которое представляет простой узел, например, размер сегмента, достоверность и ожидаемое число строк. Например, ожидаемое число правильных прогнозов равняется размеру сегмента, умноженному на достоверность.
Набор данных "Карта совпадений" создается при выборе представленных ниже комбинаций модели и алгоритма.
Модель | Алгоритм |
---|---|
Числовая | CART для численного прогнозирования |
Остатки
Oracle Analytics создает таблицу для набора данных, связанного с остатками. Она содержит информацию о качестве остаточных прогнозов. Остаток — это разность между измеренным значением и прогнозируемым значением регрессионной модели. Этот набор данных содержит совокупное значение абсолютной разности между фактическими и прогнозируемыми значениями для всех столбцов в наборе данных.
Набор данных "Остатки" создается при выборе представленных ниже комбинаций модели и алгоритма.
Модель | Алгоритмы |
---|---|
Числовые |
Линейная регрессия Линейная регрессия эластичной сетки CART для численного прогнозирования |
Двоичная классификация | CART (дерево принятия решений) |
Мультиклассификация | CART (дерево принятия решений) |
Статистика
Oracle Analytics создает таблицу для набора данных, связанного со статистикой. Показатели этого набора данных зависят от алгоритма, используемого для его создания. Ниже приводится список показателей в соответствии с алгоритмами:
Этот набор данных создается при выборе представленных комбинаций модели и алгоритма.
Модель | Алгоритм |
---|---|
Числовая |
Линейная регрессия Линейная регрессия эластичной сетки CART для численного прогнозирования |
Двоичная классификация |
Логистическая регрессия CART (дерево принятия решений) Наивный байесовский алгоритм Нейронные сети Случайный лес Машина опорных векторов |
Мультиклассификация |
Наивный байесовский алгоритм Нейронные сети Случайный лес Машина опорных векторов |
Сводка
Oracle Analytics создает таблицу для набора данных, связанного со сводкой. Она содержит сведения об имени целевого объекта и имени модели.
Набор данных "Сводка" создается при выборе представленных ниже комбинаций модели и алгоритма.
Модель | Алгоритмы |
---|---|
Двоичная классификация |
Наивный байесовский алгоритм Нейронные сети Машина опорных векторов |
Мультиклассификация |
Наивный байесовский алгоритм Нейронные сети Машина опорных векторов |
Связанные наборы данных создаются при обучении модели с предсказанием.
При создании сценария в рабочей книге к набору данных рабочей книги применяется модель с предсказанием, которая позволяет выявить тенденции и шаблоны, для поиска которых была разработана данная модель.
Примечание.:
Невозможно применить модель машинного обучения Oracle к данным рабочей книги.