О потоках данных

Потоки данных позволяют организовать и интегрировать данные для создания набора отобранных данных, который может визуализироваться пользователями.

Используйте потоки данных для визуального управления данными без необходимости в навыках написания кода вручную.

Например, поток данных можно использовать, чтобы:

  • Создать набор данных.
  • Объединить данные из разных источников.
  • Агрегировать данные.
  • Обучить модели машинного обучения или применить прогностическую модель машинного обучения к своим данным.
  • Обнаружить объекты, классифицировать изображения или распознать текст с помощью искусственного интеллекта сервиса OCI Vision.

Потоки данных создаются на панели проектирования потоков данных.
Описание GUID-2B831D4B-0478-4EAC-917D-EA910D9FFFE3-default.png ниже
.png

Чтобы создать поток данных, требуется добавить шаги. Каждый шаг выполняет определенную функцию, например добавление данных, объединение таблиц, объединение столбцов или преобразование данных. Для добавления и настройки шагов используется редактор потоков данных. Каждый шаг проверяется при добавлении или изменении. После настройки потока данных его следует выполнить, чтобы создать или обновить набор данных.

При добавлении собственных столбцов или преобразовании данных можно использовать широкий набор операторов SQL (например, BETWEEN, LIKE, IN), условные выражения (например, CASE) и функции (например, Avg, Median, Percentile).

Обновление наборов данных, созданных потоками данных

Можно повторно запустить потоки данных, чтобы поддерживать наборы данных в актуальном состоянии.

Примечание.:

При повторном запуске потока данных все преобразования, примененные непосредственно к набору выходных данных вне потока данных, теряются. Набор данных создается заново.

Пределы потока данных

Если вы обрабатываете большие объемы данных, обратите внимание, что существуют ограничения на поток данных. См. раздел "Пределы потока данных".

Поддержка баз данных для потоков данных

Потоки данных позволяют отбирать данные из наборов данных и предметных областей.

Потоки данных можно выполнять по отдельности или последовательно. В поток данных можно включить несколько источников данных и указать способ их объединения.

Действие Добавить данные позволяет добавить данные в поток данных, а действие Сохранить данные — сохранить выходные данные потока.

Выходные данные из потока данных можно сохранить как в наборе данных, так и в базе данных одного из поддерживаемых типов. В случае сохранения данных в базе данных источник данных можно преобразовать, перезаписав его данными из потока данных. Таблицы источника данных и потока данных должны находиться в одной и той же базе данных и должны иметь одинаковые имена. Перед началом работы создайте подключение к одному из поддерживаемых типов баз данных.

Примечание.:

Данные можно добавить из удаленных баз данных, подключенных с помощью Data Gateway. Однако сохранить данные в таких базах данных нельзя.

Выходные данные

Выходные данные потока можно сохранить в базах данных следующих типов:
  • Oracle Autonomous AI Lakehouse
  • Oracle Autonomous AI Transaction Processing
  • База данных Oracle
  • Apache Hive
  • Hortonworks Hive
  • MapR Hive
  • Spark

Подробнее о версиях баз данных см. в разделе Поддерживаемые источники данных.

Ввод данных

В потоках данных можно обрабатывать данные из наборов данных и предметных областей. Данные нельзя извлечь непосредственно из баз данных – сначала необходимо создать набор данных из таблиц базы данных.

Работа в конструкторе потоков данных

Конструктор потоков данных позволяет отбирать и преобразовывать данные в среде графического проектирования.

Работа в конструкторе потоков данных:

Используйте конструктор потоков данных для организации и настройки шагов потока данных, которые преобразуют данные.



Используйте эти функции в конструкторе потоков данных.

Функция Значок Описание
Компактный макет Значок компактного макета Группируйте этапы в меньшую область просмотра, чтобы уменьшить прокрутку.
Развернутый макет Значок "Развернутый макет" Выравнивайте этапы источника входных данных по левому краю, чтобы облегчить чтение.
Неполное соединение или объединение

Значок завершения соединения или объединения

Указывает источник данных, который не участвует в соединении или объединении. Наведите курсор на значок синей ссылки Значок завершения соединения или объединения, чтобы увидеть предлагаемую цель соединения (пунктирная линия), и нажмите еще раз, чтобы завершить соединение или объединение (сплошная линия).

Чтобы удалить подключение, нажмите правой кнопкой мыши на этап соединения Значок этапа соединения или этап объединения Значок этапа объединения и выберите Удалить.

Улучшения масштабирования Значок масштабирования Увеличение и уменьшение масштаба.