Рекомендации по семантике и профилированию данных

При создании набора данных Oracle Analytics выполняет его профилирование на уровне столбцов для получения набора семантических рекомендаций по восстановлению или пополнению данных. При создании рабочих книг можно также включать в визуализации обогащения базы знаний, добавляя их из панели данных.

Примечание.:

Обогащение знаний, как правило, включено по умолчанию, но редакторы рабочих книг могут включать или выключать его для тех наборов данных, которыми владеют или в отношении которых имеют полномочия на редактирование. Oracle Analytics не предоставляет автоматически рекомендации по обогащению наборов данных, созданных из потока данных. В этом случае владелец или администратор набора данных должен сначала включить параметр обогащения знаний для набора данных. См. раздел "Включение обогащения знаний для наборов данных".

Эти рекомендации основаны на системе, автоматически определяющей конкретный семантический тип на этапе профилирования. Например, наборы данных на основе локальных предметных областей профилируются с помощью простого образца "Первые N".

Существуют различные категории семантических типов, например географические области, определяемые по названиям городов, распознаваемые шаблоны, например номер кредитной карты, адрес электронной почты или номер социального страхования, даты и повторяющиеся шаблоны. Можно также создать собственные семантические типы.

Категории семантических типов

Профилирование применяется к различным семантическим типам.

Категории семантических типов профилируются, чтобы выявить следующее:

  • географические местоположения, таких как названия городов;
  • шаблоны, например, обнаруженных в номерах кредитных карт или адресах электронной почты;
  • повторяющиеся шаблоны, например фразы, записанные через дефис.

Рекомендации по семантическим типам

Рекомендации по восстановлению, улучшению или обогащению набора данных определяются типом данных.

Примеры рекомендаций по семантическим типам:

  • Обогащения. Добавление нового столбца к данным, который соответствует определенному обнаруженному типу, такому как географическое местоположение. Например, добавление данных о населении для города.
  • Конкатенации столбцов. Если в наборе данных обнаружены два столбца, один из которых содержит имена, а другой — фамилии, система рекомендует объединить их в один столбец. Например, столбец имя_фамилия.
  • Семантические извлечения. Когда семантический тип составлен из подтипов, таких как номер us_phone, который включает код города, система рекомендует извлечь подтип в отдельный столбец.
  • Извлечение части. При обнаружении в данных общего разделителя шаблонов система рекомендует извлечь части этого шаблона. Например, обнаружив повторяющиеся переносы в данных, система рекомендует извлечь части в отдельные столбцы, чтобы потенциально сделать данные более полезными для анализа.
  • Извлечение дат. При обнаружении дат система рекомендует извлечь части даты, которые могут дополнить анализ данных. Например, из счета или даты покупки можно извлечь день недели.
  • Полное или частичное искажение/маскирование/удаление. При обнаружении полей с конфиденциальными данными, такими как номер кредитной карты, система рекомендует полную или частичную маскировку столбца или даже удаление.

Семантические типы на основе распознанных шаблонов

Семантические типы определяются на основе массивов, найденных в данных.

Для этих семантических типов даются рекомендации:

  • Даты (более 30 форматов)
  • Номера социального страхования в США (SSN)
  • Номера кредитных карт
  • Атрибуты кредитной карты (CVV-код или дата истечение срока действия)
  • Адрес эл. почты
  • Номера телефонов Северной Америки
  • Адреса в США

Справка по базовым семантическим типам

Распознавание семантических типов определяется загруженными справочными сведениями, которые предоставляются вместе с сервисом.

Рекомендации на основе ссылок предоставляются для следующих семантических типов:

  • Названия стран
  • Коды стран
  • Названия штатов (провинций)
  • Коды штатов
  • Названия стран (юрисдикции)
  • Названия городов (локализованные)
  • Почтовые индексы

Рекомендованные улучшения

Рекомендуемые обогащения основаны на семантических типах.

Обогащения определяются в зависимости от иерархии географического положения:

  • Страна
  • Провинция (штат)
  • Юрисдикция (округ)
  • Долгота
  • Широта
  • Население
  • Высота (в метрах)
  • Часовой пояс
  • Коды стран ISO
  • Федеральные серии обработки информации (FIPS)
  • Название страны
  • Столица
  • Континент
  • Идентификатор географических названий
  • Разговорные языки
  • Телефонный код страны
  • Формат почтового индекса
  • Шаблон почтового индекса
  • Телефонный код страны
  • Название валюты
  • Сокращение названия валюты
  • Географическая область верхнего уровня (GeoLTD)
  • Квадратный километр

Требуемые пороговые значения

В процессе профилирования для принятия решений о конкретных семантических типах используются определенные пороговые значения.

Как правило, 85% значений данных в столбце должны отвечать критериям одного семантического типа, чтобы система могла принять решение о классификации. В результате столбец, который может содержать 70 % имен и 30 % "других" значений, не соответствует требованиям к пороговым значениям, поэтому рекомендаций не будет.

Пользовательские рекомендации в отношении знаний

Используйте пользовательские рекомендации в отношении знаний, чтобы расширить знания о системе Oracle Analytics. Пользовательские знания позволяют семантическому инструменту профилирования Oracle Analytics выявлять больше семантических типов, характерных для бизнеса, и давать более релевантные и управляемые рекомендации по обогащению. Например, можно добавить пользовательские справочные сведения, которые классифицируют рецептурный препарат по категориям препаратов USP "Анальгетики" или "Опиоиды".

значок руководства Руководство

Попросите администратора загрузить файлы с пользовательскими знаниями в Oracle Analytics. При обогащении наборов данных Oracle Analytics предоставляет соответствующие рекомендации на основе этих семантических данных. При создании рабочих книг можно также включать в визуализации обогащения базы знаний, добавляя их с панели данных.

Создание собственных файлов с пользовательскими знаниями

При создании семантических файлов следуйте приведенным ниже рекомендациям.

  • Создайте файл данных в формате CSV или Microsoft Excel (XLSX). Максимальный размер загружаемого файла составляет 250 МБ.
  • Заполните первый столбец ключом, который Oracle Analytics использует для профилирования данных. Например, ключом может быть дата с детализацией на уровне дня, позволяющая анализировать данные по финансовому году.
  • Заполните другие столбцы значениями обогащения.

Попросите администратора загрузить ваш файл с пользовательскими знаниями в Oracle Analytics.

Пример: интеграция временных рамок бизнеса с данными

В этом примере показано, как добавить временные рамки бизнеса в данные продаж и включить анализ продаж по финансовым годам, если исходный набор данных не содержит финансовых данных.

В примере визуализации показаны продажи по кварталам в 2019, 2020, 2021, 2022 и 2023 годах, где каждый год представлен своим цветом. У вас нет финансовых данных в исходных данных продаж, поэтому нужно развернуть дополнительные пользовательские знания для добавления финансовых данных в свой набор.

Сначала финансовые данные готовятся в файле Fiscal Calendar.xlsx. Файл содержит дату (дд-мм-гггг), финансовый год, финансовый месяц и финансовую неделю. Например, исходный файл может иметь значения 01-23-2025 в столбце даты, 2025 в столбце финансового года и атрибуты для заполнения оставшихся столбцов.

Попросите администратора загрузить финансовый файл Calendar.xlsx в пользовательскую область знаний в консоли.

Затем создается набор данных, содержащий "Продажи" и ORDER_DATE. В редакторе наборов данных в рекомендациях по обогащению выберите Enrich ORDER_DATE WITH Fiscal Year и Enrich ORDER_DATE WITH Fiscal Month. Oracle Analytics добавляет эти два обогащения в набор данных.

Наконец, создается рабочая книга и в визуализацию добавляются Финансовый год, Финансовый квартал (в разделе ORDER_DATE) и Продажи. Примечание. Можно добавить Финансовый год и Финансовый квартал напрямую, не добавляя исходный столбец ORDER_DATE.