Ссылка на обогащение и преобразование

Используйте эту справочную информацию, чтобы обогатить и преобразовать данные.

Ссылка на преобразование

Здесь рассказывается о параметрах преобразования данных, доступных в редакторе преобразований. Например, для категоризации значений времени круга в автогонках в столбце данных можно использовать параметр Ячейка.

Чтобы преобразовать параметры в редакторе преобразований, нажмите Параметры (вертикальное многоточие в правой верхней части столбца данных Многоточие) и выберите параметр (например, Ячейка, Переименовать или Преобразовать в текст).


Описание GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.png ниже
.png

Параметр Описание
Группа Создайте собственные настраиваемые группы для диапазонов чисел. Например, можно создать группы для столбца "Возраст" с диапазонами возрастов, разделенными на группы "Подростки", "Молодые", "Взрослые" или "Пожилые" на основе требований заказчиков.
Расчет продолжительности Рассчитайте продолжительность между двумя датами. Например, чтобы проанализировать время доставки заказа, можно подсчитать количество дней между датой заказа (ORDER_DATE) и датой доставки (DELIVERY_DATE).
Преобразовать в дату Измените тип данных столбца на "Дата" и удалите из столбца любые значения, не являющиеся датами.
Преобразовать в число Измените тип данных столбца на "Число". В результате из столбца будут удалены все нечисловые значения.
Преобразовать в текст Изменение типа данных столбца на "Текст".
Создать Создайте столбец на основе функции.
Дублировать Создайте столбец с содержимым, идентичным выбранному столбцу.
Редактировать Измените сведения о столбце. Например, можно изменить имя, выбрать другой столбец или обновить функции.
Дата извлечения Извлеките информацию о диапазоне дат и времени из меток времени. Например, можно извлечь год – 2024, день месяца – 23, время дня – 15.
Группа, условная группа Выберите Группа, чтобы создать собственные настраиваемые группы. Например, состояния можно сгруппировать по настраиваемым регионам, а суммы в долларах можно разбить на группы, указывающие на небольшие, средние и большие суммы.
Скрыть Скройте столбец на панели данных и в визуализациях. Чтобы увидеть скрытые столбцы, нажмите Скрытые столбцы (значок в виде привидения) в нижнем колонтитуле страницы. Затем можно отменить скрытие отдельных столбцов или всех скрытых столбцов одновременно.
Журнал Вычислите натуральный логарифм выражения.
Строчные Обновите содержимое столбца значениями со всеми строчными буквами.
Степень Возведите значение столбца в указанную степень. Степень по умолчанию: 2.
Переименовать Измените имя столбца.
Заменить Измените определенный текст в выбранном столбце на любое заданное значение. Например, все экземпляры слова Уважаемый в столбце можно заменить на Ув.
Предложение с заглавной буквы Обновите содержимое столбца, делая прописной первую букву первого слова предложения.
Разделить Разделите значение столбца на части. Например, столбец "Имя" можно разделить на имя и фамилию.
Квадратный корень Создайте столбец, заполненный квадратными корнями значений из выбранного столбца.
Прописные Обновите содержимое столбца значениями со всеми прописными буквами.

Рекомендации по семантике и профилированию данных

При создании набора данных Oracle Analytics выполняет его профилирование на уровне столбцов для получения набора семантических рекомендаций по восстановлению или пополнению данных. При создании рабочих книг можно также включать в визуализации обогащения базы знаний, добавляя их из панели данных.

Эти рекомендации основаны на системе, автоматически определяющей конкретный семантический тип на этапе профилирования. Например, наборы данных на основе локальных предметных областей профилируются с помощью простого образца "Первые N".

Существуют различные категории семантических типов, например географические области, определяемые по названиям городов, распознаваемые шаблоны, например номер кредитной карты, адрес электронной почты или номер социального страхования, даты и повторяющиеся шаблоны. Можно также создать собственные семантические типы.

Категории семантических типов

Профилирование применяется к различным семантическим типам.

Категории семантических типов профилируются, чтобы выявить следующее:

  • географические местоположения, таких как названия городов;
  • шаблоны, например, обнаруженных в номерах кредитных карт или адресах электронной почты;
  • повторяющиеся шаблоны, например фразы, записанные через дефис.

Рекомендации по семантическим типам

Рекомендации по восстановлению, улучшению или обогащению набора данных определяются типом данных.

Примеры рекомендаций по семантическим типам:

  • Обогащения. Добавление нового столбца к данным, который соответствует определенному обнаруженному типу, такому как географическое местоположение. Например, добавление данных о населении для города.
  • Конкатенации столбцов. Если в наборе данных обнаружены два столбца, один из которых содержит имена, а другой — фамилии, система рекомендует объединить их в один столбец. Например, столбец имя_фамилия.
  • Семантические извлечения. Когда семантический тип составлен из подтипов, таких как номер us_phone, который включает код города, система рекомендует извлечь подтип в отдельный столбец.
  • Извлечение части. При обнаружении в данных общего разделителя шаблонов система рекомендует извлечь части этого шаблона. Например, обнаружив повторяющиеся переносы в данных, система рекомендует извлечь части в отдельные столбцы, чтобы потенциально сделать данные более полезными для анализа.
  • Извлечение дат. При обнаружении дат система рекомендует извлечь части даты, которые могут дополнить анализ данных. Например, из счета или даты покупки можно извлечь день недели.
  • Полное или частичное искажение/маскирование/удаление. При обнаружении полей с конфиденциальными данными, такими как номер кредитной карты, система рекомендует полную или частичную маскировку столбца или даже удаление.

Семантические типы на основе распознанных шаблонов

Семантические типы определяются на основе массивов, найденных в данных.

Для этих семантических типов даются рекомендации:

  • Даты (более 30 форматов)
  • Номера социального страхования в США (SSN)
  • Номера кредитных карт
  • Атрибуты кредитной карты (CVV-код или дата истечение срока действия)
  • Адрес эл. почты
  • Номера телефонов Северной Америки
  • Адреса в США

Справка по базовым семантическим типам

Распознавание семантических типов определяется загруженными справочными сведениями, которые предоставляются вместе с сервисом.

Рекомендации на основе ссылок предоставляются для следующих семантических типов:

  • Названия стран
  • Коды стран
  • Названия штатов (провинций)
  • Коды штатов
  • Названия стран (юрисдикции)
  • Названия городов (локализованные)
  • Почтовые индексы

Рекомендованные улучшения

Рекомендуемые обогащения основаны на семантических типах.

Обогащения определяются в зависимости от иерархии географического положения:

  • Страна
  • Провинция (штат)
  • Юрисдикция (округ)
  • Долгота
  • Широта
  • Население
  • Высота (в метрах)
  • Часовой пояс
  • Коды стран ISO
  • Федеральные серии обработки информации (FIPS)
  • Название страны
  • Столица
  • Континент
  • Идентификатор географических названий
  • Разговорные языки
  • Телефонный код страны
  • Формат почтового индекса
  • Шаблон почтового индекса
  • Телефонный код страны
  • Название валюты
  • Сокращение названия валюты
  • Географическая область верхнего уровня (GeoLTD)
  • Квадратный километр

Требуемые пороговые значения

В процессе профилирования для принятия решений о конкретных семантических типах используются определенные пороговые значения.

Как правило, 85% значений данных в столбце должны отвечать критериям одного семантического типа, чтобы система могла принять решение о классификации. В результате столбец, который может содержать 70 % имен и 30 % "других" значений, не соответствует требованиям к пороговым значениям, поэтому рекомендаций не будет.

Пользовательские рекомендации в отношении знаний

Используйте пользовательские рекомендации в отношении знаний, чтобы расширить знания о системе Oracle Analytics. Пользовательские знания позволяют семантическому инструменту профилирования Oracle Analytics выявлять больше семантических типов, характерных для бизнеса, и давать более релевантные и управляемые рекомендации по обогащению. Например, можно добавить пользовательские справочные сведения, которые классифицируют рецептурный препарат по категориям препаратов USP "Анальгетики" или "Опиоиды".

значок руководства Руководство

Можно использовать существующие семантические файлы, такие как файлы USP (Unsupervised Semantic Parsing), или создать собственные семантические файлы. Попросите администратора загрузить файлы с пользовательскими знаниями в Oracle Analytics. При обогащении наборов данных Oracle Analytics предоставляет соответствующие рекомендации на основе этих семантических данных. При создании рабочих книг можно также включать в визуализации обогащения базы знаний, добавляя их с панели данных.

Создание собственных файлов с пользовательскими знаниями

При создании собственных семантических файлов следуйте приведенным ниже рекомендациям.

  • Создайте файл данных в формате CSV или Microsoft Excel (XLSX). Максимальный размер загружаемого файла составляет 250 МБ.
  • Заполните первый столбец ключом, который Oracle Analytics использует для профилирования данных.
  • Заполните другие столбцы значениями обогащения.

Попросите администратора загрузить ваш файл с пользовательскими знаниями в Oracle Analytics.

Основные пользовательские строки форматирования

Общие строки пользовательского формата можно использовать для создания дополнительных форматов времени или даты.

В этой таблице описываются основные пользовательские строки форматирования и отображаемые результаты. Эти строки позволяют отображать поля даты и времени с учетом региональных настроек пользователя.

Основная строка форматирования Результат

[FMT:dateShort]

Применение формата краткой даты с учетом региональных настроек пользователя. Также можно ввести значение [FMT:date].

[FMT:dateLong]

Применение формата полной даты с учетом региональных настроек пользователя.

[FMT:dateInput]

Применение формата даты, который можно импортировать обратно в систему.

[FMT:time]

Применение формата времени с учетом региональных настроек.

[FMT:timeHourMin]

Применение формата времени с учетом региональных настроек, но без секунд.

[FMT:timeInput]

Применение формата времени, который можно импортировать обратно в систему.

[FMT:timeInputHourMin]

Применение формата времени, который можно импортировать обратно в систему, но без секунд.

[FMT:timeStampShort]

Эквивалентно формату [FMT:dateShort] [FMT:time]. Применение формата краткой даты и времени с учетом региональных настроек. Также можно ввести значение [FMT:timeStamp].

[FMT:timeStampLong]

Эквивалентно формату [FMT:dateLong] [FMT:time]. Применение формата полной даты и времени с учетом региональных настроек.

[FMT:timeStampInput]

Эквивалентно формату [FMT:dateInput] [FMT:timeInput]. Применение формата даты и времени, который можно импортировать обратно в систему.

[FMT:timeHour]

Форматирование поля "Часы" только с учетом региональных настроек, например 20:00.

YY или yy

Отображаются две последние цифры года, например 11 для 2011.

YYY или yyy

Отображаются три последние цифры года, например 011 для 2011.

YYYY или yyyy

Отображаются четыре цифры года, например 2011.

M

Отображается порядковое число месяца, например 2 для февраля.

MM

Отображается порядковое число месяца. Если это однозначное число, то ему предшествует ноль, например 02 для февраля.

MMM

Отображается сокращенное название месяца с учетом региональных настроек пользователя, например фев.

MMMM

Отображается полное название месяца с учетом региональных настроек пользователя, например февраль.

D или d

Отображается день месяца, например 1.

DD или dd

Отображается день месяца. Если это однозначное число, то ему предшествует ноль, например 01.

DDD или ddd

Отображается сокращенное название дня недели с учетом региональных настроек пользователя, например чт для четверга.

DDDD или dddd

Отображается полное название дня недели с учетом региональных настроек пользователя, например четверг.

DDDDD или ddddd

Отображается первая буква названия дня недели с учетом региональных настроек пользователя, например Ч для четверга.

r

Отображается день года, например 1.

rr

Отображается день года. Если это однозначное число, то ему предшествует ноль, например 01.

rrr

Отображается день года. Если это однозначное число, то ему предшествует ноль, например 001.

w

Отображается неделя года, например 1.

ww

Отображается неделя года. Если это однозначное число, то ему предшествует ноль, например 01.

q

Отображается квартал года, например 4.

h

Отображается час в 12-часовом формате, например 2.

H

Отображается час в 24-часовом формате, например 23.

hh

Отображается час в 12-часовом формате. Если это однозначное число, то ему предшествует ноль, например 01.

HH

Отображается час в 24-часовом формате. Если это однозначное число, то ему предшествует ноль, например 23.

m

Отображается минута, например 7.

mm

Отображается минута. Если это однозначное число, то ему предшествует ноль, например 07.

s

Отображается секунда, например 2.

В строку также можно включить десятичные значения, например s.# или s.00 (где # – произвольная цифра, а 0 – требуемая цифра).

ss

Отображается секунда. Если это однозначное число, то ему предшествует ноль, например 02.

В строку также можно включить десятичные значения, например ss.# или ss.00 (где # – произвольная цифра, а 0 – требуемая цифра).

S

Отображается миллисекунда, например 2.

SS

Отображается миллисекунда. Если это однозначное число, то ему предшествует ноль, например 02.

SSS

Отображается миллисекунда. Если это однозначное число, то ему предшествует ноль, например 002.

tt

Отображается сокращение "до полудня" (a.m.) или "после полудня" (p.m.) с учетом региональных настроек пользователя, например pm.

gg

Отображается эра с учетом региональных настроек пользователя.