13 合成データの生成
ランダム・ジェネレータ、アルゴリズム、統計モデルおよび大規模言語モデル(LLM)を使用して合成データを生成し、ソリューションを効果的に開発およびテストするために実際のデータをシミュレートします。
合成データは、特に実際のデータがまだ存在しないか、使用が許可されていない場合に、ソリューションを開発およびテストする際に強力なツールとなります。データは、合成して人工的に生成され、実際のデータの多くの特性を持つことができます。通常、合成データはランダム・ジェネレータ、アルゴリズムまたは統計モデルを使用して作成され、実際のデータの特性および分布をシミュレートします。ただし、これは生成するのが複雑であったり、様々な高度な機能を持つツールに依存することがあります。大規模言語モデル(LLM)を利用できることにより、自然言語で表現された特性を考慮した、より関連性の高いスキーマ固有のデータが生成される場合があります。
トピック
- 合成データの生成の利点
合成データの生成により、元の表の機密データを使用せずに、データベース・メタデータ・クローンに移入し、開発、テストおよび機械学習プロジェクトをサポートできます。 - 合成データの生成
合成データを生成し、Select AIアクションを使用してデータを問い合せるには、DBMS_CLOUD_AI.GENERATE_SYNTHETIC_DATAファンクションを使用します。 - 合成データ生成の監視およびトラブルシューティング
多数の表の大量のデータを生成する場合、Select AIは合成データ生成タスクを小さなチャンクに分割し、タスクを並列で実行します。各チャンクのステータスは、SYNTHETIC_DATA$<operation_id>_STATUS表で追跡されます。
親トピック: Select AI
合成データの生成の利点
合成データの生成では、元の表の機密データを使用せずに、データベース・メタデータ・クローンに移入し、開発、テストおよび機械学習プロジェクトをサポートできます。
-
メタデータ・クローンへの合成データの移入: メタデータ・クローンは、実際のデータを含めずにデータベースまたはスキーマの構造をレプリケートします。Select AIを使用すると、合成データの生成でこれらのクローンに移入し、機密データを保護しながら、開発、テスト、およびテンプレートの作成が可能になります。このアプローチによって、パフォーマンスおよびスケーラビリティのテストがサポートされます。
-
新しいプロジェクトの開始: 新しいプロジェクトを開始するときに、実際のデータを使用できない場合があります。合成データによって、プロジェクト提案の概念を実証してサポートを得るのに役立つ現実的なサンプルが提供されます。
-
ユーザー・エクスペリエンスの検証: 合成データは、設計の欠陥、パフォーマンスおよびスケーラビリティの問題を発見するための多様なデータ・セットを提供することで、ユーザー・インタフェースのテストに役立ちます。
-
AIおよび機械学習プロジェクトのサポート: 合成データは、実際のデータが使用できないか制限されている場合に、AIおよび機械学習モデルのトレーニングに役立ちます。LLMは、モデルのトレーニングとスコアリングを容易にするために、特定のパターンでデータを生成できます。
親トピック: 合成データの生成
合成データの生成
Select AIアクションを使用して合成データを生成し、データを問い合せるには、DBMS_CLOUD_AI.GENERATE_SYNTHETIC_DATAファンクションを使用します。
親トピック: 合成データの生成
合成データの生成の監視およびトラブルシューティング
多数の表の大量のデータを生成する場合、Select AIは合成データ生成タスクを小さなチャンクに分割し、タスクを並列で実行します。各チャンクのステータスは、SYNTHETIC_DATA$<operation_id>_STATUS表で追跡されます。
合成データの生成操作は、DBA_LOAD_OPERATIONS表およびUSER_LOAD_OPERATIONS表に記録されます。これらの表を使用して、 DBMS_CLOUD_AI.GENERATE_SYNTHETIC_DATA操作を監視します。詳細は、unresolvable-reference.html#GUID-D59415FE-E494-4BFB-B075-7FEB8D222F3Fを参照してください。
USER_LOAD_OPERATIONから最新の<operation_id>を取得できます:SELECT max(id) FROM user_load_operations;
別のセッションで実行されている合成データ操作を表示するには、DBA_LOAD_OPERATIONSビューを使用します。
合成データ生成のステータスの表示
合成データの生成操作のステータス表には、各表の進行状況および対応するチャンクが表示されます。USER_LOAD_OPERATIONSまたはDBA_LOAD_OPERATIONSのSTATUS_TABLE列には、ステータス表名が表示されます。表名はSYNTHETIC_DATA$<operation_id>_STATUSで、次の列があります:
| 名前 | データ型 | 説明 |
|---|---|---|
|
|
|
レコードの一意の識別子。 |
|
|
|
表の修飾名("ADB_USER"."EMPLOYEES"など) |
|
|
|
このデータ生成タスクに必要なレコード数 |
|
|
|
生成された実際のレコード数。 |
|
|
|
このデータ生成タスク中の主キーの開始値。 |
|
|
|
レコードが最後に変更された日時を示すタイムスタンプ。 |
|
|
|
データ生成タスクのステータス。有効な値は、次のとおりです。
|
|
|
|
データ生成タスクが失敗した場合のエラー・コード。 |
|
|
|
タスクが失敗した場合に示されるエラー・メッセージ。 |
|
|
|
データ生成タスクの終了を示すタイムスタンプ。 |
各表に対して生成されたレコード数を確認するには、次のSQL文を発行します:
SELECT name, SUM(rows_loaded) FROM synthetic_data$<operation_id>_status group by name;ROWS_LOADEDを問い合せて、各チャンクにロードされる行数、および各表の行のSUM(ROWS_LOADED)を確認します。
BEGIN
DBMS_CLOUD_AI.GENERATE_SYNTHETIC_DATA(
profile_name => 'GENAI',
object_list => '[{"owner": "ADB_USER", "name": "DIRECTOR","record_count":150},
{"owner": "ADB_USER", "name": "MOVIE_ACTOR","record_count":300},
{"owner": "ADB_USER", "name": "CLASSES", "user_prompt":"all in fall semester","record_count":5},
{"owner": "ADB_USER", "name": "ACTOR","record_count":220},
{"owner": "ADB_USER", "name": "MOVIE","record_count":50}]'
);
END;
/
-- Check loaded rows for each chunk
SQL> SELECT name, rows_loaded FROM synthetic_data$141_status order by name;
NAME ROWS_LOADED
------------------------------------------
"ADB_USER"."ACTOR" 188
"ADB_USER"."ACTOR" 32
"ADB_USER"."CLASSES" 5
"ADB_USER"."DIRECTOR" 150
"ADB_USER"."MOVIE" 50
"ADB_USER"."MOVIE_ACTOR" 38
"ADB_USER"."MOVIE_ACTOR" 114
"ADB_USER"."MOVIE_ACTOR" 148
-- Check loaded rows for each table
SQL> SELECT name, SUM(rows_loaded) FROM synthetic_data$141_status group by name;
NAME SUM(ROWS_LOADED)
------------------------------------------
"ADB_USER"."DIRECTOR" 150
"ADB_USER"."MOVIE_ACTOR" 300
"ADB_USER"."CLASSES" 5
"ADB_USER"."ACTOR" 220
"ADB_USER"."MOVIE" 50
親トピック: 合成データの生成