機械翻訳について

検索でPDFにタイトルを割り当て可能

多くの場合、コレクション内の記事の一部またはすべてがPDFです。

ほとんどのPDFには視覚的なタイトルがあります。これは、ほとんどの読者がタイトルとして認識する最初のページのテキスト文字列です。たとえば、携帯電話のユーザー・マニュアルや株式レポートの読み方などです。 ただし、すべての視覚的なタイトルが見やすいというわけではありません。 最初のページにテキストの行が多数ある場合や、テキストがまったくない場合があります。 検索では、検索リクエストに一致するビジュアル・タイトルをどのように決定しますか。

検索では、PDFタイトル自動検出機能を使用してPDFタイトルが決定されます。 PDFのビジュアル・タイトルが自動的に検索され、タイトル一致および検索結果タイトルとして使用されます。 タイトル検出機能の主な利点は、最良の検索結果タイトルを提供するために追加のオーサリングを行う必要がないことです。

タイトル検出では、次のような視覚的なファクタについてPDFが評価されます:

  • フォントのサイズ。 通常、最初のページの大きいテキストはタイトルを示します。

  • テキストの位置。たとえば、PDFの最初の数文。

  • フレーズの長さとテキストの行間の距離。

たとえば、PDFの最初のページに次のテキスト文字列が表示されます:

Oracle [フォント・サイズ30、太字、赤]

「ユーザー・ガイド」 [フォント・サイズ24、太字]

ナレッジ・マネジメント[フォント・サイズ20]

バージョン1.1 [フォント・サイズ18]

このユーザー・ガイドでは、ナレッジ・アプリケーションの使用方法について説明します[フォント・サイズ11]

ほとんどのユーザーは、次のテキスト文字列を読み取れません:

  • Oracle、または

  • バージョン1.1、または

  • このユーザー・ガイドでは、ナレッジ・アプリケーションの使用方法について説明します。

ただし、このテキストは次のように読みます:

  • Oracleユーザー・ガイドまたはユーザー・ガイド

  • Oracleユーザー・ガイドのナレッジ管理またはユーザー・ガイドのナレッジ管理

  • Oracleユーザー・ガイドのナレッジ管理バージョン1.1またはユーザー・ガイドのナレッジ管理バージョン1.1

そのため、この例では、PDFタイトル検出によって、検索精度に最適なタイトルが「Oracle User Guide Knowledge Managementバージョン1.1」または「ユーザー・ガイドのナレッジ管理バージョン1.1」として自動的に決定されます。

PDFに最初のページにテキスト文字列がないため、割り当てるビジュアル・タイトルが見つからない場合は、検索結果タイトルとして次のいずれかを選択します:

  • プロパティ・タイトルが定義されている場合、PDFのプロパティのタイトル。

  • PDFのファイル名。

ノート:

検索でPDFに割り当てられるビジュアル・タイトルは、コンテンツ処理サイクル全体が完了した後にのみ検索結果タイトルとして表示されます。

自動PDFタイトル検出を無効にする方法

PDFタイトル検出機能は、アプリケーションを開くと有効になりますが、無効にできます。 ただし、このオプションを無効にすると、検索の精度が大幅に低下する可能性があります。 無効にすると、次の警告メッセージが表示されます:

PDFの自動タイトル検出を有効にします。 この変更が検索の精度に影響するため、十分にテストしてください。 コンテンツ処理が完了すると、検索に変更が反映されます。

この構成オプションがオフの場合、使用可能なビジュアル・タイトルがないかのように、PDFの検索結果タイトルが割り当てられます。 このオプションの変更は、次のコンテンツ処理サイクルが完了した後に有効になります。 PDFタイトル自動検出を無効にするには:

  1. ログインし、「設定および保守」をクリックします。

  2. 設定メニューで、下にスクロールして「サービス」を選択します。

  3. 機能領域で、「ナレッジ管理」を選択します。

  4. ナレッジ管理で、「ナレッジ検索プロファイル・オプションの管理」をクリックします。

  5. 「ナレッジ検索プロファイル・オプションの管理」ページで、CSO_AUTO_PDF_TITLE_DISCOVERYをクリックします。

  6. サイト・メニューで「いいえ」を選択します。