この章では、HDFSの機能について説明し、その機能の理解に役立つ例を示します。Oracle GoldenGate for Big Data Handler for HDFSは、変更取得データをHadoop Distributed File System (HDFS)にストリーミングする目的で設計されています。
この章の内容は次のとおりです。
Hadoop Distributed File System (HDFS)は、ビッグ・データのための主要なアプリケーションです。Hadoopは通常、Hadoopクラスタとして機能する複数のマシンにインストールされます。Hadoopでは、きわめて大量のデータをクラスタに格納でき、そのデータはクラスタ内のマシン全体で水平方向にスケーリングします。そのうえで、様々なビッグ・データ・アプリケーションを使用してそのデータの分析を実行できます。
Oracle GoldenGate for Big Dataリリース12.2.0.1には、Oracle GoldenGate for Big Dataリリース12.1.2.1.xに含まれていたHiveハンドラが含まれていません。12.1.2.1.xのHiveハンドラは、実際にはHiveとの直接統合に対応していません。Hiveハンドラの機能は、表ごとにパーティション化し、Hiveに適した区切りテキスト形式で、操作データをソース証跡ファイルからHDFSにロードすることです。12.2.0.1のHDFSハンドラには、以前の12.1.2.1.x Hiveハンドラの機能がすべて用意されています。
Hive統合により、表を作成してDDLイベント発生時に表定義を更新できます。この機能は、Avroオブジェクト・コンテナ・ファイル形式でフォーマットされたデータにのみ制限されます。詳細は、「Avroオブジェクト・コンテナ・ファイル形式でのHDFSの書き込み」および「HDFSハンドラ構成」を参照してください。
HDFS SequenceFileはバイナリ・キーと値のペアで構成されているフラット・ファイルです。gg.handler.name.format
プロパティをsequencefile
に設定してデータをSequenceFile形式で書き込むことができます。レコードのkey
部分はnullに設定され、実際のデータはvalue
部分に設定されます。
Hadoop SequenceFileの詳細は、https://wiki.apache.org/hadoop/SequenceFileを参照してください。
Hive表を作成するDDLには、Hiveで順序ファイルを使用するためのSTORED as sequencefile
が含まれています。表作成スクリプトのサンプルを次に示します。
CREATE EXTERNAL TABLE table_name (
col1 string,
...
...
col2 string)
ROW FORMAT DELIMITED
STORED as sequencefile
LOCATION '/path/to/hdfs/file';
注意:
ファイルがHiveで使用されるようにする場合は、gg.handler.name.partitionByTable
プロパティをtrue
に設定する必要があります。
データは各レコードのvalue
部分に書き込まれ、区切りText Formatで表されます。区切りテキスト・フォーマッタで説明されているすべてのオプションが、HDFS SequenceFileにデータを書き込む際に適用されます。
次に例を示します。
gg.handler.name
.format=sequencefile gg.handler.name
.format.includeColumnNames=true gg.handler.name
.format.includeOpType=true gg.handler.name
.format.includeCurrentTimestamp=true gg.handler.name
.format.updateOpKey=U
HDFSハンドラを確実に実行するには、Hadoop単一インスタンスまたはHadoopクラスタをインストールして実行する必要があり、HDFSハンドラを実行しているマシンからネットワークにアクセスできなければなりません。Apache Hadoopはオープン・ソースであり、http://hadoop.apache.org/
でダウンロードできます。単一ノード・クラスタ(疑似分散操作モードとも言う)またはクラスタ化設定(完全分散操作モードとも言う)のインストール方法は、「Getting Started」リンクをたどってください。
HDFSハンドラをHDFSに接続して実行するには、gg.classpath
構成変数に2つのものを含める必要があります。1つ目はHDFS core-site.xml
ファイル、2つ目はHDFSクライアントjarです。HDFSクライアントjarは、HDFSハンドラが接続するHDFSのバージョンと一致する必要があります。必要なクライアントJARファイルのバージョン別リストは、「HDFSハンドラ・クライアント依存性」を参照してください。
core-site.xml
ファイルのデフォルトの場所は、次のとおりです。
Hadoop_Home
/etc/hadoop
HDFSクライアントjarのデフォルトの場所は次のディレクトリです。
Hadoop_Home
/share/hadoop/common/lib/*
Hadoop_Home
/share/hadoop/common/*
Hadoop_Home
/share/hadoop/hdfs/lib/
*
Hadoop_Home
/share/hadoop/hdfs/*
gg.classpath
は、指示に従って正確に構成する必要があります。core-site.xml
のパス指定には、ワイルドカードを付けずにcore-site.xml
ファイルがあるディレクトリのパスを含めてください。core-site.xml
ファイルのパスにワイルドカード(*)を含めると、選択されなくなります。逆に、依存関係jarのパス指定には、そのディレクトリにあるjarファイルがすべて関連するクラスパスに含まれるように、ワイルドカード(*)を含める必要があります。*.jar
は使用しないでください正しく構成したgg.classpath
変数の例は、次のようになります。
gg.classpath=/ggwork/hadoop/hadoop-2.6.0/etc/hadoop:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/common/lib/*:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/common/*:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/hdfs/*:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/hdfs/lib/*
Kerberosセキュリティを有効にする場合には、HDFS構成ファイルhdfs-site.xml
もクラスパスに存在する必要があります。hdfs-site.xml
ファイルは、デフォルトではHadoop_Home
/etc/hadoop
ディレクトリに配置されます。HDFSハンドラがHadoopと同じ場所に配置されていない場合には、どちらか、または両方のファイルを別のマシンにコピーできます。
HDFSハンドラは、次のものを含むビッグ・データ・プラガブル・ハンドラをすべてサポートします。
JSON
区切りテキスト
Avro行
Avro Operation
Avroオブジェクト・コンテナ・ファイル行
Avroオブジェクト・コンテナ・ファイル操作
XML
フォーマッタの詳細は、「プラガブル・フォーマッタの使用」を参照してください。
Oracle GoldenGate for Big DataのHDFSハンドラの構成プロパティについて、この項で詳細に説明します。
表2-1 HDFSハンドラの構成プロパティ
プロパティ | オプション/必須 | 有効な値 | デフォルト | 説明 |
---|---|---|---|---|
|
必須 |
任意の文字列 |
いいえ |
HDFSハンドラの名前を指定します。HDFSハンドラ名は、この表にリストしたプロパティ名の一部になります。 |
|
必須 |
|
|
HDFSハンドラを選択し、変更データ取得をHDFSにストリーミングします。 |
|
オプション |
|
|
ハンドラの操作( |
|
オプション |
デフォルトの測定単位はバイトです。 |
|
作成されるHDFSファイルの最大ファイル・サイズを選択します。 |
|
オプション |
HDFSで有効な任意のパス名 |
|
HDFSハンドラは、データ・ストリーミングをHDFSに格納するために、HDFSにサブディレクトリを作成し、その下にファイルを作成します。 |
|
オプション |
デフォルトの測定単位はミリ秒です。 |
ファイルのローリング・オン時間がオフ。 |
タイマーはHDFSファイルが作成されるときにスタートします。間隔が経過したときにまだファイルが開いている場合、そのファイルは閉じられます。新しいファイルはすぐ開かれません。新しいHDFSファイルは、ジャスト・イン・タイム・ベースで作成されます。 |
|
オプション |
デフォルトの測定単位はミリ秒です。 |
ファイルの非アクティブ・ローリング・オン時間がオフ。 |
タイマーは、HDFSファイルへの前回の書込みからスタートします。HDFSファイルへの新しい書込みでカウンタが再開されます。カウンタが経過したときにまだファイルが開いている場合、そのHDFSファイルは閉じられます。新しいファイルはすぐ開かれません。新しいHDFSファイルは、ジャスト・イン・タイム・ベースで作成されます。 |
|
オプション |
HDFSファイル名の制限に従う任意の文字列。 |
|
これは、HDFSファイル名の最後に追加される接尾辞です。ファイル名は通常、 |
|
オプション |
|
|
HDFSに書き込まれるデータを表ごとにパーティション化するかどうかを決定します。 Avroオブジェクト・コンテナ・ファイル・フォーマッタを使用するには |
|
オプション |
|
|
メタデータの変更があった場合に、HDFSファイルをロールするかどうかを決定します。trueの場合はHDFSがロールされ、falseの場合はHDFSがロールされません。 Avroオブジェクト・コンテナ・ファイル・フォーマッタを使用するには |
|
オプション |
|
|
出力データのフォーマット方法について、HDFSハンドラのフォーマッタを選択します
|
|
オプション |
|
|
トークン・フィールドとトークン・キーや値を出力に含める場合は |
カンマで区切られた1つ以上の列名と等しい |
オプション |
完全修飾の表名と列名が存在する必要があります。 |
|
これは、 |
|
オプション |
kerberos |
|
このプロパティを
kerberosに設定すると、Kerberos認証が有効になります。 |
|
オプション(
authType=Kerberosの場合は必須) |
Kerberos |
|
|
|
オプション(
authType=Kerberosの場合は必須) |
|
|
Kerberos認証で用いるKerberosプリンシパル名。 |
|
オプション |
|
|
HDFSの有効なパスに設定して、スキーム(使用可能な場合)はHDFSディレクトリに書きこまれるようにします。スキーマは現在AvroおよびJSONフォーマッタでのみ使用できます。メタデータ変更イベントが発生すると、スキーマが上書きされてスキーマの変更が反映されます。 |
順序ファイル形式にのみ適用可能 |
オプション |
|
|
Hadoop順序ファイル圧縮タイプ。 |
順序ファイルに適用可能で、HDFSへの書き込みはAvro OCF形式のみ |
オプション |
|
|
Hadoop順序ファイル圧縮コーデック。 |
オプション |
|
|
Avro OCFフォーマッタ圧縮コード。この構成では、生成されたAvro OCFファイルに使用される圧縮ライブラリの選択を制御します。 SnappyはSnappy JARファイルにネイティブ・バイナリを含み、圧縮または圧縮解除の実行時にJava-nativeトラバーサルを実行します。Snappyを使用することで、Javaを使っているときは発生しない実行時の問題やプラットフォームの移植の問題が生じる場合があります。場合によっては、追加のテストを実施して、Snappyが必要なすべてのプラットフォームで確実に動作するか確認する必要があります。Snappyはオープン・ソース・ライブラリであるため、Oracleは必要なすべてのプラットフォームでの稼動を保証できません。 |
|
|
オプション |
Hive JDBCインタフェースを使用してHiveに接続するための有効なURL。 |
|
Avroオブジェクト・コンテナ・ファイル (OCF)フォーマッタにのみ適用できます。 この構成値では、Hive JDBCインタフェースを通じてHiveに接続するためのJDBC URLを指定します。このプロパティを使用するには、 Hive JDBC接続は、基本の資格証明、SSL/TLS、またはKerberosを介して保護できます。基本の資格証明では、ユーザー名およびパスワードの構成プロパティが指定されます。 SSL/TLSでのHive JDBC URLの生成方法については、Hiveドキュメントを参照してください。 KerberosでのHive JDBC URLの生成方法については、Hiveドキュメントを参照してください(Hive JDBCのセキュリティにKerberosを使用する場合、HDFS接続に対してKerberosを有効にする必要があります。この場合、Hive JDBC接続は同じKerberosプリンシパルを使用してHDFS Kerberos機能でピギーバックすることができます)。 |
|
オプション |
Hive JDBC接続が資格証明により保護される場合の有効なユーザー名。 |
|
Avroオブジェクト・コンテナ・ファイル (OCF)フォーマッタにのみ適用できます。 このプロパティは、 |
|
オプション |
完全修飾のHive JDBCドライバ・クラス名 |
|
Avroオブジェクト・コンテナ・ファイル (OCF)フォーマッタにのみ適用できます。 このプロパティは、 |
Javaアダプタ・プロパティ・ファイルからのHDFSハンドラの構成例を次に示します。
gg.handlerlist=hdfs
gg.handler.hdfs.type=hdfs
gg.handler.hdfs.mode=tx
gg.handler.hdfs.includeTokens=false
gg.handler.hdfs.maxFileSize=1g
gg.handler.hdfs
.rootFilePath=/ogg
gg.handler.hdfs.fileRollInterval=0
gg.handler.hdfs.inactivityRollInterval=0
gg.handler.hdfs.fileSuffix=.txt
gg.handler.hdfs.partitionByTable=true
gg.handler.hdfs.rollOnMetadataChange=true
gg.handler.hdfs.authType=none
gg.handler.hdfs.format=delimitedtext
HDFS統合のレプリケーション構成とJavaアダプタ・プロパティ・ファイルの例は、次のディレクトリにあります。
GoldenGate_install_directory
/AdapterExamples/big-data/hdfs
HDFSハンドラのトラブルシューティングは、Java log4j
ファイルの内容から始まります。Javaロギング構成にある指示に従って、Java log4j
ログ・ファイルを正しく生成するようにランタイムを構成してください。
前述したように、Javaクラスパスは非常によくある問題の1つです。クラスパスに問題があることは通例、Java log4j
ログ・ファイルの、ClassNotFoundException
でわかります。この問題のトラブルシューティングに、Java log4j
ログ・ファイルを使用できます。ログ・レベルをDEBUG
に設定すると、ログ・ファイルに記録されるgg.classpath
オブジェクトで参照されているjarそれぞれを記録できます。これを利用して、必要な依存性jarがすべて解決されることを確認できます。単にDEBUG
レベルのロギングを有効にし、ログ・ファイルで次のようなメッセージを探すだけです。
2015-09-21 10:05:10 DEBUG ConfigClassPath:74 - ...adding to classpath: url="file:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/common/lib/guava-11.0.2.jar
HDFS core-site.xml
ファイル(デフォルト設定を含んでいる)の内容は、ロギング・レベルを DEBUG
またはTRACE
に設定している場合に、Java log4j
ログ・ファイルに出力されます。これには、HDFSへの接続プロパティが示されます。Java log4j
ログ・ファイルで次のものを検索します。
2015-09-21 10:05:11 DEBUG HDFSConfiguration:58 - Begin - HDFS configuration object contents for connection troubleshooting.
fs.defaultFS
プロパティが次のように設定されている場合(ローカル・ファイル・システムを示している)、core-site.xml
ファイルはgg.classpath
プロパティで適切に設定されていません。
Key: [fs.defaultFS] Value: [file:///].
適切にHDFSホストおよびポートが指定されたfs.defaultFS
は、次のようになります。
Key: [fs.defaultFS] Value: [hdfs://hdfshost:9000].
Java log4j
ログ・ファイルには、HDFSハンドラおよび選択したフォーマッタの構成状態に関する情報が含まれています。この情報は、INFO
ログ・レベルで出力されます。サンプルの出力は、次のようになります。
2015-09-21 10:05:11 INFO AvroRowFormatter:156 - **** Begin Avro Row Formatter - Configuration Summary **** Operation types are always included in the Avro formatter output. The key for insert operations is [I]. The key for update operations is [U]. The key for delete operations is [D]. The key for truncate operations is [T]. Column type mapping has been configured to map source column types to an appropriate corresponding Avro type. Created Avro schemas will be output to the directory [./dirdef]. Created Avro schemas will be encoded using the [UTF-8] character set. In the event of a primary key update, the Avro Formatter will ABEND. Avro row messages will not be wrapped inside a generic Avro message. No delimiter will be inserted after each generated Avro message. **** End Avro Row Formatter - Configuration Summary **** 2015-09-21 10:05:11 INFO HDFSHandler:207 - **** Begin HDFS Handler - Configuration Summary **** Mode of operation is set to tx. Data streamed to HDFS will be partitioned by table. Tokens will be included in the output. The HDFS root directory for writing is set to [/ogg]. The maximum HDFS file size has been set to 1073741824 bytes. Rolling of HDFS files based on time is configured as off. Rolling of HDFS files based on write inactivity is configured as off. Rolling of HDFS files in the case of a metadata change event is enabled. HDFS partitioning information: The HDFS partitioning object contains no partitioning information. HDFS Handler Authentication type has been configured to use [none] **** End HDFS Handler - Configuration Summary ****
HDFSハンドラは、書込み永続性を維持する目的で、各トランザクションの最後にHDFSデータノードにデータをフラッシュするために、HDFS書込みストリームでHDFSフラッシュ・メソッドを呼び出します。これは負荷の高いコールです。1つまたは複数の操作のトランザクションで多数のHDFSフラッシュ・コールが発生する場合には特に、パフォーマンスが悪影響を受ける可能性があります。
複数の小さいトランザクションを1つの大きいトランザクションのバッチ処理にまとめると、HDFSハンドラのパフォーマンスが大幅に向上する可能性があります。高いパフォーマンスが必要な場合には、Extract
プロセスまたはReplicat
プロセスによって提供されるバッチ処理機能を構成する必要があります。詳細は、「Replicatのグループ化」の項を参照してください。
HDFSクライアント・ライブラリは、HDFSハンドラがオープンするHDFSファイル・ストリームごとにスレッドを生成します。そのため、JMVを実行するスレッドの数は、オープンしているHDFSファイル・ストリームの数に比例して増加します。オープンしているHDFSファイル・ストリームが増えると、HDFSハンドラのパフォーマンスが低下する可能性があります。ソース・レプリケーション表が多い、またはパーティション化を多用しているという理由で、多くのHDFSファイルに書き込むようHDFSハンドラを構成すると、パフォーマンスが低下することがあります。ユースケースによって、多くの表への書込みが必要な場合は、HDFSファイル・ストリームをクローズするロール・オン時間またはロール・オン非アクティブの機能を有効にすることをお薦めします。HDFSファイル・ストリームをクローズすると、HDFSクライアント・スレッドが終了し、関連するリソースをJVMが再利用できるようになります。
HDFSクラスタは、Kerberos認証を使用して保護できます。Kerberosを使用してHadoopクラスタを保護する方法は、HDFSのドキュメントを参照してください。HDFSハンドラは、Kerberosで保護されたクラスタに接続できます。HDFS core-site.xml
がハンドラのクラスパスにあり、hadoop.security.authentication
プロパティをkerberos
に、hadoop.security.authorization
プロパティをtrue
に設定する必要があります。また、HDFSハンドラのJava構成ファイルで次のプロパティを設定する必要があります。
gg.handler.name
.authType=kerberos gg.handler.name
.keberosPrincipalName=legal Kerberos principal name gg.handler.name
.kerberosKeytabFile=path to a keytab file that contains the password for the Kerberos principal so that the HDFS Handler can programmatically perform the Kerberos kinit operations to obtain a Kerberos ticket
HDFSハンドラには、Avroオブジェクト・コンテナ・ファイル(OCF)形式でHDFSに書き込むための特殊な機能が含まれています。このAvro OCFはAvro仕様の一部です。詳細は次の場所にあるAvroドキュメントを参照してください。
https://avro.apache.org/docs/current/spec.html#Object+Container+Files
次の理由からAvro OCF形式は最適な選択です。
Apache Hive (HDFSに書き込まれる未加工のAvroはHiveでサポートされない)と統合できる
スキーマ展開に対する適切なサポートを提供するHDFSにAvro OCF形式で書き込みできるようにするには、次の構成を行います。
行データをHDFSにAvro OCF形式で書き込むには、gg.handler.name.format=avro_row_ocf
プロパティを構成します。
操作データをHDFSにAvro OCF形式で書き込むには、gg.handler.name.format=avro_op_ocf
プロパティを構成します。
HDFS/Avro OCF統合には、Hiveで対応する表を作成し、メタデータ変更イベントについてスキーマを更新するためのオプション機能が含まれています。構成の項では、Hiveとの統合を有効にするプロパティに関する情報を説明しています。Oracle GoldenGate Hive統合はJDBCインタフェースを使用してHiveにアクセスするため、この統合を有効にするにはHive JDBCサーバーを実行する必要があります
12.2.0.1のOracle GoldenGate for Big DataのHDFSハンドラは、次のバージョンのApache Hadoopと連携するように設計されています。
2.7.x
2.6.0
2.5.x
2.4.x
2.3.0
2.2.0
HDFSハンドラは、Apache Hadoopが一緒にパッケージされている次のバージョンのHortonworks Data Platform (HDP)とも連携します。
HDP 2.4 (HDFS 2.7.1)
HDP 2.3 (HDFS 2.7.1)
HDP 2.2 (HDFS 2.6.0)
HDP 2.1 (HDFS 2.4.0)
HDP 2.0 (HDFS 2.2.0)
HDFSハンドラは、Apache Hadoop (CDH)を含む次のバージョンのCloudera Distributionとも連携します。
CDH 5.7.x (HDFS 2.6.0)
CDH 5.6.x (HDFS 2.6.0)
CDH 5.5.x (HDFS 2.6.0)
CDH 5.4.x (HDFS 2.6.0)
CDH 5.3(HDFS 2.5.0)
CDH 5.2.x (HDFS 2.5.0)
CDH 5.1.x (HDFS 2.3.0)
メタデータ変更イベントが、HDFSハンドラによって処理されるようになりました。HDFSハンドラのデフォルトの動作では、メタデータ変更イベントが発生した場合、現在の関連ファイルがロールされます。この動作により、メタデータ変更の結果は少なくとも複数のファイルに分割できます。メタデータ変更に対するファイル・ローリングは設定変更が可能なので、オフにすることができます。
メタデータ変更イベントをサポートするには、ソース・データベースで変更を取得するプロセスが、DDL変更と証跡でのメタデータの両方をサポートする必要があります。Oracle GoldenGateでは、すべてのデータベース実装でDDLレプリケーションがサポートされているわけではありません。DDLレプリケーションがサポートされているかどうかを確認するには、データベース実装ごとのOracle GoldenGateドキュメントを参照してください。
HDFSハンドラは、1つ以上の列値による表データのパーティション化をサポートしています。パーティション化を有効にする構成構文は、次のとおりです。
gg.handler.name
.partitioner.fully qualified table name=one mor more column names separated by commas
次の例で考えてみます。
gg.handler.hdfs.partitioner.dbo.orders=sales_region
この例では、HDFSでファイルが次のように分割されます。
/ogg/dbo.orders/par_sales_region=west/data files /ogg/dbo.orders/par_sales_region=east/data files /ogg/dbo.orders/par_sales_region=north/data files /ogg/dbo.orders/par_sales_region=south/data files
パーティション化する列は、慎重に選択してください。重要なのは、値の候補が少ない(10個以下)列を選択することと、その値がグループ化とデータの分析に有意であることです。たとえばセールス地域は、パーティション化列として適切です。顧客の生年月日などは、パーティション化列に適していません。値の候補が多い列でパーティション化を構成すると、問題が起きる可能性があります。選択を誤ると、数百ものHDFSファイル・ストリームがオープンし、パフォーマンスに関する項で説明したように、パフォーマンスが低下する恐れがあります。また、パーティション化が不適切だと、データの分析を実行する際にも問題が起きます。Apache Hiveで、Hiveデータをパーティション化する場合には、WHERE句のすべてにパーティション基準を指定する必要があります。
特に一般的なのが、Javaクラスパスに関する問題です。Oracle HDFSハンドラでは、HDFSにデータをストリーミングする前提条件として、特定のHDFSクライアント・ライブラリをクラスパスで解決する必要があります。
必要なクライアントJARファイルのバージョン別リストは、「HDFSハンドラ・クライアント依存性」を参照してください。HDFSクライアントjarは、Oracle GoldenGate for Big Data製品に付属しません。HDFSハンドラは複数のバージョンのHDFSをサポートし、HDFSクライアントjarはHDFSハンドラが接続するHDFSと同じバージョンである必要があります。HDFSクライアントjarはオープン・ソースであり、Apache HadoopサイトやMaven中央リポジトリなどのサイトから無償でダウンロードできます。
HDFSへの接続を確立するには、HDFSハンドラのクラスパスにHDFS core-site.xml
ファイルが存在する必要があります。core-site.xml
ファイルがクラスパスに存在しない場合、HDFSクライアント・コードのデフォルトは、ローカル・ファイル・システムに書き込もうとするモードになります。HDFSではなくローカル・ファイル・システムに書き込むと、トラブルシューティングや、連絡ポイント(POC)の構築に、またはHDFS統合を確立するプロセスの手順の1つとして便利です。
もう1つ気を付けたいのは、HDFSハンドラを使用してHDFSにストリーミングされるデータは、Hiveなどのビッグ・データ分析ツールですぐには利用できない場合も多いということです。これは主に、HDFSファイルに対してオープンしている書込みストリームをHDFSハンドラが保有している場合に発生します。デフォルトでは、HDFSは128MBのブロックで書き込みます。構築中のHDFSブロックは、分析ツールが認識されないことがあります。また、HDFSシェルで-ls
、-cat
、-get
の各コマンドを使用するとき、ファイル・サイズ間に矛盾が見られるのも一般的です。これはHDFSストリーミングの異常であり、HDFS仕様にも書かれています。HDFSのこの異常が原因で、分析データにはファイルごとに128MBのブラインド・スポットが発生することがあります。レプリケーション・データのストリームが一定しており、HDFSからの分析データに低レベルのレイテンシが必要なければ、これは問題になりません。ただし、場合によってはこれが問題になることがあります。HDFS書込みストリームをクローズすると、ブロック書込みがファイナライズされます。データは分析ツールですぐに認識され、ファイル・サイズの測定は再び安定します。そのため、HDFSハンドラに追加されたファイル・ローリング機能を使用すると、HDFS書込みストリームをクローズしてすべてのデータを認識させることができます。
注意:
ファイル・ローリング・ソリューションは、それ自体に問題がある場合もあります。ファイル・ローリングを多用すると、HDFSに小さいファイルが大量に発生します。HDFSに小さいファイルが大量にあると、それ自体が分析ツールのパフォーマンス低下の原因になります。
次の場合にも、HDFSに矛盾の問題が発生する可能性があります。
HDFSハンドラ・プロセスがクラッシュする。
HDFSハンドラ・プロセスで強制シャットダウンが呼び出される。
ネットワークの停止、その他の原因でHDFSハンドラ・プロセスが異常終了する。
どの場合にもHDFSハンドラは、HDFS書込みストリームを明示的にクローズして書込みブロックをファイナライズせずに終了する可能性があります。内部プロセスとしてHDFSは、書込みストリームが破損していることを最終的に認識し、HDFSが書込みブロックをファイナライズします。ただし、この場合、HDFSプロセスが書込みブロックをファイナライズする前に短時間の遅延が発生することがあります。
HDFSクラスタは、クラスタ・ノードと呼ばれる専用サーバーで稼働させるのが、ビッグ・データのベスト・プラクティスと考えられています。エッジ・ノードとは、HDFSクラスタ・ノードにデータをストリーミングし、HDFSクラスタ・ノードからデータを取得するアプリケーションをホストするサーバー・マシンです。HDFSクラスタ・ノードとエッジ・ノードの間に存在するこの物理的なアーキテクチャ構造には、次のように様々なメリットがあります。
HDFSクラスタ・ノードが、クラスタのインタフェースを提供するアプリケーションと、リソースをめぐって競合しない。
HDFSクラスタ・ノードとエッジ・ノードで要件が異なる可能性がある。この物理トポロジのために、特定のニーズに応じて適切なハードウェアを構成できます。
ベスト・プラクティスとして、HDFSハンドラはエッジ・ノードにインストールして実行し、ネットワーク接続を使用してHDFSクラスタにデータをストリーミングするようにします。HDFSハンドラは、ネットワーク上でHDFSクラスタに認識されればどのマシン上でも実行できます。HDFSハンドラをエッジ・ノードにインストールするには、core-site.xml
ファイルと依存性jarをエッジ・ノードにコピーし、HDFSハンドラがアクセスできるようにする必要があります。必要に応じて、HDFSハンドラはHDFSクラスタ・ノード上に共存させることもできます。