ノートブックの使用
ノートブックを使用して、データの探索やビジュアル化を行います。この項では、Jupyterノートブックのインストール方法およびOracle Big DataでのBig Data Studioノートブックの使用方法を説明します。
ノートブックはデータ・サイエンティスト向けのWebベースのプラットフォームです。コードを実行するための対話型環境です。ライブラリ、グラフ分析およびビジュアル化がサポートされており、データを探索したりデータからインサイトを得たりする作業の速度が上がります。
Oracle Distribution including Apache Hadoop (ODH)およびCloudera Distribution including Apache Hadoop (CDH)では、ノートブックについて次のオプションがあります。
-
- JupyterノートブックはODHのみで使用可能
- ODHクラスタ・ノードにJupyterをインストールし、ブラウザからアクセスできます。
-
- Big Data StudioノートブックはODHとCDHで使用可能
-
クラスタを作成すると、クラスタ・ノードにBig Data Studioがインストールされて構成されます。
HDFSまたはSparkデータベースおよびファイルといったソースからノートブックにデータをインポートできます。その後、Python、PySpark、Sparkなどの言語用のインタプリタ環境を使用してデータを分析できます。