Morning Girl

Web API, Windows, C#, .NET, Dynamics 365/CRM etc..

Azure にHadoopディストーションのHortonworksを構成してみる

検証用にSparkやHadoop・Hive・HDFS等の環境が一式ほしいなー、と思っていたんですが、何やらHortonworksが良いらしいというのをUSのメンバーに聞き、早速試し見てみました。

はじめローカルで環境を構成しようとしたんですが、あまりにも把握するべき情報が多すぎて、心がオレマシタ。

Hortonworksとは?

エンタープライズ企業向けビッグデータ処理のためのHadoopディストーションの一つとのこと。

参考記事

jp.hortonworks.com

分散ファイル管理フレームワークにはHDFS

リソース管理フレームワークにはYARN

DataAccessのためのフレームワークとして、Hadoop Mapreduce、Hive、Sparkが利用できて、しかもそれらを扱うためのToolsとしてZeppelin、

全体の管理用ツールとしてもAmbariがはいっている、まさにオールインワンなビッグデータ処理のためのディストリビューション。ありがたい。

Azureで、Hortonworks Sandboxを使い、Hadoop、Sparkを試してみよう

f:id:sugimomoto:20180602103923p:plain

しかし、あまりにもコンポーネントが多すぎて、何が何やら把握しきれないのも事実。

コンポーネントの説明は、以下のHortonworks チュートリアルの資料がわかりやすいです。

jp.hortonworks.com

必要なもの

Azureでの構成手順

  1. Azure Portlにログインし、「+リソースの追加」から「Hortonworks Sandbox」を選択

f:id:sugimomoto:20180602103114p:plain

  1. 以下のリソースで作成を実行します。

f:id:sugimomoto:20180602103155p:plain

  1. 基本設定の構成では、各種項目を任意の内容で入力します。認証の種類は今回パスワードを選択しました。場所は近いところがいいでしょう。

f:id:sugimomoto:20180602103611p:plain

  1. 仮想マシンのサイズは小さすぎると動かないらしいです。今回はHortonworksの方のQiita記事を参考に、「DS11_V2 Standard 」を選択しました。

f:id:sugimomoto:20180602104259p:plain

  1. オプション機能の構成はデフォルトで進めます。場合によっては、無駄な課金を防ぐために自動シャットダウンを付けるのがいいと思います。

f:id:sugimomoto:20180602104402p:plain

  1. 検証結果を確認の上、作成をクリックします。どうやらマイクロソフト MVPのサブスクリプションでは、マーケットプレイスの料金が別途かかるようですが、Hortonworks Sandboxそのものは無償なので問題はありません。

f:id:sugimomoto:20180602104936p:plain

  1. これで構成が完了しました。

f:id:sugimomoto:20180602115619p:plain

ネットワークの構成

  • 22 ssh
  • 6080 Ranger
  • 8080 Ambari
  • 8888 Dashboard
  • 9995 Zeppelin
  • 10016 SparkThriftServer

Portリストは以下から確認できます。私はSparkも最終的に使用したいので、Sparkポートを開けました。

Chapter 1. Configuring Ports - Hortonworks Data Platform

ちなみに、すごく引っかかったのですが、マニュアル上はSpark Thrift Server Portは10015がdefaultだよと記載されているものの、実際の構成後には10016がPortになっています。要注意。

Customizing the Spark Thrift Server Port - Hortonworks Data Platform

f:id:sugimomoto:20180602115730p:plain

以下のように構成できればOKです。

f:id:sugimomoto:20180602121012p:plain

Hortonworks Dashboardへのアクセス

VMのパブリックIPアドレス:8888」でアクセスできます。

f:id:sugimomoto:20180602121126p:plain

user / password: raj_ops / raj_ops でログイン

f:id:sugimomoto:20180602121259p:plain

Ambariにログインできました。

f:id:sugimomoto:20180602121327p:plain

あまりログインが早すぎるといろいろと起動中になってしまうので、要注意。

さて、次回実際にもう少し触っていきます。