AWS Glue用MarkLogicコネクタの提供が開始されたことを、喜んでお知らせいたします。AWS GlueはサーバーレスのETLツールで、AWSのクラウドエコシステムにおいてマネージドサービスとして提供されています。MarkLogicと接続することにより、AWS Glueの視覚的およびコードベースのインターフェイスを使って、MarkLogicにデータを入出力するデータパイプラインを簡単に構築できます。これを利用するには、AWS Marketplaceで「MarkLogic Connector for AWS Glue」をサブスクライブしてください。
AWS Glueは、フルマネージドのサーバーレスなApache Sparkインフラにより、視覚的にETLパイプラインを作成/実行/モニタリングします。GUIである「Glue Studio」はコードを自動生成するので、Sparkジョブのコーディングや最適化に関する作業と時間を削減できます。
AWS Glueでは、AWSサービス(Aurora、RDS、S3、Redshift、Kinesis、DynamoDBなど)やサードパーティのデータベース(オラクルやSnowFlakeなど)用のコネクタを使ってETLパイプラインを構築できます。データカタログおよびリッチなデータ変換(フィルタ、ジョインなど)が標準装備されており、Glue Studio内でETLパイプラインを簡単にモデリングできます。また、データパイプラインのコーディングにはScalaかPythonのいずれかを選択できます。
MarkLogicでApache Sparkを使用したいけれど、AWS Glueサービスは使わない場合のために、今回Apache Spark用MarkLogicコネクタもリリースしています。
今後MarkLogicユーザーは、AWS Glueを使用することで高速なデータ読み込み/エクスポート用のSpark ETLパイプラインを簡単に実装できます。
AWS Glue用MarkLogicコネクタにより、リレーショナル/非リレーショナルデータを「そのまま」変更せずに、MarkLogicに簡単にバルクロード/ストリーミングできるようになります。また、Glueのデータ変換機能を使うと、MarkLogicに読み込む前に、複数ソースからの表形式のデータを組み合わせて階層型データ(JSON)に柔軟に変換できます。
例えば、今回の新しいGlueコネクタを使用すると、バッチあるいは変更データ捕捉パイプラインを構築し、複雑なデータ(あるいはソースエンティティ)をMarkLogicデータハブサービスに簡単に読み込むことができます。読み込みが終わると、データハブサービスの機能によってソースデータを持続性のあるデータアセットに統合し、将来的にオペレーショナル(業務用)あるいは分析用アプリケーションで利用できます。
またAWS Glue用MarkLogicコネクタにより、MarkLogicからのデータを完全に安全かつガバナンスが効いた状態で簡単に利用できます。Sparkライブラリ(機械学習、SQLなど)をMarkLogic内にあるガバナンスが効いたキュレーション済みのクリーンなデータに対して使用することで、複雑な分析処理のための拡張性の高いデータパイプラインを簡単に構築できます。またMarkLogicのマルチモデルクエリ機能を利用して、目的に応じて調整されたデータをさまざまなAWSサービス(SageMaker、Redshift、S3など)やサードパーティのデータストア(Snowflakeなど)と安全に共有できます。
AWS Glue用MarkLogicコネクタを使用するには、AWS Marketplaceでこれをサブスクライブしてください。申し込みが終わると、AWS Glue Studio内にMarkLogicコネクタが表示されるので、これを使って視覚的にデータパイプラインを構築できます。
AWS Glue用MarkLogicコネクタの設定に関する詳細な情報については、こちらのマニュアルをご確認ください。またAWS Glueのマニュアルはこちらにあります。
View all posts from アンクール・ジャイン on the Progress blog. Connect with us about all things application development and deployment, data integration and digital business.
より優れた業務アプリケーションやウェブサイトの開発に役立つ、ニュース、情報、チュートリアルをご案内します。