AWS Glueを使ってS3にあるデータをAthenaで検索してみた

Glueを使う理由

Athenaで検索する場合、データベースを作成する必要があるがAthenaだけで行うと手動で設定する必要があり手間。Glueを使うと自動でカラム情報取得しデータベースを作成してくれるため便利。

やること

GlueでS3のデータカタログを作成し、Athenaで検索する

前提

S3はCloudTrailの証跡を使用する。
※ログ系のデータが格納されているS3バケットであればなんでも可
　適当なバケットがない場合、下記を参考にCloudTrailの証跡を作成する
amegaeru.hatenablog.jp

実践！

１．Glue Crawler作成
１－１．[AWS] - [Glue]

１－２．[Data Catalog] - [Crawlers]

１－３．[Create crawler]

１－４．下記を入力
　Name：crawler名
　Description：任意

１－５．[Next]

１－６．下記を選択
　Is your data already mapped to Glue tables?：Not yet

１－７．[Add data source]

１－８．下記を入力
　Data source：S3
　Network connection - optional：空白
　Location of s3 data：in this account
　S3 path：s3://aws-cloudtrail-logs-xxxxxx
　Subsequent crawler runs：Crawl all sub-folders

１－９．[Add an S3 data source]

１－１０．[Create new IAM role]

１－１１．適当な作成するIAMRole名を入力

１－１２．[Create]

１－１３．[Next]

１－１４．[Add database]

１－１５．下記を入力
　Name：database名
　Description - optional：任意
　Location - optional：任意

１－１６．[Create database]

１－１７．[Next]

１－１８．[Create crawler]

２．GlueでGrawlerを実行
２－１．作成したCrawlerを選択し、[Run crawler]

２－２．下記を入力
　Name：Crawler名
　Description - optional：任意

２－３．[Next]

２－４．Crawler runsの[Last run]が[Succeeded]になることを確認

２－５．[Databases] - [Tables]

２－６．S3内のフォルダ情報が表示されていること

３．Athenaクエリ保存用S3バケット作成
３－１．[AWS] - [S3]

３－２．[バケットを作成]

３－３．下記を入力
　バケット名：任意

３－４．[バケットを作成]

４．Athena設定
４－１．[AWS] - [Athena] - [クエリエディタ]

４－２．[設定] - [管理]

４－３．下記を入力
　Location of query result - optional：項番３で作成したS3バケット

４－４．[保存]

５．Athena検索
５－１．[AWS] - [Athena] - [クエリエディタ]

５－２．下記を選択
　データソース：AwsDataCatalog
　データベース：作成したデータベース

５－３．テーブル名の[…] - [テーブルをプレビュー]

５－４．[結果]にクエリ結果が表示されることを確認