Amazon RedshiftがParquet形式のUNLOADに対応!

2019年12月4日に発表されたRedshiftがParquet形式のUNLOADに対応についての解説です

以下公式サイトです。
https://aws.amazon.com/jp/blogs/news/new-for-amazon-redshift-data-lake-export-and-federated-queries/

何が出来るようになったか

  • Parquet形式でのS3へのUNLOADに対応しました。
    Parquet形式とは分析のための効率的かつオープンなカラムナー型ファイルフォーマットです。
    今までRedshiftはParquetファイルの読み込みには対応していましたが、UNLOADには対応していませんでした。

  • フェデレーテッドクエリー。Redshiftクラスターから、クラスター内、S3データレイク、Amazon Relational Database Service (RDS) for PostgreSQLおよびAmazon Aurora PostgreSQLデータベースに保管されたデータを跨いでクエリーを実行きるようになりました。

Parquet形式のメリット

Parquet形式のデータは一般的なテキストフォーマットに比べて最大で2倍高速にUNLOADすることができ、S3上の容量を最大で6倍節約することが可能です。これにより、Redshift内で実行したデータ変換やエンリッチ化の結果を、オープンなフォーマットでS3データレイクに保存することができるようになります

対応リージョン等

Redshiftが対応している全リージョンで利用可能です!
Redshiftリリースバージョン1.0.10480以降で利用可能です。