2019年12月4日に発表されたRedshiftがParquet形式のUNLOADに対応についての解説です
以下公式サイトです。
https://aws.amazon.com/jp/blogs/news/new-for-amazon-redshift-data-lake-export-and-federated-queries/
何が出来るようになったか
Parquet形式でのS3へのUNLOADに対応しました。
Parquet形式とは分析のための効率的かつオープンなカラムナー型ファイルフォーマットです。
今までRedshiftはParquetファイルの読み込みには対応していましたが、UNLOADには対応していませんでした。フェデレーテッドクエリー。Redshiftクラスターから、クラスター内、S3データレイク、Amazon Relational Database Service (RDS) for PostgreSQLおよびAmazon Aurora PostgreSQLデータベースに保管されたデータを跨いでクエリーを実行きるようになりました。
Parquet形式のメリット
Parquet形式のデータは一般的なテキストフォーマットに比べて最大で2倍高速にUNLOADすることができ、S3上の容量を最大で6倍節約することが可能です。これにより、Redshift内で実行したデータ変換やエンリッチ化の結果を、オープンなフォーマットでS3データレイクに保存することができるようになります
対応リージョン等
Redshiftが対応している全リージョンで利用可能です!
Redshiftリリースバージョン1.0.10480以降で利用可能です。