本書の概要
「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMakerなど、データレイクを支えるさまざまな仕組みが存在します。 本書ではそれらの活用の指針を解説するとともに、後半ではシステムの構築例を具体的に解説していきます。ビジネスデータ分析とログなどの生成データ分析を例に、システム構築の流れを詳しく紹介し、機械学習や統計分析をビジネスの現場で活かせる仕組みの技術的なヒントを数多く提供します。
仕様
個人向けに提供されるPDFによる電子書籍です。データの複製や譲渡は著作権により制限されます。 A5判、1色刷、392ページ、ISBN978-4-9911156-1-5
目次
第1部 データレイクの概念と知識 序章 データレイ クを始めよう 第1章 データレイクの構築 第2章 データレイクの活用 第3章 データレイクの運用 第4章 データレイクのセキュリティ 第2部 データレイクの実践(基礎編) 第5章 ハンズオンの概要 ービジネスデータのデータレイクー 第6章 データを可視化する 第7章 サーバーレスSQLによるデータ分析 第8章 データを変換する 第9章 データを分析する(データウェアハウス) 第3部 データレイクの実践(応用編) 第10章 システムの概要 ーログデータのデータレイクー 第11章 ログを集める 第12章 ログの保管とカタログ化 第13章 ログを加工する 第14章 ログを分析する