システムとデータの両面にスポットを当て、データ分析基盤の整備/運用/活用の指針をまとめた入門書。
データ分析の中心にある「データ分析基盤」を取り巻く環境は、大きく変わりました。機械学習/ディープラーニング、マーケティング、需給予測、不正検知を筆頭にデータ利用が多角化し、データ分析基盤に求められる役割も多様化が進んでいます。
本書では、データ分析基盤の「今」に焦点を合わせ、基本用語の整理から歴史、クラウドをはじめとしたインフラ、主要な技術スタック、システムモデル、データドリブンのための可視化&測定術まで徹底解説。
合わせて、長期視点に立ったユーザー中心の運用に欠かせない「セルフサービス」「SSoT」に基づいたルール作り、それらを実現するためのゾーン/タグ管理、メタデータ管理、データの品質管理も平易にまとめました。
広くデータ分析基盤に関わるエンジニア/ユーザーの方々へ、ユーザーが自然と集まり、データ活用を促進するシステムの実現のために、実践で活かせる考え方をお届けします。
@@@@@gihyo.jpの書誌情報ページに関して:以下の目次テキストの「全角スペースから行末」まで「サブタイトル」のため、サブタイトル風の文字スタイル(級数下げ/書体を細くするなど)希望です
# 第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」
## 1.1 データ分析基盤の変遷 多様化を受け入れるために進化する
## 1.2 処理基盤/クラスターの変遷 よりマネージレスにしてコストを減らし、より本来の業務へ集中する時代
## 1.3 データの変遷 ExcelからWeb、IoT、そして何でもあり(!?)へ
## 1.4 データ分析基盤に関わる人の変遷 データにまつわる多様な人材
## 1.5 データへの価値観の変化 データ品質の重要度が高まってきた
## 1.6 データにおける開発の変遷 複雑化するプロダクトと人の関係
## 1.7 本章のまとめ
# 第2章 データエンジニアリングの基礎知識 4つのレイヤー
## 2.1 データエンジニアリングの基本 ポイントと本書内の関連章について
## 2.2 データの世界のレイヤー データ分析基盤の世界を俯瞰する
## 2.3 コレクティングレイヤー データを集める
## 2.4 プロセシングレイヤー データを変換する
## 2.5 ストレージレイヤー データやメタデータを貯蔵する
## 2.6 アクセスレイヤー データ分析基盤と外の世界との連携
## 2.7 本章のまとめ
# 第3章 データ分析基盤の管理&構築 セルフサービス、SSoT、タグ、ゾーン、メタデータ管理
## 3.1 セルフサービスの登場 全員参加時代への移行期
## 3.2 SSoT データは1ヵ所に集めよう
## 3.3 データ管理デザインパターン ゾーンとタグ
## 3.4 データの管理とバックアップ データ整理と、もしものときの準備
## 3.5 データのアクセス制御 ほど良いアクセス権限の適用
## 3.6 One Size Fits All問題 デカップリングで数々の問題を解決しよう
## 3.7 データのライフサイクルマネジメント 不要なデータを残さないために
## 3.8 メタデータとデータ品質による管理 データを知る基本ツール
## 3.9 ハイブリット構成 ハイブリッドが抱える問題
## 3.10 本章のまとめ
# 第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー、クラスター、ワークフローエンジンまで
## 4.1 データ分析基盤の技術スタック 全体像を俯瞰する
## 4.2 データ分析基盤のためのクラスター選択 無理な利用にも耐えられる必要がある
## 4.3 コレクティングレイヤーの技術スタック セルフサービス時代のデータの取り込み
## 4.4 プロセシングレイヤーの技術スタック データ変換を行うレイヤー
## 4.5 ワークフローエンジン データ取り込みと変換を統括する
## 4.6 ストレージレイヤーの技術スタック データの保存方法
## 4.7 アクセスレイヤー構築の技術スタック セルフサービス時代のユーザーへのデータ提供
## 4.8 アクセス制御 アクセスレイヤーに対するアクセス制御
## 4.9 本章のまとめ
# 第5章 メタデータ管理 データを管理する「データ」の重要性
## 5.1 データより深いメタデータの世界 データは氷山の一角
## 5.2 メタデータとデータ 3つのメタデータを整理/整備しよう
## 5.3 データプロファイリング データの状態を見る
## 5.4 データカタログ 手元にないメタデータはカタログ化しよう
## 5.5 データアーキテクチャ リネージュ、プロバナンス。メタデータの総合力
## 5.6 本章のまとめ
# 第6章 データマート&データウェアハウスとデータ整備 DIKWモデル、データ設計、スキーマ設計、最小限のルール
## 6.1 データを整備するためのモデル DIKWモデル
## 6.2 データマートの役割 「Data」を整備して知恵の創出をサポートする
## 6.3 スキーマ設計 データに関するルールを設計する
## 6.4 データマートの生成サポート コミュニケーションの省略&活用
## 6.5 データマートのプロパゲーション メタデータやルールの作成
## 6.6 ストリーミングとデータマート 瞬時にKnowledge化する
## 6.7 本章のまとめ
# 第7章 データ品質管理 質の高いデータを提供する
## 7.1 データ品質管理の基礎 データ蓄積から次の段階へ進む
## 7.2 データの劣化 データは放置するだけで劣化する
## 7.3 データ品質テスト 劣化に気づくための品質チェック
## 7.4 メタデータ品質 生産性を向上させるために
## 7.5 データ品質を向上させる 品質テストの結果を活かす
## 7.6 本章のまとめ
# 第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定
## 8.1 データ分析基盤とデータドリブン エンジニアもデータドリブンに行こう
## 8.2 データドリブンを実現するための準備 データ分析基盤のPDCAと数値
## 8.3 KPIをどのように開発に活かすのか データ分析基盤の「コスト削減KGI」の例
## 8.4 データ分析基盤観点のKGI/(CSF)/KPI 改善の着眼点
## 8.5 本章のまとめ
# Appendix [ビッグデータでも役立つ]RDB基礎講座
## A.1 データベースとは何か? 検索、更新、制約機能を持った入れ物
## A.2 RDBの基本 データベースの基本を振り返る
## A.3 RDBにおけるアーキテクチャ RDBの設計
## A.4 Appendixのまとめ