データ分析によって価値ある意思決定につなげたいと考えるのがデータ分析者の本分ではないでしょうか。ところが「データ分析」を行うためには、さまざまな工程を経ることになります。データ分析に携わったことのある方であれば身に覚えがあるでしょう。
ExcelのGUI操作、可視化の設定、レポート、他ツールとの連携などで発生する繰り返し作業を減らすための手間を惜しんではいけません。これらの工程で発生する手作業を無自覚に受け入れることは、本来取り組まなければならない「分析」の時間を無駄にすることと同じです(1回の業務が5分短縮できたとしましょう。1年で300回同じ作業が発生したとしたら、1500分=25時間。約1日です。この時間で何ができるでしょうか?
あなたがRを利用していれば(これからRをはじめるという方も)ラッキーです。Rの豊富なパッケージを利用することでデータ分析のワークフローを効率化できます。本書は以下のような構成で、単純な作業をプログラミングによって自動化する方法を解説していきます。
1章 R環境の準備と基本操作
2章 Excel・CSV・TSVファイルの読み込みとデータ整形
3章 グラフ描画の基本と応用
4章 HTML・Word文書への出力と分析結果の共有
5章 Googleサービスとの連携
6章 Web上のデータ取得とWebブラウザの操作
7章 データフローの整理と定期実行
Excel操作、グラフ描画、レポート、Googleサービス連携、スクレイピングなどデータ分析に欠かせない工程が、本書の内容によって効率化できるかもしれません。Rでなんでも完結してしまいたいというR愛にあふれる執筆者が集まり、便利なパッケージの使いどころを解説していきます。
Rを使って自動化/効率化への第一歩を踏み出しましょう!
はじめに
Chapter1 R環境の準備と基本操作
1-1 R、RStudio、tidyverse
1-2 Rのインストール
1-3 RStudioのインストール
1-4 RStudioの基本機能
1-5 tidyverse
1-6 まとめ
Chapter2 Excel・CSV・TSVファイルの読み込みとデータ整形
2-1 Excel作業を置き換える意義
2-2 Excelファイルを読み込む(readxlパッケージ)
2-3 CSV・TSVファイルを読み込む(readrパッケージ)
2-4 Word文書のテーブルを読み込む(docxtractrパッケージ)
2-5 Excelの代わりにRを使う
2-6 まとめ
Chapter3 グラフ描画の基本と応用
3-1 グラフ描写を効率化する重要性
3-2 統一的な記法によるグラフ描写(ggplot2パッケージ)
3-3 グラフの色や形を変更(scale関数群)
3-4 軸の調整(scale関数群とcoord関数群)
3-5 凡例/軸のラベルを変更(labs関数)
3-6 日本語表示のためのRStudioの設定
3-7 テーマを変えフォントを指定する(theme関数群)
3-8 画像として保存
3-9 特定のデータを強調
3-10 グラフ配置によるデータの俯瞰
3-11 最低限のコードによるグラフの対話的操作
3-12 まとめ
Chapter4 HTML・Word文書への出力と分析結果の共有
4-1 コードに実行結果と説明文をつけて文書化する(R Markdown)
4-2 本文を書く
4-3 チャンクによるコードとその実行結果の挿入
4-4 YAMLフロントマターに文書の情報を記述
4-5 HTML文書を作成する
4-6 HTMLスライドを作成する(revealjsパッケージ)
4-7 Word文書の作成
4-8 相互参照可能なHTML文書やWord文書の作成
4-9 図表の相互参照
4-10 その他の形式の文書やスライドを作成する
4-11 まとめ
Chapter5 Googleサービスとの連携
5-1 GoogleAPIの利用
5-2 Google BigQueryの操作(bigrqueryパッケージ)
5-3 Googleドライブの操作
5-4 Googleスプレッドシートの操作
5-5 まとめ
Chapter6 Web上のデータ取得とWebブラウザの操作
6-1 スクレイピングの必要性と基礎知識
6-2 スクレイピングによるデータ収集(rvestパッケージ)
6-3 ブラウザの操作(RSeleniumパッケージ)
6-4 文字列処理(stringrパッケージ)
6-5 途中でエラーが起こったときのエラーハンドリング
6-6 スクレイピング時の注意点
6-7 Rで実践する紳士的なスクレイピング方法(politeパッケージ)
6-8 まとめ
Chapter7 データフローの整理と定期実行
7-1 再現性を高めるためにパッケージのバージョンを固定(renvパッケージ)
7-2 再現性の向上と再分析の高速化を図るためにWeb上のデータをキャッシュ(pinsパッケージ)
7-3 パイプラインのメンテナンス(targetsパッケージ)
7-4 スクリプトの定期実行
7-5 応用:Rに関する新刊情報の通知
7-6 まとめ