データ分析のバックアップ(No.40)

偽の因果関係を見抜く6つのステップ
- 【基本】「AならばBである」という関係の必然性を追求する
- 【反証】「AならばBである」という関係は偶然と仮定する
- 【裏】「AでなければBではない」と“裏”を考える（！原因→！結果）
- 【逆】「BならばAである」と“逆”にしてみる（結果→原因）
- 【第3の要因】新しい要因を想定する（交絡因子）
- 【実験】実際に試験する

↑

関係性パターン †

相関

集合
- 前提にMECEという状態が必要
- 分類の手段であるクラスタ分析、因子分析、主成分分析で作られる。

位置
SWOT、PPM

類似
相関関係を表すデータが散らばったグラフから類似の関係性を探せる。

変化

展開
分からないことを観測データから推論
- ベイズ推定
- ロジカル・シンキング
- フェルミ推定（観測データがない場合）

循環
PDCAより、OODAが適合するようになってきている。

因果
ロジスティック回帰分析や判別分析

構造
代数の領域
- 階層、ネットワーク
- T字、逆T字

空間
幾何の領域

↑

展開、推論 †

ロジカル・シンキング

手法およびキーワード
- MECE
- So What / Why So
- ピラミッド・ストラクチャ
- ロジック・ツリー
- フレームワーク

三角ロジックとトゥールミンモデル

三角ロジック
事実・データ（根拠）を基に、自分なりの理由付け（解釈）をする。

トゥールミンモデル
・結論、データ、理由付けの3つを議論の基本要素で図式化。
・さらに限定子、論駁、裏付けの要素が加えられている。

フェルミ推定（観測データがない場合）
- アメリカのシカゴには何人のピアノの調律師がいるか？
  （フェルミ推定 - Wikipediaに例がある。）
- ココで出てきたものがKPIになったりする。

↑

変数と尺度 †

↑

説明変数と目的変数 †

説明変数
- 統計学において因果関係の原因となる変数。
- 回帰分析などで用いられる。
- 別名
  - 予測変数
  - 独立変数

目的変数
- 統計学において因果関係の結果となる変数。
- 回帰分析などで用いられる。
- 別名
  - 結果変数
  - 応答変数
  - 反応変数
  - 従属変数
  - 基準変数
  - 被説明変数

↑

名義尺度(質的データ) †

カテゴリに分類するための特性を表す尺度

順序無し（名義尺度）
性別、血液型、都道府県など
- カテゴリ分類の意味のみ持つ。
- 四則演算に意味は無い。
- 代表値に意味は無い。

順序付き（順序尺度）
松/竹/梅、優/良/可などの順位
- 順位に意味を持つ。
- 四則演算、値の間隔に意味は無い。
- 中央値のみ意味を持つ。

データや分類で使用され、
質的分類は標準化される（日本標準産業分類など）。

↑

連続尺度(量的データ) †

数値で表し測れる大小の関係がある尺度で、
比例尺度と間隔尺度は見分けが難しい場合がある。
0の時に測定対象がnullになるかならないかで判断。

間隔尺度
年齢、西暦・元号、セ氏度など（0でも測定対象がある
- 一般的な数値データ
- 順位に意味を持つ。
- 加減算に意味を持つが、
  乗除算に意味は無い。
- 代表値に意味を持つ。

比率尺度
速度、人口、体重、金額、売上など（0だと測定対象が無い
- 絶対的な原点０を持つ数値データ（０≠null）。
- 順位に意味を持つ。
- 四則演算に意味を持つ。
- 代表値に意味を持つ。

↑

上記以外の分類 †

離散型データ（計数データ）
- 数えることができるデータ
- 人数、枚数、個数、性別、表・裏、正・誤

連続型データ（計量データ）
- 数えることができず連続的なデータ
- 身長、体重、面積、体積、時間、強度、濃度

↑

解明の仕方 †

↑

要因の状況把握 †

鳥瞰的な状況把握
- 可視化：図表作成
- 代表値：
  代表値と呼ばれる特徴量を算出することで、
  図表を用いずには鳥瞰的な状況把握が可能。

名義尺度
- 可視化：棒グラフなど
- 代表値
  - カテゴリ数
  - 最頻値
  - など

連続尺度
- 可視化：ヒストグラムなど
- 代表値
  - 平均値
  - 標準偏差
  - 最頻値
  - など

↑

要因と結果の関係 †

比較
- 名義 vs 名義：クロス集計を用いて、離散分布を比較
- 名義 vs 連続：ヒストグラムを用いて、連続分布を比較

傾向
- 連続 vs 連続：
  散布図や時系列等で、片方の変数に対してもう片方の変数の傾向を見る。

↑

複数要因の関係 †

要因が複数の時、要因間の相互作用も考慮すべきであるが、
変数が３～４個以上になると、前述の手法だけでは困難

要因と結果を示すデータをコンピューターに与え、
自動的にその関係を学習させる機械学習などが有効

↑

定量分析 †

↑

プロセス †

プロセス		問題の特定
問題解決	定量分析	１	２
問題発見フェーズ	Step1：目的の明確化	比較軸を決める	構造化
問題発見フェーズ	Step2：仮説立案	比較軸を決める	構造化
解決策立案フェーズ	Step3：解析準備	比較条件を決める
解決策立案フェーズ	Step4：解析・検証	比較条件を決める
実行フェーズ	Step5：提言・実行

↑

定量化と意味合いの抽出 †

定量情報

↓ 定量化 ↑ 意味合いの抽出 ≒ データの比較

定性情報

↑

ピラミッド・ストラクチャ― †

結論（目的に沿うか？
比較（データの比較条件を揃える
事実（様々なデータ

↑

構造分析 †

フェルミ推定
- 掛け算での分解：モレ分析（プロセス上の問題を分析
- たし算での分解：マトリクス分析（２属性までバラつきの要因を分析

ディシジョン・ツリーによる期待値の計算

↑

詳細 †

↑

分析手法 †

↑

可視化・分類・予測 †

データ分析の手法には「可視化」「分類」「予測」の3つがある。
現場では「可視化」「分類」「予測」に加え検証の作業の繰り返しが基本。
検証の方法には、効果検証、A/Bテストなどがある。

↑

変数の数や尺度で分類 †

変数の数

１個
- ヒストグラム
- パレート図

２個
- 量的：散布図、単回帰分析（相関分析）
- 質的：クロス集計

３個以上
目的変数の数

０個
- 量的：主成分分析 / クラスタ分析
- 質的：数量化理論Ⅲ類

１個
目的変数の種類

量的
説明変数の種類
・量的：重回帰分析
・質的：数量化理論Ⅰ類

質的
説明変数の種類
・量的：ロジスティック回帰分析や判別分析（因果）
・質的：決定木分析

２個：正準相関分析

↑

分析の目的で分類 †

参考情報A

分析目的	分析手法
特徴	基本統計量、ヒストグラム、パレート図、時系列分析
分類	クラスタ分析、判別分析、ロジスティック回帰分析、機械学習の分類、クラスタリング
集約	主成分分析、因子分析
予測	相関分析、回帰分析、数量化理論Ⅰ類、待ち行列分析

参考情報B

分析目的		分析手法
予測	数値予測	回帰分析、決定木分析、DNN
予測	判別	ロジスティック回帰分析、決定木分析、DNN
非予測	分類	クラスタ分析
	相関	アソシエーション分析
	縮約	主成分分析、因子分析

参考情報C

分析目的			分析手法
絞り込み			クロス集計
予測	関係の強弱を知る		相関分析
	影響度を測る	数値予測	決定木分析、回帰分析
	影響度を測る	判別	決定木分析、ロジスティック回帰分析、判別分析、MT法
非予測		分類	クラスタ分析
		相関	アソシエーション分析
		集約	主成分分析、因子分析
検証			A/Bテスト、コホート研究、ケースコントロール法
その他	推論		ベイズ推定
	空間把握		トポロジカルデータ解析、スパースモデリング
	非構造化		テキスト・マイニング（形態素解析）

↑

分析のプロセスで分類 †

	問題発見、問題認識（異常は発生していないか？）	原因発見、解決策（ベストな選択はなにか？）	効果の確認
見える化	ヒストグラム、時系列分析	パレート図、散布図、クロス集計	層化
統計的手法	（目的変数が質的データの場合、もしくは分類）検定、判別分析、ロジスティック回帰分析、クラスタ分析	（目的変数が量的データの場合、もしくは分類）決定木分析、主成分分析、回帰分析・アソシエーション分析	検定

↑

その他、利用頻度、関連 †

利用頻度
順位手法
1 クロス集計
2 クラスタ分析
3 回帰分析
4 決定木分析
5 相関分析
6 ロジスティック回帰分析
7 因子分析
8 アソシエーション分析
9 判別分析
10 主成分分析

順位	手法
1	クロス集計
2	クラスタ分析
3	回帰分析
4	決定木分析
5	相関分析
6	ロジスティック回帰分析
7	因子分析
8	アソシエーション分析
9	判別分析
10	主成分分析

組合せパターン
多くの目的に有効な3つのパターン。

【パターン1】
アンケートからのA/Bテスト。など。
- 分類：因子分析
- 影響度を測る：回帰分析
- 検証：A/Bテスト

【パターン2】
F1層が商品を買うか買わないか。など。
- 分類：クラスタ分析
- 絞り込み：クロス集計
- 影響度を測る：ロジスティック回帰分析

【パターン3】
- 絞り込み：クロス集計
- 関係の強弱を知る：相関分析

各分析手法の関連

散布図 ─> 函数 ─> 回帰分析 ─┐
条件付き確率 ┬─> ベイズ法  ─┴─────┬─> 判別分析 ─> 機械学習
             └─> アソシエーション分析  ─┘ （判別モデル）
                                                  ↑
                                               深層学習

※ ベイズ法はトップダウン方式、深層学習はボトムアップ方式

↑

ツール †

ルールベース型
人が作った規則に基づいて分析する
- 【長所】比較的安い、構築しやすい
- 【短所】古い設計思想で科学的ではない
- 【特徴】帰納的、俗人的、デマンドドリブン

ビッグデータ型（統計型）
データを集めて統計処理し、その辞書に基づいて分析する
- 【長所】漏れなく処理、ハードウエアはCPU（Central Processing Unit）で十分
- 【短所】統計の辞書に依存、データ数次第
- 【特徴】統計的、演繹的、ビッグデータ

ニューラルネット型（AI型）
推論モデルを礎にAIが深層学習で分析
- 【長所】論理的でスムーズな処理
- 【短所】学習が不十分だと漏れる、GPUが高価
- 【特徴】科学的、抽象的、イベントドリブン

↑

可視化・代表値（統計量） †

↑

可視化 †

様々な

統計表
- 棒グラフ
- 円グラフ
- ヒストグラム
- 散布図

確率分布

を利用する

図表の例
- 品質マネジメント
- ...

↑

関係の見方 †

可視化する。
- ２つのヒストグラムから
- １つの散布図を生成できる。

共分散・相関係数の指標が得られる。

↑

代表値（統計量） †

母集団から無作為抽出されたデータ（標本）から
母集団推定のために計算で生成される数字を表す。

代表値(統計量) の特徴を数値にまとめるもの

代表値では分布を見なくても、分布の特徴を把握できる

グラフによって代表値が変わってくる
（棒グラフではカテゴリ数なども代表値になる）。

一般的には、以下の代表値がよく用いられる
- 分布の中心
- 分布のばらつき

↑

分布の中心 †

位置を示す
偏りや外れ値がある場合、中央値と最頻値は
平均値より有意義（直感に近い値を示す）

平均値：分布の中心傾向を表す値
分布が偏っている場合、外れ値が存在する場合には解釈に注意

相加平均（算術平均）：
一般的に平均といえばこれ。
すべての変量の和をデータの総数で割った値で表す。

相乗平均（幾何平均）：
伸び率の平均を求めるような場合

調和平均：
速度や生産性など単位量あたりの大きさの平均を求める場合

加重平均：
観測する値に重みを加えた平均値で表す。
人数が違うクラスAとBの平均点から学年の平均点を出す

移動平均：
時系列で大きい変動を見るのに利用される。
一定期間の間隔（＝ウィンドウサイズ）を定め、
その間隔内で計算した平均値で表す。（パフォーマンスカウンタなどで使われる）

中央値（メジアン）：分布を下半分と上半分に分ける値
偏りや外れ値がある場合、平均値より有意義であることがある。

最頻値（モード）：頻度が最も高い値
偏りや外れ値がある場合、平均値より有意義であることがある。

表計算ソフト（Excel、LibreOffice? Calc）では以下の関数が使える
- 平均値：AVERAGE関数
- 中央値：MEDIAN関数
- 最頻値：MODE関数

↑

分布のばらつき †

範囲、カテゴリ数
データの最大値と最小値の差（レンジとも呼ぶ）を表す。

四分位・パーセンタイル・箱ひげ図
分布（中央値からの散らばり）を表現

四分位
四分位数の定義はいくつかあるが、文科省による定義は、
「全データを順に並べて四つに等しく分けたときの三つの区切りの値」。

第ｎ分位
・第１四分位 (Q1)
・第２四分位 (Q2) = 中央値
・第３四分位 (Q3)

四分位ｘｘ
・四分位範囲 = Q1～Q3
・四分位偏差 = 四分位範囲 / 2

パーセンタイル
= 四分位を拡張する
- ｎパーセンタイル
- 25パーセンタイル = 第１四分位 (Q1)
- 50パーセンタイル = 第２四分位 (Q2)
- 75パーセンタイル = 第３四分位 (Q3)

箱ひげ図
カテゴリ毎に等、狭いスペースに
複数の分布を並べて表現することが可能
- 四分位範囲（Q1 - Q3）に箱を描く
- データのある所まで線を描く（MAX：四分位範囲の1.5倍）
- 線の外にデータがある場合、その位置に点を打つ。

分布を指標化した数値

↑

分類・予測 †

↑

分類 †

手順
1. 分類によって当たりをつける
2. 対象を絞り込む

手法

↑

予測 †

手順
1. 予測によって影響度を測る
2. 先を読む
3. 効果を検証する

手法

関係の強弱を知る
- 相関分析

影響度を測る
- ロジスティック回帰分析
- （重）回帰分析

先読み
- 判別分析
- MT法

傾向から予測する。

↑

結果の報告 †

↑

記述/可視化方法 †

要件①：調査分析の前提条件の明示
明示しない場合、結果を誤って解釈する事がある。
- 目的、用語の定義
- データソース（期間、対象者など）
- 外在的要素・状況（社会情勢、制約条件など）

要件②：分析プロセスの明示
プロセスが分析結果に影響を及ぼす事がある。
- 収集方法
- 分析手法

要件③：適切な表現
- 情報を正確に伝える指標設定（代表値など）
- 示したい事柄に適した表、グラフの種類
- 図表の部位の明記（タイトル、凡例、軸、単位、出典等）

↑

解釈の注意点 †

上記を踏まえて解釈する。

パターン

不適切なサンプル
- 母集団を代表していない標本。
- 偏りのある標本、少ない標本

グラフの作為
- 基準点、単位、期間の異なる比較。
- 視覚的な錯覚を生じる表現など。

定義の違い
定義の違いを無視して比較する場合など。

認知バイアス
ヒューリスティックス（経験則）によるバイアス
- 記憶や想像のし易さによる利用可能性ヒューリスティックス
- 典型事例を全体像として錯覚する代表ヒューリスティックス

確証バイアス
仮説や信念を検証する際にそれを支持する情報ばかりを集め、
反証する情報を無視または集めようとしない傾向のこと。

情報の偏り（不適切なサンプル

母数が少ない。
女性の大学院進学率（3人だけ）

年賀状を出す人
平日昼間の固定電話による世論調査（高齢者）

軸の操作（グラフの作為
- 軸の基準点、データの単位、データの取得期間
- 変化を解り易く伝える反面、誇張にもなる。

ロジック展開のウソ
正規雇用社員比率が上がった理由は非正規雇用社員の大量退職。
- 比率では解らない（実数を確認する必要がある）。
- 実数の変化が何故起きたか？も確認する必要がある。

錯覚・思い込み

条件付き確率
- X Y
罹患率 0.1％ 80％
致死率 50％ 0.001％
罹患＆致死率 0.05％ 0.0008％

-	X	Y
罹患率	0.1％	80％
致死率	50％	0.001％
罹患＆致死率	0.05％	0.0008％

↑

分析の発展 †

↑

順問題と逆問題 †

データ分析における順問題と逆問題
（定義は実際曖昧で、時代や学問分野によって異なることが多い。）

順問題：
原因から試行錯誤しながら結果を探索

原因から結果を推定、数理モデルを使った予測
- “構造”から“機能”を発見する。
- 確率や、基礎研究や基礎医学は順問題。
- 推論の結果が知識 → 知恵へと変わっていく（DIKW）。

必要なもの
- データ（入力用）
- モデル
  ・数理モデル
  ・ベイズ統計の推論モデル
  ・フェルミ推定
  ・ロジカル・シンキング
  ・通常のシミュレーション

逆問題：
結果から、原因を探求

結果から原因を推定、データから数理モデルを推定
- “機能”に見合った“構造”を探す
- ある現象に着目して観測データから、
  その原因や現象を支配しているパラメタなどを決定する問題。
- 通常、原因やパラメタなどは直接的に決定することが不可能であり、
  利用できる間接的な観測データから推定することしかできない。

必要なもの
- データ（分析用）
- 勘と経験と度胸（KKD）
- モデル
  ・推論統計の統計モデル
  ・ベイズ統計の経験モデル
  ・逆問題解析（非破壊検査、最適形状作成、最適制御）

AUOODA（プロセス）
OODAが基礎で順問題と逆問題でプロセスが異なる。
２プロセス併用して、他方の内容を検証する方法もある。

順問題

A (arrange、探索)
・データ群から原因となる事象を測定（Measure）
・試行錯誤で探索し、離れたデータ群をぶつけて共通点を探す。

U (understand、学習 > 理解)
・データを十分に理解し、事象を学習
・新しい列を作りながら設計（Design）し、情報化。

O (observe、学習 > 観察)
情報から規則性、あるいは、いつもとは違う“何か”を観測（Monitor）。

O (orient、モデル化)
規則性、因果関係、相関関係などをモデル化しアルゴリズム（Algorism）を考える。

D (decide、推論)
・可視化・分類した分析結果は単なる事実
・主観的に推論（ナレッジ化）するための解析（Analytics）。

A (act、実践)
推論で得られた真実を明確なメッセージに変える（ビジネスモデルの構築）
・誰に、どのような価値を提供するか【Who、What】
・そのために、どんな業務構造や取引先との関係が必要か【How、When、Why】
・どのような販売ルートと価格設定で、どれだけ収益を上げるか【Where、Which、How much】

逆問題

A (act、経験値・肌感覚)
ビジネス（モデル）上の経験値・肌感覚のデジタル化

D (decide、可視化)
デジタル化した経験値を可視化していくことで解析（Analytics）の糸口にする。

O (orient、モデル化)
経験値を可視化する中で、アルゴリズム（Algorism）を見抜き数値化する。

O (observe、観察・検証)
数値化したものの正当性を得るために観察（Monitor）し、検証する。

U (understand、理解)
・なぜ、このような結果になるのか、その原因を理解する。
・単なる原因だけでなく、真の目的や意図（Design）をくみ取る。
・必要に応じデータに隠れている、人のたくらみや下心も読み取る。

A (arrange、原因への対策)
・浮き上がった原因への対策（Countermeasure）を施し、
・原因に繋がる事柄を整頓（Arrange）していく。

↑

データ分析と数学 †

データ分析の手段と数学の間にある関係

分析の手段	関連する数学の例
可視化	確率分布、統計、集合論、線形代数、行列（画像データ、文字データは行列で表せる）
分類	群論、統計
予測	解析（フーリエ解析など）、確率、統計、行列の固有値、微積分、セルオートマトン
判別	代数、方程式論、アルゴリズム論
推論	ベイズ推定、微積分
トポロジカルデータ解析	幾何、トポロジー、多様体
スパースモデリング	トポロジー、グラフ理論

↑

数理モデル †

推定や予測をする。
- 物事を説明するのに必要な数学的なフレームワーク。
- データの生成プロセスをおおまかに理解するため。

モデルの仮定や検証
- モデルの妥当性、モデルのパラメータの正確な推定、モデルからの推論が関心ごと。
- テストに使われるデータは分析対象の母集団からランダムに取られたサンプル

分類

数理モデル（決定論的・確率論的モデル
必ずしも不確実性を含むわけではない

統計モデル（非決定論的モデル
- 不確実性を明示的に取り込んでいく
- 不規則性を確率の概念をもって表現する

構造
- ランダム
- 一定
- 線形関数（１次関数
- ２次関数
- ｎ次関数
- 指数関数
- 正規分布

指向

理解指向モデル
データ生成の原理・仕組を知る事に焦点を合わせたモデル。
・数理構造から知る
・推定したパラメタ値から知る
・推定したパラメタ値と内部構造から知る
・パラメタ値を変えてシミュレーションする

応用指向モデル
現実の事象から数学化、データを生成して現実での応用に焦点を合わせたモデル
・回帰モデル
・分類モデル
・生成モデル

↑

想定外の軽減 †

想定外は予測しにくいため。

信頼性の高いデータを使う
- 信頼性 = 完全性 + 正確性 + 正当性
- 正当性 = 合理性 + 社会通念 + 経験則 + 客観性

ハインリッヒの法則を応用する
1件の重大な事件・事故の背景には、
- 29件の軽微な事件・事故があり
- 300件のヒヤリ・ハットした事象がある

“トライアングル”を成立させない
- 動機　：明確な要求（デマンド：Demand）
- 機会　：モニタリング
- 正当化：顕在化した感情（エモーション：Emotion）

適切なデータ分量を知る
- 1次データは臨場感のあるデータで生々しいが、
- 2次データは脚色されている可能性も高い。

↑

心理学要素 †

心理学要素が必要になることもあり、
画一化・標準化されたデータ分析を難しくしている。

様々な認知バイアス
- 同調効果（ミラー効果
- 内集団バイアス
- リスキーシフト
- ハロー効果
- フレーミング効果
- アンカリング効果
- プライミング効果
- バンドワゴン効果・アンダードッグ効果
- ツアイガルニック効果、スノッブ効果、ウインザー効果

プロパガンダ・テクニック
- エコーチェンバー
- 感情への訴えかけ
- 衆人に訴える論証
- 恐怖に訴える論証
- ヒトラーに例える論証（ゴドウィンの法則
- 虚偽報道、フェイクニュース
- 敵対的メディア認知

発生論の誤謬
- 権威に訴える論証
- 伝統に訴える論証
- 新しさに訴える論証

↑

人の行動・感情（非構造化データ †

データの種類
- 明確な要求（デマンド：Demand）のデータ
  - 構造化、非構造化データ
  - モノを買ったりサービスを利用したり
  - デマンドドリブン型のシステム

意図のない単なる事象（イベント：Event）のデータ
- 構造化、非構造化データ
- 意図を持たない、単なる流れによって発生する
- イベントドリブン型のシステム（レコメンド

顕在化した感情（エモーション：Emotion）のデータ
- 非構造化データ
- 喜怒哀楽など、人の感情が顕在化したもの
- エモーションドリブン型のシステム

潜在的な心理（マインド：Mind）のデータ
- 非構造化データ
- 本人も気付いていない（潜在的）人の意識の状態や変化
- マインドドリブン型のシステム

利用例
- 退職傾向の分析
- ...

↑

モデルとシミュレーション †

社会課題の解決

感染症対策、企業経営、金融リスク、電力市場の自由化

データだけでは難しい、事前に実験・検証が困難
- データそのものは常に完全ではない。
- すべてのデータが集まるわけではない。
- 従来型の統計分布や予測モデルでは僅かな事象を反映しない。
- 人間、社会、経済は実験が非常に難しい対象
- 現状のデータから「外挿」を推定する必要もある。

モデルに基づく課題解決が重要（モデル自身も不完全）
- 対象システムの主要な要素関係を抽出
- コンピューター上でモデル化
- シミュレーション
  ・課題をコンピューター上のモデルで再現し、
  ・解決策の効果をモデルを使用して評価する。

↑

ビッグデータの法則 †

95％は信頼できない
- 日本国債の金利に影響する動きの早い海外保有量は全体の5%程度
- ブランドに関するアンケートで役立つコメントは約5%
- 会社を引っ張っていく影響力のある人材は5%
- 今後はデータを如何に捨てるかが重要に。

パレートの法則からロングテールの法則へ
分布の「右側」や「左側」が重要になってきている（ビジネスチャンスが潜む）。
- 付加価値が高い高級品の売り上げは伸びている。
- IT界隈のBig5、ソシャゲの廃課金者
- リスク管理（ネット炎上、ES/CS）
- イノベーター理論の左右の5%への注目
- クラウド・ビジネス（低価値・低頻度の事業化）

振り子現象
- データを重視し過ぎると振り子現象などで分析麻痺が起こる。
- データとは正反対の直感が重視されるようになる。

業界によって様々な

ベンフォードの法則
自然界に出てくる多くの数値の最初の桁の分布が、
一様ではなく、ある特定の分布になっている、という法則

モンモール数
完全順列の総数、プレゼント交換がうまくいく確率

ネイピア数
最適停止問題、最適停止問題の一種の秘書問題

黄金比（ 1：（ 1 ＋ √5 ）/ 2 ≒ 1：1.62 ）
フィボナッチ数列で、ある程度数が大きくなると、
数列の隣り合う数の比が限りなく黄金比に近づいていく。
- 為替の大きな流れが約162カ月で変わるという説

白銀比（1：√2 ≒ 1：1.414）
長方形の長辺を中点で2分割してできた長方形が、
元々の長方形と相似であるようにした辺の比
- A4判、A5判など用紙の縦横比は白銀比
- 日本の美術や建造物で用いられ日本人の感性に合うと言われる。

「78：22」の法則
- 空気の窒素含有率
- 体内の善玉菌と悪玉菌の比率

↑

活用 †

↑

パターン †

↑

クロス集計を用いて離散分布を比較 †

簡単に言うと、

などを行う。

集計元のデータが連続尺度である場合は、

ヒストグラムなどを使用して

カテゴリ毎の分布を確認しても良い。

↑

ヒストグラムを用いて連続分布を比較 †

年代別来客数などを例に。

可視化の活用

標準級間隔を設定。
例えば、年代別来客数なら、
10歳毎の世代に区切る。

以下が読み取れる。
1. どんな種類がある？
2. 最も多い種類はどれ？
3. 大半のサンプルはどこ？
4. 最小値はどれぐらい？
5. 最大値はどれぐらい？
6. データ不備はある？

特徴の異なる様々な分布がある

ピーク（峰）の数
異種データの混在の可能性に注意

ピーク（峰）の偏り
平均値を解釈する際に注意

外れ値の有無
データ不備や異常値の可能性に注意

代表値の活用
分布の特徴を少ない情報で伝えられる

↑

散布図で傾向を見たり予測をしたり。 †

↑

時系列等で傾向を見たり予測をしたり。 †

クロスセクションデータ
実数同士では正しい比較にならない場合は、
規模の影響を取り除いた比率で見る（例）。

構成比
総数とその内訳の比率

相対比
- 異なるデータを分子、分母に取った比率
- （人口や面積など）各集団の大きさの影響を除去

※ 余談：分母が同じで足して100％になる２つの比率は-1の相関になり意味がない。

時系列データ

観測頻度
- 年次データ（暦年、年度
- 半期データ（暦年、年度
- 四半期データ（暦年、年度
- 月次データ
- 週次データ
- 日次データ
- 時間データ
- 不規則間隔データ

フローデータとストックデータ
- フローデータ
  ある期間内の発生量や変化量
  （例）平成25年の1年間の出生数
- ストックデータ
  ある一時点の状態をとらえたもの
  （例）平成26年10月1日現在の人口

例
・出生数と人口
・販売台数と保有台数
・...

名目値と実質値
金額を扱う統計で使われる。

名目値
その時その時の価格により表した金額

実質値
ある基準時の価格により表した金額
```
      名目値
= --------------
     価格指数
```

季節性の調整

季節性の例
・夏：クーラー代、ビール消費
・冬：暖房費、鍋材料
・新学期：教育費
・ボーナス時期：高額商品

季節性を調整する方法
・簡単な方法：前年同月比
```
      当月の値
= -------------- - 1
  前年の同月の値
```
・高度な方法：季節調整（季節変動を除去）
　Excelの[データ]タブから[データ分析]をクリックし、
　ダイアログボックスで[移動平均]を選択肢、
　月次データの場合、区間を[12]に設定する。

見方
季節調整値の傾向の変化を見る。
・前月比
・前年同月比
・前年同月の前月比

季節製以外の変動を考慮
コレ等のデータ特性を見極めた上で予測を行う。

時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】+ 不規則変動【I】

同時相関と相互相関
（季節性は除かれているものとする）

同時相関
・同時点での相関＝２つの時系列データを並べた場合
・可処分所得と消費支出の相関係数 = 0.46
・擬似相関
　・双方の時系列に単調トレンドがある時、相関があるように見える。
　・前期比などに変換してから相関係数を計算する（→ 相関なしと解る）。

相互相関
時間差での相関

時系列予測
- 多項式回帰による予測
  トレンドが時間の関数
  ・はっきりしたトレンドがある場合、時間の多項式を当てはめて予測
  ・1次関数が良く用いられ、高次の多項式は望ましくない。
  ・大きな構造変化が起こるときにはうまく予測できない。

自己回帰モデル（auto-regressive model）
線形予測モデル（linear prediction model）による予測。
実現値となる変数がその変数の過去の値と確率項に線形に依存。
・今現在の値を現在より前の値を重みづけして足し合わせる（線形和）ことで表現
・過去の変数を用いることで精度を高める。どのくらい遡るかは、統計的な判断が必要。
・トレンドがある場合には適用できない。