データ分析
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>データサイエンス力]]
*目次 [#d6c76a2d]
#contents
*概要 [#j821ec1b]
**分析の基本 [#d631e766]
***考える順序 [#e9db9c3c]
作業順の逆順で考える。
+結果の想定~
~
( ↓ そのタメに必要なモノ ↓ )~
~
+必要な図表の想定~
~
( ↓ そのタメに必要なモノ ↓ )~
~
+必要なデータの「集計」(結果)の想定~
~
( ↓ そのタメに必要なモノ ↓ )~
~
+必要なデータの「収集」(結果)の想定
***属性を見出す [#l0dc28d8]
属性が分析の基準になるため、~
新たな「列」をどう作るかが鍵。
***関係性を見出す [#p346c99f]
-現状のデータ(数字)を
--分解して細かな要素に分け、
--性質、構造などを明らかにする
>ことで、
--[[要因(1変数)の状況把握>#i6baf21e]]と
--[[要因と結果(2変数)の関係>#x7416392]]として
>解明する。
-足し算やかけ算、log、ルート、微積分など~
2つ以上の事象の関係性を、数学を駆使して、あぶり出す。
-偽の因果関係を見抜く6つのステップ
--【基本】「AならばBである」という関係の必然性を追求する
--【反証】「AならばBである」という関係は偶然と仮定する
--【裏】「AでなければBではない」と“裏”を考える(!原因→!...
--【逆】「BならばAである」と“逆”にしてみる(結果→原因)
--【第3の要因】新しい要因を想定する(交絡因子)
--【実験】実際に試験する
***関係性パターン [#l3a1e0f9]
-相関
--集合
---前提にMECEという状態が必要
---[[分類の手段であるクラスタ分析、因子分析、主成分分析>#...
--位置~
[[SWOT>PMP:共通 - OPM - ポートフォリオ・マネジメント#je8...
--類似~
相関関係を表すデータが散らばったグラフから類似の関係性を...
-変化
--展開~
分からないことを観測データから推論
---[[ベイズ推定>ベイズ統計]]
---[[ロジカル・シンキング>#f37e932a]]
---[[フェルミ推定>#f37e932a]](観測データがない場合)
--循環~
[[PDCA>データサイエンティスト#ef5f4720]]より、[[OODA>#jb8...
--因果~
[[ロジスティック回帰分析>データ解析#f8862775]]や[[判別分...
-構造~
代数の領域
--階層、ネットワーク
--T字、逆T字
-空間~
幾何の領域
***展開、推論 [#f37e932a]
-ロジカル・シンキング
--手法およびキーワード
---MECE
---So What / Why So
---ピラミッド・ストラクチャ
---ロジック・ツリー
---フレームワーク
--三角ロジックとトゥールミンモデル
---三角ロジック~
事実・データ(根拠)を基に、自分なりの理由付け (解釈)を...
---トゥールミンモデル~
・結論、データ、理由付けの3つを議論の基本要素で図式化。~
・さらに限定子、論駁、裏付けの要素が加えられている。
-フェルミ推定(観測データがない場合)
--ココで出てきたものがKPIになったりする。
--アメリカのシカゴには何人のピアノの調律師がいるか?~
([[フェルミ推定 - Wikipedia>https://ja.wikipedia.org/wik...
**変数と尺度 [#d4515f11]
***説明変数と目的変数 [#e86ac9d5]
-説明変数
--統計学において因果関係の原因となる変数。
--回帰分析などで用いられる。
--別名
---予測変数
---独立変数
-目的変数
--統計学において因果関係の結果となる変数。
--回帰分析などで用いられる。
--別名
---結果変数
---応答変数
---反応変数
---従属変数
---基準変数
---被説明変数
***名義尺度(質的データ) [#wfc8bfd2]
-カテゴリに分類するための特性を表す尺度
--順序無し(名義尺度)~
性別、血液型、都道府県など
---カテゴリ分類の意味のみ持つ。
---四則演算に意味は無い。
---[[代表値>#j6ea2557]]に意味は無い。
--順序付き(順序尺度)~
松/竹/梅、優/良/可などの順位
---順位に意味を持つ。
---四則演算、値の間隔に意味は無い。
---[[中央値>#j6ea2557]]のみ意味を持つ。
-データや分類で使用され、~
質的分類は標準化される(日本標準産業分類など)。
***連続尺度(量的データ) [#sfeed30d]
-数値で表し測れる大小の関係がある尺度で、
-比例尺度と間隔尺度は見分けが難しい場合がある。
-0の時に測定対象がnullになるかならないかで判断。
--間隔尺度~
年齢、西暦・元号、セ氏度など(0でも測定対象がある
---一般的な数値データ
---順位に意味を持つ。
---加減算に意味を持つが、~
乗除算に意味は無い。
---[[代表値>#j6ea2557]]に意味を持つ。
--比率尺度~
速度、人口、体重、金額、売上など(0だと測定対象が無い
---絶対的な原点0を持つ数値データ(0≠null)。
---順位に意味を持つ。
---四則演算に意味を持つ。
---[[代表値>#j6ea2557]]に意味を持つ。
***上記以外の分類 [#a23fa09f]
-離散型データ(計数データ)
--数えることができるデータ
--人数、枚数、個数、性別、表・裏、正・誤
-連続型データ(計量データ)
--数えることができず連続的なデータ
--身長、体重、面積、体積、時間、強度、濃度
**解明の仕方 [#o76323f7]
***要因の状況把握 [#i6baf21e]
-鳥瞰的な状況把握
--[[可視化:図表作成>#v5084e84]]
--[[代表値>#j6ea2557]]:~
代表値と呼ばれる特徴量を算出することで、~
図表を用いずには鳥瞰的な状況把握が可能。
-[[名義尺度>#wfc8bfd2]]
--[[可視化:棒グラフなど>#v5084e84]]
--[[代表値>#j6ea2557]]
---カテゴリ数
---最頻値
---など
-[[連続尺度>#sfeed30d]]
--可視化:[[ヒストグラム>統計解析#pa9def8e]]など
--[[代表値>#j6ea2557]]
---平均値
---標準偏差
---最頻値
---など
***要因と結果の関係 [#x7416392]
-比較
--[[名義>#wfc8bfd2]] vs [[名義>#wfc8bfd2]]:[[クロス集計...
--[[名義>#wfc8bfd2]] vs [[連続>#sfeed30d]]:[[ヒストグラ...
-傾向
--[[連続>#sfeed30d]] vs [[連続>#sfeed30d]]:~
[[散布図>統計解析#wbb80cf7]]や[[時系列>#d5519ff0]]等で、...
***複数要因の関係 [#u8c19b84]
-要因が複数の時、要因間の相互作用も考慮すべきであるが、~
変数が3~4個以上になると、前述の手法だけでは困難
-要因と結果を示すデータをコンピューターに与え、~
自動的にその関係を学習させる機械学習などが有効
**定量分析 [#nc96cb71]
***プロセス [#l94ef350]
|>|プロセス|>|>|>|>|>|問題の特定と対策|h
|問題解決|定量分析|>|PF1|→ PF2|→ PF3|>|→ PF4|h
|問題発見フェーズ|Step1:目的の明確化|[[ロジ&br;カル&br;...
|~|Step2:仮説立案|~|~|~|~|~|問題の仮説立案|
|解決策立案フェーズ|Step3:解析準備|~|比較条件を決める&br...
|~|Step4:解析・検証|~|~|~|~|~|意味合いを抽出|
|実行フェーズ|Step5:提言・実行|>|>|>|>|>|[[仮説検証の分...
***[[ロジカル・シンキング>#f37e932a]] [#teeacad8]
-解くよりも解けるように問題を定義する。
-So What / Why So
-ピラミッド・ストラクチャ
--結論(目的に沿う比較軸を選択する。
--比較(データの比較条件を揃える。
--事実(様々なデータ
***構造分析 [#n2f265a0]
数字の大小ではなく構造を理解する。
-[[フェルミ推定>#f37e932a]]
--掛け算での分解:モレ分析(プロセス上の問題を分析
--たし算での分解:マトリクス分析(2属性までバラつきの要...
-ディシジョン・ツリーによる期待値の計算
--意思決定毎の期待値を算出
--デシジョンボックス
---意思決定分岐~
意思決定の分岐
---チャンスイベント~
確率的に利得が変化するイベント
***定量化と定性化 [#oc4189b4]
定性化:定量的なデータを[[可視化>#v5084e84]]&比較して意...
-定性情報
>↓ 定量化 ↑ 定性化
-定量情報
***仮説検証の分析計画 [#zc70ebcd]
-仮説検証の分析計画
--仮説立案
---[[ロジカル・シンキング>#teeacad8]]
---[[構造分析>#n2f265a0]]
--仮説検証の計画立案~
[[定量化と定性化>#oc4189b4]]
--仮説検証で解決策立案
--解決策の具体化計画
-仮説検証:空 → 雨 → 傘
--┌──────────→ 空:結果
--│ 雨:考察(かも)
--└(データ処理)← 傘:次アクション → 具体的な対策
*詳細 [#kd52ffd6]
**分析手法 [#necc2881]
***可視化・分類・予測 [#bd949064]
-データ分析の手法には「[[可視化>#v5084e84]]」「[[分類」「...
-現場では「[[可視化>#v5084e84]]」「[[分類」「予測>#w482fb...
-検証の方法には、[[効果検証、A/Bテスト>データ分析#i0a7619...
***[[変数の数や尺度>#d4515f11]]で分類 [#u9cb0931]
変数の数
-1個
--[[ヒストグラム>統計解析#pa9def8e]]
--[[パレート図>統計解析#ke4c31ef]]
-2個
--量的:[[散布図>統計解析#wbb80cf7]]、[[単回帰分析>統計解...
--質的:[[クロス集計>クロス集計分析]]
-3個以上~
[[目的変数>#e86ac9d5]]の数
--0個
---量的:[[主成分分析 / クラスタ分析>#nef5c535]]
---質的:数量化理論Ⅲ類
--1個~
[[目的変数>#e86ac9d5]]の種類
---量的~
[[説明変数>#e86ac9d5]]の種類~
・量的:[[重回帰分析>統計解析#xc0279dd]]~
・質的:[[数量化理論Ⅰ類>統計解析#qe0c7a27]]
---質的~
[[説明変数>#e86ac9d5]]の種類~
・量的:[[ロジスティック回帰分析>データ解析#f8862775]]や[...
・質的:[[決定木分析>統計解析#lcaf7a28]]
--2個:正準相関分析
***分析の目的で分類 [#k6ccf8ee]
-参考情報A
|分析目的|分析手法|h
|特徴|[[基本統計量>#j6ea2557]]、[[ヒストグラム>統計解析#p...
|分類|[[クラスタ分析>統計解析#df844c06]]、[[判別分析>統計...
|集約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計解...
|予測|[[相関分析>統計解析#bad01586]]、[[回帰分析>統計解析...
-参考情報B
|>|分析目的|分析手法|h
|予測|数値予測|[[回帰分析>統計解析#xc0279dd]]、[[決定木分...
|~|判別|[[ロジスティック回帰分析>データ解析#f8862775]]、[...
|非予測|分類|[[クラスタ分析>統計解析#df844c06]]|
|~|相関|[[アソシエーション分析>データ解析#wec1e143]]|
|~|縮約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計...
-参考情報C
|>|>|分析目的|分析手法|h
|>|>|絞り込み|[[クロス集計>クロス集計分析]]|
|予測|>|関係の強弱を知る|[[相関分析>統計解析#bad01586]]|
|~|影響度を測る|数値予測|[[決定木分析>統計解析#lcaf7a28]]...
|~|~|判別|[[決定木分析>統計解析#lcaf7a28]]、[[ロジスティ...
|>|非予測|分類|[[クラスタ分析>統計解析#df844c06]]|
|~|~|相関|[[アソシエーション分析>データ解析#wec1e143]]|
|~|~|集約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統...
|>|>|検証|[[A/Bテスト>#wa61cb7f]]、コホート研究、ケースコ...
|その他|>|推論|ベイズ推定|
|~|>|空間把握|トポロジカルデータ解析、スパースモデリング|
|~|>|非構造化|テキスト・マイニング(形態素解析)|
***分析のプロセスで分類 [#a5b97006]
||問題発見、問題認識(異常は発生していないか?)|原因発見...
|見える化|[[ヒストグラム>統計解析#pa9def8e]]、[[時系列>#d...
|統計的手法|([[目的変数>#e86ac9d5]]が[[質的データ>#wfc8b...
***その他、利用頻度、関連 [#ab1d4c7b]
-利用頻度
|順位|手法|h
|1|[[クロス集計>クロス集計分析]]|
|2|[[クラスタ分析>統計解析#df844c06]]|
|3|[[回帰分析>統計解析#xc0279dd]]|
|4|[[決定木分析>統計解析#lcaf7a28]]|
|5|[[相関分析>統計解析#bad01586]]|
|6|[[ロジスティック回帰分析>データ解析#f8862775]]|
|7|[[因子分析>統計解析#c9b821dc]]|
|8|[[アソシエーション分析>データ解析#wec1e143]]|
|9|[[判別分析>統計解析#ke57e386]]|
|10|[[主成分分析>統計解析#f800acad]]|
-組合せパターン~
多くの目的に有効な3つのパターン。
--【パターン1】~
アンケートからのA/Bテスト。など。
---分類:[[因子分析>統計解析#c9b821dc]]
---影響度を測る:[[回帰分析>統計解析#xc0279dd]]
---検証:[[A/Bテスト>#wa61cb7f]]
--【パターン2】~
F1層が商品を買うか買わないか。など。
---分類:[[クラスタ分析>統計解析#df844c06]]
---絞り込み:[[クロス集計>クロス集計分析]]
---影響度を測る:[[ロジスティック回帰分析>データ解析#f886...
--【パターン3】
---絞り込み:[[クロス集計>クロス集計分析]]
---関係の強弱を知る:[[相関分析>統計解析#bad01586]]
-各分析手法の関連
散布図 ─> 函数 ─> 回帰分析 ─┐
条件付き確率 ┬─> ベイズ法 ─┴─────┬─> 判別分析 ─> 機械学習
└─> アソシエーション分析 ─┘ (判別モデル)
↑
深層学習
>※ [[ベイズ法はトップダウン方式、深層学習はボトムアップ方...
**[[可視化>#v5084e84]]・[[代表値(統計量)>#j6ea2557]] [#...
***可視化 [#v5084e84]
-様々な
--[[統計表>統計解析#t259dbee]]
---棒グラフ, 円グラフ, etc.
---[[ヒストグラム>統計解析#pa9def8e]]
---[[パレート図>統計解析#ke4c31ef]]
---[[散布図>統計解析#wbb80cf7]]
--[[確率分布>統計解析#efae792f]]
>を利用する
-図表の例
--[[品質マネジメント>PMP:品質マネジメント#e9baba6e]]
--...
***関係の見方 [#v27c2ad9]
-[[可視化>#v5084e84]]する。
--2つの[[ヒストグラム>統計解析#pa9def8e]]から
--1つの[[散布図>統計解析#wbb80cf7]]を生成できる。
-[[共分散・相関係数>統計解析#bad01586]]の指標が得られる。
***代表値(統計量) [#j6ea2557]
母集団から無作為抽出されたデータ(標本)から~
母集団推定のために計算で生成される数字を表す。
-代表値(統計量) の特徴を数値にまとめるもの
-代表値では分布を見なくても、分布の特徴を把握できる
-グラフによって代表値が変わってくる~
(棒グラフではカテゴリ数なども代表値になる)。
-一般的には、以下の代表値がよく用いられる
--[[分布の中心>#xcffe56e]]
--[[分布のバラつき>#o1f7e894]]
***分布の中心 [#xcffe56e]
-位置を示す~
偏りや外れ値がある場合、中央値と最頻値は~
平均値より有意義(直感に近い値を示す)
--平均値:分布の中心傾向を表す値~
分布が偏っている場合、外れ値が存在する場合には解釈に注意
---相加平均(算術平均):~
一般的に平均といえばこれ。~
すべての変量の和をデータの総数で割った値で表す。
---相乗平均(幾何平均):~
伸び率の平均を求めるような場合~
---調和平均:~
速度や生産性など単位量あたりの大きさの平均を求める場合
---加重平均:~
観測する値に重みを加えた平均値で表す。~
人数が違うクラスAとBの平均点から学年の平均点を出す
---移動平均:~
時系列で大きい変動を見るのに利用される。~
一定期間の間隔(=ウィンドウサイズ)を定め、~
その間隔内で計算した平均値で表す。
(パフォーマンスカウンタなどで使われる)
--中央値(メジアン):分布を下半分と上半分に分ける値~
偏りや外れ値がある場合、平均値より有意義であることがある。
--最頻値(モード):頻度が最も高い値~
偏りや外れ値がある場合、平均値より有意義であることがある。
-表計算ソフト(Excel、LibreOffice Calc)では以下の関数が...
--平均値:AVERAGE関数
--中央値:MEDIAN関数
--最頻値:MODE関数
***分布のバラつき [#o1f7e894]
-範囲、カテゴリ数~
データの最大値と最小値の差(レンジとも呼ぶ)を表す。
-四分位・パーセンタイル・箱ひげ図~
分布(中央値からの散らばり)を表現~
--四分位~
四分位数の定義はいくつかあるが、文科省による定義は、~
「全データを順に並べて四つに等しく分けたときの三つの区切...
---第n分位~
・第1四分位 (Q1)~
・第2四分位 (Q2) = 中央値~
・第3四分位 (Q3)
---四分位xx~
・四分位範囲 = Q1~Q3~
・四分位偏差 = 四分位範囲 / 2~
--パーセンタイル~
= 四分位を拡張する
---nパーセンタイル~
---25パーセンタイル = 第1四分位 (Q1)~
---50パーセンタイル = 第2四分位 (Q2)~
---75パーセンタイル = 第3四分位 (Q3)~
--箱ひげ図~
カテゴリ毎に等、狭いスペースに~
複数の分布を並べて表現することが可能
---四分位範囲(Q1 - Q3)に箱を描く~
---データのある所まで線を描く(MAX:四分位範囲の1.5倍)~
---線の外にデータがある場合、その位置に点を打つ。
-[[分布を指標化した数値>統計解析#taf4df67]]
**[[分類>#nef5c535]]・[[予測>#b33322a3]] [#w482fb5b]
***分類 [#nef5c535]
-手順
++分類によって当たりをつける
++対象を絞り込む
-手法
--[[クラスタ分析>統計解析#df844c06]]
--[[主成分分析>統計解析#f800acad]]
--[[因子分析>統計解析#c9b821dc]]
***予測 [#b33322a3]
-手順
++予測によって影響度を測る
++先を読む
++効果を検証する
-手法
--関係の強弱を知る
---相関分析
--影響度を測る
---ロジスティック回帰分析
---(重)回帰分析
--先読み
---[[判別分析>統計解析#ke57e386]]
---[[MT法>AIの活用例#nc55395f]]
--[[傾向から予測>#mcca5dca]]する。
**結果の報告 [#s99f56d5]
***記述/可視化方法 [#c7ebfd91]
-要件①:調査分析の前提条件の明示~
明示しない場合、結果を誤って解釈する事がある。
--目的、用語の定義
--データソース(期間、対象者など)
--外在的要素・状況(社会情勢、制約条件など)
-要件②:分析プロセスの明示~
プロセスが分析結果に影響を及ぼす事がある。
--収集方法
--分析手法
-要件③:適切な表現
--情報を正確に伝える指標設定(代表値など)
--示したい事柄に適した表、グラフの種類
--図表の部位の明記(タイトル、凡例、軸、単位、出典等)
***解釈の注意点 [#j23b6ecc]
[[上記>#c7ebfd91]]を踏まえて解釈する。
-パターン
--不適切なサンプル
---母集団を代表していない標本。
---偏りのある標本、少ない標本
--グラフの作為
---基準点、単位、期間の異なる比較。
---視覚的な錯覚を生じる表現など。
--定義の違い~
定義の違いを無視して比較する場合など。
--認知バイアス~
ヒューリスティックス(経験則)によるバイアス
---記憶や想像のし易さによる利用可能性ヒューリスティックス
---典型事例を全体像として錯覚する代表ヒューリスティックス
--[[確証バイアス>認知バイアスのパターン#wbeb08d5]]~
仮説や信念を検証する際にそれを支持する情報ばかりを集め、~
反証する情報を無視または集めようとしない傾向のこと。
-例
--情報の偏り(不適切なサンプル
---母数が少ない。~
女性の大学院進学率(3人だけ)
---年賀状を出す人~
平日昼間の固定電話による世論調査(高齢者)
--軸の操作(グラフの作為
---軸の基準点、データの単位、データの取得期間
---変化を解り易く伝える反面、誇張にもなる。
--ロジック展開のウソ~
正規雇用社員比率が上がった理由は非正規雇用社員の大量退職。
---比率では解らない(実数を確認する必要がある)。
---実数の変化が何故起きたか?も確認する必要がある。
--錯覚・思い込み
---条件付き確率
|-|X|Y|h
|罹患率|0.1%|80%|
|致死率|50%|0.001%|
|罹患&致死率|0.05%|0.0008%|
---...
**分析の発展 [#b6b105e5]
***順問題と逆問題 [#jb893ab1]
データ分析における順問題と逆問題~
(定義は実際曖昧で、時代や学問分野によって異なることが多...
-順問題:~
原因から試行錯誤しながら結果を探索
--原因から結果を推定、[[数理モデル>#v58cff2a]]を使った予測
---“構造”から“機能”を発見する。
---確率や、基礎研究や基礎医学は順問題。
---推論の結果が知識 → 知恵へと変わっていく([[DIKW>データ...
--必要なもの
---データ(入力用)
---モデル~
・[[数理モデル>#v58cff2a]]~
・[[ベイズ統計の推論モデル>ベイズ統計#s6513f07]]~
・[[フェルミ推定>#f37e932a]]~
・[[ロジカル・シンキング>#f37e932a]]~
・通常のシミュレーション~
-逆問題:~
結果から、原因を探求
--結果から原因を推定、データから[[数理モデル>#v58cff2a]]...
---“機能”に見合った“構造”を探す
---ある現象に着目して観測データから、~
その原因や現象を支配しているパラメタなどを決定する問題。
---通常、原因やパラメタなどは直接的に決定することが不可能...
利用できる間接的な観測データから推定することしかできない。
--必要なもの
---データ(分析用)
---勘と経験と度胸(KKD)
---モデル~
・[[推論統計の統計モデル>統計解析#eabd2473]]~
・[[ベイズ統計の経験モデル>ベイズ統計#s6513f07]]~
・逆問題解析(非破壊検査、最適形状作成、最適制御)
-AUOODA(プロセス)~
[[OODA>高度午前 - システム戦略#v0959929]]が基礎で順問題と...
2プロセス併用して、他方の内容を検証する方法もある。
--順問題
---A (arrange、探索)~
・データ群から原因となる事象を測定(Measure)~
・試行錯誤で探索し、離れたデータ群をぶつけて共通点を探す。
---U (understand、学習 > 理解)~
・データを十分に理解し、事象を学習~
・新しい列を作りながら設計(Design)し、情報化。
---O (observe、学習 > 観察)~
情報から規則性、あるいは、いつもとは違う“何か”を観測(Mon...
---O (orient、モデル化)~
規則性、因果関係、相関関係などをモデル化しアルゴリズム(A...
---D (decide、推論)~
・可視化・分類した分析結果は単なる事実~
・主観的に推論(ナレッジ化)するための解析(Analytics)。
---A (act、実践)~
推論で得られた真実を明確なメッセージに変える(ビジネスモ...
・誰に、どのような価値を提供するか【Who、What】~
・そのために、どんな業務構造や取引先との関係が必要か【How...
・どのような販売ルートと価格設定で、どれだけ収益を上げる...
--逆問題
---A (act、経験値・肌感覚)~
ビジネス(モデル)上の経験値・肌感覚のデジタル化
---D (decide、可視化)~
デジタル化した経験値を可視化していくことで解析(Analytics...
---O (orient、モデル化)~
経験値を可視化する中で、アルゴリズム(Algorism)を見抜き...
---O (observe、観察・検証)~
数値化したものの正当性を得るために観察(Monitor)し、検証...
---U (understand、理解)~
・なぜ、このような結果になるのか、その原因を理解する。~
・単なる原因だけでなく、真の目的や意図(Design)をくみ取...
・必要に応じデータに隠れている、人のたくらみや下心も読み...
---A (arrange、原因への対策)~
・浮き上がった原因への対策(Countermeasure)を施し、~
・原因に繋がる事柄を整頓(Arrange)していく。
***データ分析と数学 [#yae9dbfa]
データ分析の手段と数学の間にある関係
|分析の手段|関連する数学の例|h
|可視化|確率分布、統計、集合論、線形代数、&br;行列(画像...
|分類|群論、統計|
|予測|解析(フーリエ解析など)、確率、統計、&br;行列の固...
|判別|代数、方程式論、アルゴリズム論|
|推論|ベイズ推定、微積分|
|トポロジカルデータ解析|幾何、トポロジー、多様体|
|スパースモデリング|トポロジー、グラフ理論|
***数理モデル [#v58cff2a]
-推定や予測をする。
--物事を説明するのに必要な数学的なフレームワーク。
--データの生成プロセスをおおまかに理解するため。
-モデルの仮定や検証
--モデルの妥当性、モデルのパラメータの正確な推定、モデル...
--テストに使われるデータは分析対象の母集団からランダムに...
-分類
--数理モデル(決定論的・確率論的モデル~
必ずしも不確実性を含むわけではない
--[[統計モデル(非決定論的モデル>統計解析#eabd2473]]~
---不確実性を明示的に取り込んでいく
---不規則性を確率の概念をもって表現する
--構造
---ランダム
---一定
---線形関数(1次関数
---2次関数
---n次関数
---指数関数
---正規分布
--指向
---理解指向モデル~
データ生成の原理・仕組を知る事に焦点を合わせたモデル。~
・数理構造から知る~
・推定したパラメタ値から知る~
・推定したパラメタ値と内部構造から知る~
・パラメタ値を変えてシミュレーションする~
---応用指向モデル~
現実の事象から数学化、データを生成して現実での応用に焦点...
・回帰モデル~
・分類モデル~
・生成モデル~
***想定外の軽減 [#k2617965]
想定外は予測しにくいため。
-信頼性の高いデータを使う
--信頼性 = 完全性 + 正確性 + 正当性
--正当性 = 合理性 + 社会通念 + 経験則 + 客観性
-ハインリッヒの法則を応用する~
1件の重大な事件・事故の背景には、
--29件の軽微な事件・事故があり
--300件のヒヤリ・ハットした事象がある
-[[“トライアングル”を成立させない>SC:脅威#e5d57324]]
--動機 :[[明確な要求(デマンド:Demand)>#neb1fb65]]
--機会 :モニタリング
--正当化:[[顕在化した感情(エモーション:Emotion)>#neb1...
-適切なデータ分量を知る
--1次データは臨場感のあるデータで生々しいが、
--2次データは脚色されている可能性も高い。
***心理学要素 [#v92546d1]
心理学要素が必要になることもあり、~
画一化・標準化されたデータ分析を難しくしている。
-様々な[[認知バイアス>認知バイアスのパターン]]
--同調効果(ミラー効果
--内集団バイアス
--リスキーシフト
--ハロー効果
--フレーミング効果
--アンカリング効果
--プライミング効果
--バンドワゴン効果・アンダードッグ効果
--ツアイガルニック効果、スノッブ効果、ウインザー効果
-プロパガンダ・テクニック
--エコーチェンバー~
--感情への訴えかけ
--衆人に訴える論証
--恐怖に訴える論証
--ヒトラーに例える論証(ゴドウィンの法則
--虚偽報道、フェイクニュース
--敵対的メディア認知
-発生論の誤謬
--権威に訴える論証
--伝統に訴える論証
--新しさに訴える論証
***人の行動・感情(非構造化データ [#neb1fb65]
-データの種類
--明確な要求(デマンド:Demand)のデータ
---構造化、非構造化データ
---モノを買ったりサービスを利用したり
---デマンドドリブン型のシステム
--意図のない単なる事象(イベント:Event)のデータ
---構造化、非構造化データ
---意図を持たない、単なる流れによって発生する
---イベントドリブン型のシステム(レコメンド
--顕在化した感情(エモーション:Emotion)のデータ
---非構造化データ
---喜怒哀楽など、人の感情が顕在化したもの
---エモーションドリブン型のシステム
--潜在的な心理(マインド:Mind)のデータ
---非構造化データ
---本人も気付いていない(潜在的)人の意識の状態や変化
---マインドドリブン型のシステム
-利用例
--退職傾向の分析
--...
***モデルとシミュレーション [#x1491573]
-社会課題の解決
--感染症対策、企業経営、金融リスク、電力市場の自由化
--データだけでは難しい、事前に実験・検証が困難
---データそのものは常に完全ではない。
---すべてのデータが集まるわけではない。
---従来型の統計分布や予測モデルでは僅かな事象を反映しない。
---人間、社会、経済は実験が非常に難しい対象
---現状のデータから「外挿」を推定する必要もある。
--モデルに基づく課題解決が重要(モデル自身も不完全)
---対象システムの主要な要素関係を抽出
---コンピューター上でモデル化
---シミュレーション~
・課題をコンピューター上のモデルで再現し、~
・解決策の効果をモデルを使用して評価する。
***ビッグデータの法則 [#d7eb9f5c]
-95%は信頼できない
--日本国債の金利に影響する動きの早い海外保有量は全体の5%...
--ブランドに関するアンケートで役立つコメントは約5%
--会社を引っ張っていく影響力のある人材は5%
--今後はデータを如何に捨てるかが重要に。
-パレートの法則からロングテールの法則へ~
分布の「右側」や「左側」が重要になってきている(ビジネス...
--付加価値が高い高級品の売り上げは伸びている。
--IT界隈のBig5、ソシャゲの廃課金者
--リスク管理(ネット炎上、ES/CS)
--イノベーター理論の左右の5%への注目
--クラウド・ビジネス(低価値・低頻度の事業化)
-振り子現象
--データを重視し過ぎると振り子現象などで分析麻痺が起こる。
--データとは正反対の直感が重視されるようになる。
-業界によって様々な
--ベンフォードの法則~
自然界に出てくる多くの数値の最初の桁の分布が、~
一様ではなく、ある特定の分布になっている、という法則
--モンモール数~
完全順列の総数、プレゼント交換がうまくいく確率
--[[ネイピア数>DS:数学的基礎 - 微分・偏微分#adabdb73]]~
最適停止問題、最適停止問題の一種の秘書問題
--黄金比( 1:( 1 + √5 )/ 2 ≒ 1:1.62 )~
フィボナッチ数列で、ある程度数が大きくなると、~
数列の隣り合う数の比が限りなく黄金比に近づいていく。~
---為替の大きな流れが約162カ月で変わるという説
--白銀比(1:√2 ≒ 1:1.414)~
長方形の長辺を中点で2分割してできた長方形が、~
元々の長方形と相似であるようにした辺の比
---A4判、A5判など用紙の縦横比は白銀比
---日本の美術や建造物で用いられ日本人の感性に合うと言われ...
--「78:22」の法則
---空気の窒素含有率
---体内の善玉菌と悪玉菌の比率
*活用 [#tf82d72c]
**パターン [#k2a1f1e1]
***[[クロス集計>クロス集計分析]]を用いて[[離散分布>統計解...
簡単に言うと、
-[[集計結果を二次元表で見る。>クロス集計分析#pa81e392]]
-[[ピボット / アン・ピボット>クロス集計分析#m6add619]]
-[[ドリルダウン、ドリルアップ、ダイス、スライス、ドリルス...
などを行う。
集計元のデータが連続尺度である場合は、
>[[ヒストグラム>統計解析#pa9def8e]]などを使用して
カテゴリ毎の分布を確認しても良い。
***[[ヒストグラム>統計解析#pa9def8e]]を用いて[[連続分布>...
年代別来客数などを例に。
-[[可視化>#v5084e84]]の活用
--標準級間隔を設定。~
例えば、年代別来客数なら、~
10歳毎の世代に区切る。
--以下が読み取れる。
>
+どんな種類がある?
+最も多い種類はどれ?
+大半のサンプルはどこ?
+最小値はどれぐらい?
+最大値はどれぐらい?
+データ不備はある?
--特徴の異なる様々な分布がある
---ピーク(峰)の数~
異種データの混在の可能性に注意
---ピーク(峰)の偏り~
平均値を解釈する際に注意
---外れ値の有無~
データ不備や異常値の可能性に注意
-[[代表値>#j6ea2557]]の活用~
分布の特徴を少ない情報で伝えられる
***[[散布図>統計解析#wbb80cf7]]で傾向を見たり予測をしたり...
***時系列等で傾向を見たり予測をしたり。 [#d5519ff0]
-[[クロスセクションデータ>統計解析#rd258818]]~
実数同士では正しい比較にならない場合は、~
規模の影響を取り除いた比率で見る([[例>統計解析#s88787fc]...
--構成比~
総数とその内訳の比率
--相対比
---異なるデータを分子、分母に取った比率
---(人口や面積など)各集団の大きさの影響を除去
>※ 余談:分母が同じで足して100%になる2つの比率は-1の相...
-[[時系列データ>統計解析#pcd4198d]]
--観測頻度
---年次データ(暦年、年度
---半期データ(暦年、年度
---四半期データ(暦年、年度
---月次データ
---週次データ
---日次データ
---時間データ
---不規則間隔データ
--フローデータとストックデータ
---フローデータ~
ある期間内の発生量や変化量~
(例)平成25年の1年間の出生数
---ストックデータ~
ある一時点の状態をとらえたもの~
(例)平成26年10月1日現在の人口
---例~
・出生数と人口~
・販売台数と保有台数~
・...
--名目値と実質値~
金額を扱う統計で使われる。
---名目値~
その時その時の価格により表した金額
---実質値~
ある基準時の価格により表した金額
名目値
= --------------
価格指数
--季節性の調整
---季節性の例~
・夏:クーラー代、ビール消費~
・冬:暖房費、鍋材料~
・新学期:教育費~
・ボーナス時期:高額商品
---季節性を調整する方法~
・簡単な方法:前年同月比
当月の値
= -------------- - 1
前年の同月の値
・高度な方法:季節調整(季節変動を除去 )~
Excelの[データ]タブから[データ分析]をクリックし、~
ダイアログボックスで[移動平均]を選択肢、~
月次データの場合、区間を[12]に設定する。
---見方~
季節調整値の傾向の変化を見る。~
・前月比~
・前年同月比~
・前年同月の前月比
--季節製以外の変動を考慮~
コレ等のデータ特性を見極めた上で予測を行う。
時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】...
--同時相関と相互相関~
(季節性は除かれているものとする)
---同時相関~
・同時点での相関=2つの時系列データを並べた場合~
・可処分所得と消費支出の相関係数 = 0.46~
・[[擬似相関>統計解析#bad01586]]~
・双方の時系列に単調トレンドがある時、相関があるように...
・前期比などに変換してから相関係数を計算する(→ 相関な...
---相互相関~
時間差での相関
--時系列予測
---多項式回帰による予測~
トレンドが時間の関数~
・はっきりしたトレンドがある場合、時間の多項式を当てはめ...
・1次関数が良く用いられ、高次の多項式は望ましくない。~
・大きな構造変化が起こるときにはうまく予測できない。
---自己回帰モデル(auto-regressive model)~
線形予測モデル(linear prediction model)による予測。~
実現値となる変数がその変数の過去の値と確率項に線形に依存。~
・今現在の値を現在より前の値を重みづけして足し合わせる(...
・過去の変数を用いることで精度を高める。どのくらい遡るか...
・トレンドがある場合には適用できない。
---多くの時系列を活用した予測。~
1つの時系列だけでの予想は困難。相互相関を活用。
--[[回帰分析>統計解析#a421ea17]]の応用~
[[説明変数>#e86ac9d5]] [𝑋] に時間 [𝑡] を適用
--より高度な時系列分析
---多量の時系列データを使った分析~
・パネルデータの分析~
・高頻度観測データの活用
---時系列の背後にある潜在要因の推定。~
・トレンドの推定~
・共通成分の推定
**ビジネス上での事例 [#i0a7619e]
***A / Bテスト [#wa61cb7f]
-ランダム化比較試験
-ビジネス上での活用では効果検証が重要になる。
--広告デザインの売上への効果
--ウェブサイト・コンテンツのクリック率への効果
--ワクチンの感染病予防率への効果
-KGIと施策の間の関係(施策効果) を調査する。
++対象の集団から小集団(標本)を2つ取り出す。
++効果検証をしたい施策A/Bをそれぞれの標本に適用する。
++それぞれの標本においてKGIを測る。
++両施策によるKGIの分布を比較し、有意な効果があるかを判断...
>※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公...
両標本は全ての要因について同一である必要がある(→ ラン...
-事例
--デザイン変更の効果測定
--クーポン配布の効果測定
***アンケート [#o9b07afc]
肝臓癌死亡率ワースト1からの脱却の[[PPDAC>BI / AI#ef5f472...
-P (problem、問題):
--肝臓癌死亡率ワースト1
--肝炎ウイルス陽性者が治療を受けていないケースが多い
-P (plan、計画):~
治療を受けるまでの意思決定過程における特徴を把握する。
-D (data、データ収集):~
受療者及び未受療者に対してアンケートを実施。
-A (analysis、分析):
--医師が早い段階から説明を行った方が受療率が高いことが判明
--アンケートの分析には[[クロス集計分析>#y3de4a0a]]などを...
-C (conclusion、結論):~
医師が早い段階から受療の効果等について説明する取り組み
***QC手法の適用 [#j2bf684e]
<以下、一変量解析>
-基本統計量とヒストグラム
--[[基本統計量>#j6ea2557]]
--[[ヒストグラム>統計解析#pa9def8e]]
-時系列図([[管理図>PMP:品質マネジメント#w0686daa]]
--どう計画するか?
---仮説:時系列で値に変動がある。
---目的の数値化
--どう読めばいいか?
---特徴:比較結果
---意味合い:次の仮説
--EXCELでどう作るか?
---グラフ化するデータの範囲を選択
---挿入 → 折れ線 → マーカー付き折れ線を選択
-[[パレート図>統計解析#ke4c31ef]]
<以下、二変量解析>
-散布図と単回帰分析
--[[散布図>統計解析#wbb80cf7]]
--[[単回帰分析>統計解析#xc0279dd]]
-[[クロス集計>#y3de4a0a]]とその応用
***[[テスト分野>テスト分野の理論体系(DS)]] [#a990a43c]
***データ解析 [#y3de4a0a]
-[[クロス集計分析>クロス集計分析#mfbeff94]]
-[[アソシエーション分析>データ解析#wec1e143]]
***[[統計解析>統計解析#v601f98f]] [#jbf5d122]
***[[ビッグデータ>ビッグデータ#c12ecfbb]] [#k1b0f374]
**コンテクストやバイアス [#d3808a0c]
データがどうやって生成されているのか、そのコンテクストや...
***社会科学データには主観が入り込みやすい [#k46e0d06]
計測単位が決まっていないため、計測する人の解釈やバイアス...
***全てのデータは加工済み [#o8b59c42]
全てのデータというのは実は加工されている。
-なぜそれが収集されたのか
-どのように収集されたのか
-どのように加工されたのか
***データは集めた人の声を代弁する [#z0623afa]
-データが自分自身で話すことはない。
-大量のデータを使っても、
--客観的で、コンテクスト
--因果関係、バイアス、選択、不完全性
>と言った問題は、解決できない。
-[[統計を使ってウソをつく方法からの学び>統計解析#i6f71d83]]
***データは人間の衝突を解決しない [#cec937cd]
データに対する盲信は、そのデータに対する信用をも無くす。
*参考 [#h6d7caaf]
**データ分析 [#x90f1963]
***[[データ解析]] [#r77a4921]
xx学とか知らなくても、~
表計算ソフトなどで取り敢えずできる系
***[[統計解析]] [#q8dfb2b7]
≒統計学、データ分析の原点
***[[ベイズ統計]] [#h6b70cfa]
最近流行りの機械学習・深層学習の基礎
**[[非構造化データ処理>要素技術#qa6076ee]] [#p79a1ae5]
***[[言語処理>要素技術#g4e5060c]] [#pbf26aad]
***[[音声処理>要素技術#c7baa14d]] [#s933273d]
***[[画像処理>要素技術#f0208031]] [#m58a154e]
**[[BI / AI]] [#d5a61c1c]
***[[ビジネス インテリジェンス(BI)]] [#p7d1e003]
***[[人工知能(AI)]] [#ae00e827]
**データサイエンティスト協会 [#a60a7c8f]
-データサイエンス100本ノックをやろう~
(WindowsにDocker Desktop入れよう)~
https://www.cresco.co.jp/blog/entry/14446/
**gacco [#i5d5bea4]
-機械学習/統計学/データサイエンスの無償gacco動画、全ま...
【2021年秋版】:AI・機械学習の独学リソース(1/3 ページ) ...
https://atmarkit.itmedia.co.jp/ait/articles/1911/07/news0...
**総務省 [#s7876825]
-データサイエンス・スクール/ビジネスに役立つ統計講座~
https://www.stat.go.jp/dss/
--ビジネスに役立つ統計講座
--プレゼングラフ作成のポイント
--出来る人のビジネス活用術
--あなたの統計力
--データサイエンス・オンライン講座
--統計データ分析コンペティション
-データサイエンス・スクール/ビジネスに役立つ統計講座~
https://www.stat.go.jp/dss/online_index.html
--社会人のためのデータサイエンス入門|総務省統計局~
https://gacco.org/stat-japan/
--総務省統計局 データサイエンス・オンライン講座~
---第2弾「社会人のためのデータサイエンス演習」~
https://gacco.org/stat-japan2/
---第3弾「誰でも使える統計オープンデータ」~
https://gacco.org/stat-japan3/
**DIGITAL X [#ob7317f8]
Column 学校では学べないデジタル時代のデータ分析法~
https://dcross.impress.co.jp/industry/column/column201709...
-【第1回】デジタル時代はなぜ“データ分析力”を求めるのか~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第2回】データ分析で重要なのは「列(属性)」を増やすこと~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第3回】ビッグデータの分析は客観的から主観的へ、ベイズ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第4回】「可視化」でビギナーズラックもAmazonの戦略も理...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第5回】「分類」の手法を誤ると正しい姿はみえてこない~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第6回】データに潜む関連性を見いだし将来を予測する~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第7回】未解決な事象の分析に威力を発揮するベイズ推定~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第8回】正しい分析に向けデータの特性と関係性のパターン...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第9回】データの関係性パターンとしての「構造」と「空間」~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第10回】人の行動・感情を知るために必要な非構造化データ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第11回】データ分析の王道としての順問題と逆問題を理解す...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第12回】データ分析で失敗しないための5つのポイント~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第13回】データ分析における心理的側面の深いつながり~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第14回】データ分析にはリスク管理・危機管理が不可欠~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第15回】データ分析には数学的・科学的手法を生かすセンス...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第16回】データが持つ“重力”を活用するために乗り越えるべ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第17回】データを“金”に変えるにはメッセージが不可欠であ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第18回】データ分析に不可欠な発想力は日々の行動で磨ける~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-ビッグデータの法則
--【第19回】その1=95%は信頼できない~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第21回】その2=振り子現象、すべては繰り返す~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第22回】その3=数字の魔力【第22回】~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第23回】その4=広がる格差、なぜ格差が広がっているのか...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第20回】元号は時代のブランド、新元号「令和」をブランド...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第24回】分析の『5大アセット』が専門家にも負けない知見...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-お金の分析
--【第25回】その1=メタデータしか分析できない投資信託は...
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第26回】その2=ベストな金融機関を選べるか~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--その3=年代別モデル~50歳からのお金のサバイバル術
---【第27回】〔前編〕~
https://dcross.impress.co.jp/docs/column/column20170926-0...
---【第28回】〔後編〕~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第29回】解説編=ライフイベントの辞書から年代別モデル...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-ヘルスケアの分析
--【第30回】その1=ストレス・肥満・フレイルを防ぐ飲み物・...
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第31回】その2=健康食品・サプリによる予防~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第32回】その3=ヘルスケアの辞書~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第33回】人生の岐路に役立つヒトに関する分析~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第34回】時系列の分析で新たな意味を見いだせるメタデータ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第35回】メタ分析で隠れた真実をあぶり出す~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第36回】データ分析と心理学の深いつながり~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第37回】分析では複数の手法の組み合わせが大切~
https://dcross.impress.co.jp/docs/column/column20170926-0...
**Qiita [#kd8b5336]
-データはほんとうに「真実」なのか~
https://qiita.com/KanNishida/items/afe0d088bda503115fb1
***[[統計解析>統計解析#kd8b5336]] [#h6ae3ac3]
***[[ベイズ統計>ベイズ統計#f92c5a25]] [#o32c2295]
終了行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>データサイエンス力]]
*目次 [#d6c76a2d]
#contents
*概要 [#j821ec1b]
**分析の基本 [#d631e766]
***考える順序 [#e9db9c3c]
作業順の逆順で考える。
+結果の想定~
~
( ↓ そのタメに必要なモノ ↓ )~
~
+必要な図表の想定~
~
( ↓ そのタメに必要なモノ ↓ )~
~
+必要なデータの「集計」(結果)の想定~
~
( ↓ そのタメに必要なモノ ↓ )~
~
+必要なデータの「収集」(結果)の想定
***属性を見出す [#l0dc28d8]
属性が分析の基準になるため、~
新たな「列」をどう作るかが鍵。
***関係性を見出す [#p346c99f]
-現状のデータ(数字)を
--分解して細かな要素に分け、
--性質、構造などを明らかにする
>ことで、
--[[要因(1変数)の状況把握>#i6baf21e]]と
--[[要因と結果(2変数)の関係>#x7416392]]として
>解明する。
-足し算やかけ算、log、ルート、微積分など~
2つ以上の事象の関係性を、数学を駆使して、あぶり出す。
-偽の因果関係を見抜く6つのステップ
--【基本】「AならばBである」という関係の必然性を追求する
--【反証】「AならばBである」という関係は偶然と仮定する
--【裏】「AでなければBではない」と“裏”を考える(!原因→!...
--【逆】「BならばAである」と“逆”にしてみる(結果→原因)
--【第3の要因】新しい要因を想定する(交絡因子)
--【実験】実際に試験する
***関係性パターン [#l3a1e0f9]
-相関
--集合
---前提にMECEという状態が必要
---[[分類の手段であるクラスタ分析、因子分析、主成分分析>#...
--位置~
[[SWOT>PMP:共通 - OPM - ポートフォリオ・マネジメント#je8...
--類似~
相関関係を表すデータが散らばったグラフから類似の関係性を...
-変化
--展開~
分からないことを観測データから推論
---[[ベイズ推定>ベイズ統計]]
---[[ロジカル・シンキング>#f37e932a]]
---[[フェルミ推定>#f37e932a]](観測データがない場合)
--循環~
[[PDCA>データサイエンティスト#ef5f4720]]より、[[OODA>#jb8...
--因果~
[[ロジスティック回帰分析>データ解析#f8862775]]や[[判別分...
-構造~
代数の領域
--階層、ネットワーク
--T字、逆T字
-空間~
幾何の領域
***展開、推論 [#f37e932a]
-ロジカル・シンキング
--手法およびキーワード
---MECE
---So What / Why So
---ピラミッド・ストラクチャ
---ロジック・ツリー
---フレームワーク
--三角ロジックとトゥールミンモデル
---三角ロジック~
事実・データ(根拠)を基に、自分なりの理由付け (解釈)を...
---トゥールミンモデル~
・結論、データ、理由付けの3つを議論の基本要素で図式化。~
・さらに限定子、論駁、裏付けの要素が加えられている。
-フェルミ推定(観測データがない場合)
--ココで出てきたものがKPIになったりする。
--アメリカのシカゴには何人のピアノの調律師がいるか?~
([[フェルミ推定 - Wikipedia>https://ja.wikipedia.org/wik...
**変数と尺度 [#d4515f11]
***説明変数と目的変数 [#e86ac9d5]
-説明変数
--統計学において因果関係の原因となる変数。
--回帰分析などで用いられる。
--別名
---予測変数
---独立変数
-目的変数
--統計学において因果関係の結果となる変数。
--回帰分析などで用いられる。
--別名
---結果変数
---応答変数
---反応変数
---従属変数
---基準変数
---被説明変数
***名義尺度(質的データ) [#wfc8bfd2]
-カテゴリに分類するための特性を表す尺度
--順序無し(名義尺度)~
性別、血液型、都道府県など
---カテゴリ分類の意味のみ持つ。
---四則演算に意味は無い。
---[[代表値>#j6ea2557]]に意味は無い。
--順序付き(順序尺度)~
松/竹/梅、優/良/可などの順位
---順位に意味を持つ。
---四則演算、値の間隔に意味は無い。
---[[中央値>#j6ea2557]]のみ意味を持つ。
-データや分類で使用され、~
質的分類は標準化される(日本標準産業分類など)。
***連続尺度(量的データ) [#sfeed30d]
-数値で表し測れる大小の関係がある尺度で、
-比例尺度と間隔尺度は見分けが難しい場合がある。
-0の時に測定対象がnullになるかならないかで判断。
--間隔尺度~
年齢、西暦・元号、セ氏度など(0でも測定対象がある
---一般的な数値データ
---順位に意味を持つ。
---加減算に意味を持つが、~
乗除算に意味は無い。
---[[代表値>#j6ea2557]]に意味を持つ。
--比率尺度~
速度、人口、体重、金額、売上など(0だと測定対象が無い
---絶対的な原点0を持つ数値データ(0≠null)。
---順位に意味を持つ。
---四則演算に意味を持つ。
---[[代表値>#j6ea2557]]に意味を持つ。
***上記以外の分類 [#a23fa09f]
-離散型データ(計数データ)
--数えることができるデータ
--人数、枚数、個数、性別、表・裏、正・誤
-連続型データ(計量データ)
--数えることができず連続的なデータ
--身長、体重、面積、体積、時間、強度、濃度
**解明の仕方 [#o76323f7]
***要因の状況把握 [#i6baf21e]
-鳥瞰的な状況把握
--[[可視化:図表作成>#v5084e84]]
--[[代表値>#j6ea2557]]:~
代表値と呼ばれる特徴量を算出することで、~
図表を用いずには鳥瞰的な状況把握が可能。
-[[名義尺度>#wfc8bfd2]]
--[[可視化:棒グラフなど>#v5084e84]]
--[[代表値>#j6ea2557]]
---カテゴリ数
---最頻値
---など
-[[連続尺度>#sfeed30d]]
--可視化:[[ヒストグラム>統計解析#pa9def8e]]など
--[[代表値>#j6ea2557]]
---平均値
---標準偏差
---最頻値
---など
***要因と結果の関係 [#x7416392]
-比較
--[[名義>#wfc8bfd2]] vs [[名義>#wfc8bfd2]]:[[クロス集計...
--[[名義>#wfc8bfd2]] vs [[連続>#sfeed30d]]:[[ヒストグラ...
-傾向
--[[連続>#sfeed30d]] vs [[連続>#sfeed30d]]:~
[[散布図>統計解析#wbb80cf7]]や[[時系列>#d5519ff0]]等で、...
***複数要因の関係 [#u8c19b84]
-要因が複数の時、要因間の相互作用も考慮すべきであるが、~
変数が3~4個以上になると、前述の手法だけでは困難
-要因と結果を示すデータをコンピューターに与え、~
自動的にその関係を学習させる機械学習などが有効
**定量分析 [#nc96cb71]
***プロセス [#l94ef350]
|>|プロセス|>|>|>|>|>|問題の特定と対策|h
|問題解決|定量分析|>|PF1|→ PF2|→ PF3|>|→ PF4|h
|問題発見フェーズ|Step1:目的の明確化|[[ロジ&br;カル&br;...
|~|Step2:仮説立案|~|~|~|~|~|問題の仮説立案|
|解決策立案フェーズ|Step3:解析準備|~|比較条件を決める&br...
|~|Step4:解析・検証|~|~|~|~|~|意味合いを抽出|
|実行フェーズ|Step5:提言・実行|>|>|>|>|>|[[仮説検証の分...
***[[ロジカル・シンキング>#f37e932a]] [#teeacad8]
-解くよりも解けるように問題を定義する。
-So What / Why So
-ピラミッド・ストラクチャ
--結論(目的に沿う比較軸を選択する。
--比較(データの比較条件を揃える。
--事実(様々なデータ
***構造分析 [#n2f265a0]
数字の大小ではなく構造を理解する。
-[[フェルミ推定>#f37e932a]]
--掛け算での分解:モレ分析(プロセス上の問題を分析
--たし算での分解:マトリクス分析(2属性までバラつきの要...
-ディシジョン・ツリーによる期待値の計算
--意思決定毎の期待値を算出
--デシジョンボックス
---意思決定分岐~
意思決定の分岐
---チャンスイベント~
確率的に利得が変化するイベント
***定量化と定性化 [#oc4189b4]
定性化:定量的なデータを[[可視化>#v5084e84]]&比較して意...
-定性情報
>↓ 定量化 ↑ 定性化
-定量情報
***仮説検証の分析計画 [#zc70ebcd]
-仮説検証の分析計画
--仮説立案
---[[ロジカル・シンキング>#teeacad8]]
---[[構造分析>#n2f265a0]]
--仮説検証の計画立案~
[[定量化と定性化>#oc4189b4]]
--仮説検証で解決策立案
--解決策の具体化計画
-仮説検証:空 → 雨 → 傘
--┌──────────→ 空:結果
--│ 雨:考察(かも)
--└(データ処理)← 傘:次アクション → 具体的な対策
*詳細 [#kd52ffd6]
**分析手法 [#necc2881]
***可視化・分類・予測 [#bd949064]
-データ分析の手法には「[[可視化>#v5084e84]]」「[[分類」「...
-現場では「[[可視化>#v5084e84]]」「[[分類」「予測>#w482fb...
-検証の方法には、[[効果検証、A/Bテスト>データ分析#i0a7619...
***[[変数の数や尺度>#d4515f11]]で分類 [#u9cb0931]
変数の数
-1個
--[[ヒストグラム>統計解析#pa9def8e]]
--[[パレート図>統計解析#ke4c31ef]]
-2個
--量的:[[散布図>統計解析#wbb80cf7]]、[[単回帰分析>統計解...
--質的:[[クロス集計>クロス集計分析]]
-3個以上~
[[目的変数>#e86ac9d5]]の数
--0個
---量的:[[主成分分析 / クラスタ分析>#nef5c535]]
---質的:数量化理論Ⅲ類
--1個~
[[目的変数>#e86ac9d5]]の種類
---量的~
[[説明変数>#e86ac9d5]]の種類~
・量的:[[重回帰分析>統計解析#xc0279dd]]~
・質的:[[数量化理論Ⅰ類>統計解析#qe0c7a27]]
---質的~
[[説明変数>#e86ac9d5]]の種類~
・量的:[[ロジスティック回帰分析>データ解析#f8862775]]や[...
・質的:[[決定木分析>統計解析#lcaf7a28]]
--2個:正準相関分析
***分析の目的で分類 [#k6ccf8ee]
-参考情報A
|分析目的|分析手法|h
|特徴|[[基本統計量>#j6ea2557]]、[[ヒストグラム>統計解析#p...
|分類|[[クラスタ分析>統計解析#df844c06]]、[[判別分析>統計...
|集約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計解...
|予測|[[相関分析>統計解析#bad01586]]、[[回帰分析>統計解析...
-参考情報B
|>|分析目的|分析手法|h
|予測|数値予測|[[回帰分析>統計解析#xc0279dd]]、[[決定木分...
|~|判別|[[ロジスティック回帰分析>データ解析#f8862775]]、[...
|非予測|分類|[[クラスタ分析>統計解析#df844c06]]|
|~|相関|[[アソシエーション分析>データ解析#wec1e143]]|
|~|縮約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計...
-参考情報C
|>|>|分析目的|分析手法|h
|>|>|絞り込み|[[クロス集計>クロス集計分析]]|
|予測|>|関係の強弱を知る|[[相関分析>統計解析#bad01586]]|
|~|影響度を測る|数値予測|[[決定木分析>統計解析#lcaf7a28]]...
|~|~|判別|[[決定木分析>統計解析#lcaf7a28]]、[[ロジスティ...
|>|非予測|分類|[[クラスタ分析>統計解析#df844c06]]|
|~|~|相関|[[アソシエーション分析>データ解析#wec1e143]]|
|~|~|集約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統...
|>|>|検証|[[A/Bテスト>#wa61cb7f]]、コホート研究、ケースコ...
|その他|>|推論|ベイズ推定|
|~|>|空間把握|トポロジカルデータ解析、スパースモデリング|
|~|>|非構造化|テキスト・マイニング(形態素解析)|
***分析のプロセスで分類 [#a5b97006]
||問題発見、問題認識(異常は発生していないか?)|原因発見...
|見える化|[[ヒストグラム>統計解析#pa9def8e]]、[[時系列>#d...
|統計的手法|([[目的変数>#e86ac9d5]]が[[質的データ>#wfc8b...
***その他、利用頻度、関連 [#ab1d4c7b]
-利用頻度
|順位|手法|h
|1|[[クロス集計>クロス集計分析]]|
|2|[[クラスタ分析>統計解析#df844c06]]|
|3|[[回帰分析>統計解析#xc0279dd]]|
|4|[[決定木分析>統計解析#lcaf7a28]]|
|5|[[相関分析>統計解析#bad01586]]|
|6|[[ロジスティック回帰分析>データ解析#f8862775]]|
|7|[[因子分析>統計解析#c9b821dc]]|
|8|[[アソシエーション分析>データ解析#wec1e143]]|
|9|[[判別分析>統計解析#ke57e386]]|
|10|[[主成分分析>統計解析#f800acad]]|
-組合せパターン~
多くの目的に有効な3つのパターン。
--【パターン1】~
アンケートからのA/Bテスト。など。
---分類:[[因子分析>統計解析#c9b821dc]]
---影響度を測る:[[回帰分析>統計解析#xc0279dd]]
---検証:[[A/Bテスト>#wa61cb7f]]
--【パターン2】~
F1層が商品を買うか買わないか。など。
---分類:[[クラスタ分析>統計解析#df844c06]]
---絞り込み:[[クロス集計>クロス集計分析]]
---影響度を測る:[[ロジスティック回帰分析>データ解析#f886...
--【パターン3】
---絞り込み:[[クロス集計>クロス集計分析]]
---関係の強弱を知る:[[相関分析>統計解析#bad01586]]
-各分析手法の関連
散布図 ─> 函数 ─> 回帰分析 ─┐
条件付き確率 ┬─> ベイズ法 ─┴─────┬─> 判別分析 ─> 機械学習
└─> アソシエーション分析 ─┘ (判別モデル)
↑
深層学習
>※ [[ベイズ法はトップダウン方式、深層学習はボトムアップ方...
**[[可視化>#v5084e84]]・[[代表値(統計量)>#j6ea2557]] [#...
***可視化 [#v5084e84]
-様々な
--[[統計表>統計解析#t259dbee]]
---棒グラフ, 円グラフ, etc.
---[[ヒストグラム>統計解析#pa9def8e]]
---[[パレート図>統計解析#ke4c31ef]]
---[[散布図>統計解析#wbb80cf7]]
--[[確率分布>統計解析#efae792f]]
>を利用する
-図表の例
--[[品質マネジメント>PMP:品質マネジメント#e9baba6e]]
--...
***関係の見方 [#v27c2ad9]
-[[可視化>#v5084e84]]する。
--2つの[[ヒストグラム>統計解析#pa9def8e]]から
--1つの[[散布図>統計解析#wbb80cf7]]を生成できる。
-[[共分散・相関係数>統計解析#bad01586]]の指標が得られる。
***代表値(統計量) [#j6ea2557]
母集団から無作為抽出されたデータ(標本)から~
母集団推定のために計算で生成される数字を表す。
-代表値(統計量) の特徴を数値にまとめるもの
-代表値では分布を見なくても、分布の特徴を把握できる
-グラフによって代表値が変わってくる~
(棒グラフではカテゴリ数なども代表値になる)。
-一般的には、以下の代表値がよく用いられる
--[[分布の中心>#xcffe56e]]
--[[分布のバラつき>#o1f7e894]]
***分布の中心 [#xcffe56e]
-位置を示す~
偏りや外れ値がある場合、中央値と最頻値は~
平均値より有意義(直感に近い値を示す)
--平均値:分布の中心傾向を表す値~
分布が偏っている場合、外れ値が存在する場合には解釈に注意
---相加平均(算術平均):~
一般的に平均といえばこれ。~
すべての変量の和をデータの総数で割った値で表す。
---相乗平均(幾何平均):~
伸び率の平均を求めるような場合~
---調和平均:~
速度や生産性など単位量あたりの大きさの平均を求める場合
---加重平均:~
観測する値に重みを加えた平均値で表す。~
人数が違うクラスAとBの平均点から学年の平均点を出す
---移動平均:~
時系列で大きい変動を見るのに利用される。~
一定期間の間隔(=ウィンドウサイズ)を定め、~
その間隔内で計算した平均値で表す。
(パフォーマンスカウンタなどで使われる)
--中央値(メジアン):分布を下半分と上半分に分ける値~
偏りや外れ値がある場合、平均値より有意義であることがある。
--最頻値(モード):頻度が最も高い値~
偏りや外れ値がある場合、平均値より有意義であることがある。
-表計算ソフト(Excel、LibreOffice Calc)では以下の関数が...
--平均値:AVERAGE関数
--中央値:MEDIAN関数
--最頻値:MODE関数
***分布のバラつき [#o1f7e894]
-範囲、カテゴリ数~
データの最大値と最小値の差(レンジとも呼ぶ)を表す。
-四分位・パーセンタイル・箱ひげ図~
分布(中央値からの散らばり)を表現~
--四分位~
四分位数の定義はいくつかあるが、文科省による定義は、~
「全データを順に並べて四つに等しく分けたときの三つの区切...
---第n分位~
・第1四分位 (Q1)~
・第2四分位 (Q2) = 中央値~
・第3四分位 (Q3)
---四分位xx~
・四分位範囲 = Q1~Q3~
・四分位偏差 = 四分位範囲 / 2~
--パーセンタイル~
= 四分位を拡張する
---nパーセンタイル~
---25パーセンタイル = 第1四分位 (Q1)~
---50パーセンタイル = 第2四分位 (Q2)~
---75パーセンタイル = 第3四分位 (Q3)~
--箱ひげ図~
カテゴリ毎に等、狭いスペースに~
複数の分布を並べて表現することが可能
---四分位範囲(Q1 - Q3)に箱を描く~
---データのある所まで線を描く(MAX:四分位範囲の1.5倍)~
---線の外にデータがある場合、その位置に点を打つ。
-[[分布を指標化した数値>統計解析#taf4df67]]
**[[分類>#nef5c535]]・[[予測>#b33322a3]] [#w482fb5b]
***分類 [#nef5c535]
-手順
++分類によって当たりをつける
++対象を絞り込む
-手法
--[[クラスタ分析>統計解析#df844c06]]
--[[主成分分析>統計解析#f800acad]]
--[[因子分析>統計解析#c9b821dc]]
***予測 [#b33322a3]
-手順
++予測によって影響度を測る
++先を読む
++効果を検証する
-手法
--関係の強弱を知る
---相関分析
--影響度を測る
---ロジスティック回帰分析
---(重)回帰分析
--先読み
---[[判別分析>統計解析#ke57e386]]
---[[MT法>AIの活用例#nc55395f]]
--[[傾向から予測>#mcca5dca]]する。
**結果の報告 [#s99f56d5]
***記述/可視化方法 [#c7ebfd91]
-要件①:調査分析の前提条件の明示~
明示しない場合、結果を誤って解釈する事がある。
--目的、用語の定義
--データソース(期間、対象者など)
--外在的要素・状況(社会情勢、制約条件など)
-要件②:分析プロセスの明示~
プロセスが分析結果に影響を及ぼす事がある。
--収集方法
--分析手法
-要件③:適切な表現
--情報を正確に伝える指標設定(代表値など)
--示したい事柄に適した表、グラフの種類
--図表の部位の明記(タイトル、凡例、軸、単位、出典等)
***解釈の注意点 [#j23b6ecc]
[[上記>#c7ebfd91]]を踏まえて解釈する。
-パターン
--不適切なサンプル
---母集団を代表していない標本。
---偏りのある標本、少ない標本
--グラフの作為
---基準点、単位、期間の異なる比較。
---視覚的な錯覚を生じる表現など。
--定義の違い~
定義の違いを無視して比較する場合など。
--認知バイアス~
ヒューリスティックス(経験則)によるバイアス
---記憶や想像のし易さによる利用可能性ヒューリスティックス
---典型事例を全体像として錯覚する代表ヒューリスティックス
--[[確証バイアス>認知バイアスのパターン#wbeb08d5]]~
仮説や信念を検証する際にそれを支持する情報ばかりを集め、~
反証する情報を無視または集めようとしない傾向のこと。
-例
--情報の偏り(不適切なサンプル
---母数が少ない。~
女性の大学院進学率(3人だけ)
---年賀状を出す人~
平日昼間の固定電話による世論調査(高齢者)
--軸の操作(グラフの作為
---軸の基準点、データの単位、データの取得期間
---変化を解り易く伝える反面、誇張にもなる。
--ロジック展開のウソ~
正規雇用社員比率が上がった理由は非正規雇用社員の大量退職。
---比率では解らない(実数を確認する必要がある)。
---実数の変化が何故起きたか?も確認する必要がある。
--錯覚・思い込み
---条件付き確率
|-|X|Y|h
|罹患率|0.1%|80%|
|致死率|50%|0.001%|
|罹患&致死率|0.05%|0.0008%|
---...
**分析の発展 [#b6b105e5]
***順問題と逆問題 [#jb893ab1]
データ分析における順問題と逆問題~
(定義は実際曖昧で、時代や学問分野によって異なることが多...
-順問題:~
原因から試行錯誤しながら結果を探索
--原因から結果を推定、[[数理モデル>#v58cff2a]]を使った予測
---“構造”から“機能”を発見する。
---確率や、基礎研究や基礎医学は順問題。
---推論の結果が知識 → 知恵へと変わっていく([[DIKW>データ...
--必要なもの
---データ(入力用)
---モデル~
・[[数理モデル>#v58cff2a]]~
・[[ベイズ統計の推論モデル>ベイズ統計#s6513f07]]~
・[[フェルミ推定>#f37e932a]]~
・[[ロジカル・シンキング>#f37e932a]]~
・通常のシミュレーション~
-逆問題:~
結果から、原因を探求
--結果から原因を推定、データから[[数理モデル>#v58cff2a]]...
---“機能”に見合った“構造”を探す
---ある現象に着目して観測データから、~
その原因や現象を支配しているパラメタなどを決定する問題。
---通常、原因やパラメタなどは直接的に決定することが不可能...
利用できる間接的な観測データから推定することしかできない。
--必要なもの
---データ(分析用)
---勘と経験と度胸(KKD)
---モデル~
・[[推論統計の統計モデル>統計解析#eabd2473]]~
・[[ベイズ統計の経験モデル>ベイズ統計#s6513f07]]~
・逆問題解析(非破壊検査、最適形状作成、最適制御)
-AUOODA(プロセス)~
[[OODA>高度午前 - システム戦略#v0959929]]が基礎で順問題と...
2プロセス併用して、他方の内容を検証する方法もある。
--順問題
---A (arrange、探索)~
・データ群から原因となる事象を測定(Measure)~
・試行錯誤で探索し、離れたデータ群をぶつけて共通点を探す。
---U (understand、学習 > 理解)~
・データを十分に理解し、事象を学習~
・新しい列を作りながら設計(Design)し、情報化。
---O (observe、学習 > 観察)~
情報から規則性、あるいは、いつもとは違う“何か”を観測(Mon...
---O (orient、モデル化)~
規則性、因果関係、相関関係などをモデル化しアルゴリズム(A...
---D (decide、推論)~
・可視化・分類した分析結果は単なる事実~
・主観的に推論(ナレッジ化)するための解析(Analytics)。
---A (act、実践)~
推論で得られた真実を明確なメッセージに変える(ビジネスモ...
・誰に、どのような価値を提供するか【Who、What】~
・そのために、どんな業務構造や取引先との関係が必要か【How...
・どのような販売ルートと価格設定で、どれだけ収益を上げる...
--逆問題
---A (act、経験値・肌感覚)~
ビジネス(モデル)上の経験値・肌感覚のデジタル化
---D (decide、可視化)~
デジタル化した経験値を可視化していくことで解析(Analytics...
---O (orient、モデル化)~
経験値を可視化する中で、アルゴリズム(Algorism)を見抜き...
---O (observe、観察・検証)~
数値化したものの正当性を得るために観察(Monitor)し、検証...
---U (understand、理解)~
・なぜ、このような結果になるのか、その原因を理解する。~
・単なる原因だけでなく、真の目的や意図(Design)をくみ取...
・必要に応じデータに隠れている、人のたくらみや下心も読み...
---A (arrange、原因への対策)~
・浮き上がった原因への対策(Countermeasure)を施し、~
・原因に繋がる事柄を整頓(Arrange)していく。
***データ分析と数学 [#yae9dbfa]
データ分析の手段と数学の間にある関係
|分析の手段|関連する数学の例|h
|可視化|確率分布、統計、集合論、線形代数、&br;行列(画像...
|分類|群論、統計|
|予測|解析(フーリエ解析など)、確率、統計、&br;行列の固...
|判別|代数、方程式論、アルゴリズム論|
|推論|ベイズ推定、微積分|
|トポロジカルデータ解析|幾何、トポロジー、多様体|
|スパースモデリング|トポロジー、グラフ理論|
***数理モデル [#v58cff2a]
-推定や予測をする。
--物事を説明するのに必要な数学的なフレームワーク。
--データの生成プロセスをおおまかに理解するため。
-モデルの仮定や検証
--モデルの妥当性、モデルのパラメータの正確な推定、モデル...
--テストに使われるデータは分析対象の母集団からランダムに...
-分類
--数理モデル(決定論的・確率論的モデル~
必ずしも不確実性を含むわけではない
--[[統計モデル(非決定論的モデル>統計解析#eabd2473]]~
---不確実性を明示的に取り込んでいく
---不規則性を確率の概念をもって表現する
--構造
---ランダム
---一定
---線形関数(1次関数
---2次関数
---n次関数
---指数関数
---正規分布
--指向
---理解指向モデル~
データ生成の原理・仕組を知る事に焦点を合わせたモデル。~
・数理構造から知る~
・推定したパラメタ値から知る~
・推定したパラメタ値と内部構造から知る~
・パラメタ値を変えてシミュレーションする~
---応用指向モデル~
現実の事象から数学化、データを生成して現実での応用に焦点...
・回帰モデル~
・分類モデル~
・生成モデル~
***想定外の軽減 [#k2617965]
想定外は予測しにくいため。
-信頼性の高いデータを使う
--信頼性 = 完全性 + 正確性 + 正当性
--正当性 = 合理性 + 社会通念 + 経験則 + 客観性
-ハインリッヒの法則を応用する~
1件の重大な事件・事故の背景には、
--29件の軽微な事件・事故があり
--300件のヒヤリ・ハットした事象がある
-[[“トライアングル”を成立させない>SC:脅威#e5d57324]]
--動機 :[[明確な要求(デマンド:Demand)>#neb1fb65]]
--機会 :モニタリング
--正当化:[[顕在化した感情(エモーション:Emotion)>#neb1...
-適切なデータ分量を知る
--1次データは臨場感のあるデータで生々しいが、
--2次データは脚色されている可能性も高い。
***心理学要素 [#v92546d1]
心理学要素が必要になることもあり、~
画一化・標準化されたデータ分析を難しくしている。
-様々な[[認知バイアス>認知バイアスのパターン]]
--同調効果(ミラー効果
--内集団バイアス
--リスキーシフト
--ハロー効果
--フレーミング効果
--アンカリング効果
--プライミング効果
--バンドワゴン効果・アンダードッグ効果
--ツアイガルニック効果、スノッブ効果、ウインザー効果
-プロパガンダ・テクニック
--エコーチェンバー~
--感情への訴えかけ
--衆人に訴える論証
--恐怖に訴える論証
--ヒトラーに例える論証(ゴドウィンの法則
--虚偽報道、フェイクニュース
--敵対的メディア認知
-発生論の誤謬
--権威に訴える論証
--伝統に訴える論証
--新しさに訴える論証
***人の行動・感情(非構造化データ [#neb1fb65]
-データの種類
--明確な要求(デマンド:Demand)のデータ
---構造化、非構造化データ
---モノを買ったりサービスを利用したり
---デマンドドリブン型のシステム
--意図のない単なる事象(イベント:Event)のデータ
---構造化、非構造化データ
---意図を持たない、単なる流れによって発生する
---イベントドリブン型のシステム(レコメンド
--顕在化した感情(エモーション:Emotion)のデータ
---非構造化データ
---喜怒哀楽など、人の感情が顕在化したもの
---エモーションドリブン型のシステム
--潜在的な心理(マインド:Mind)のデータ
---非構造化データ
---本人も気付いていない(潜在的)人の意識の状態や変化
---マインドドリブン型のシステム
-利用例
--退職傾向の分析
--...
***モデルとシミュレーション [#x1491573]
-社会課題の解決
--感染症対策、企業経営、金融リスク、電力市場の自由化
--データだけでは難しい、事前に実験・検証が困難
---データそのものは常に完全ではない。
---すべてのデータが集まるわけではない。
---従来型の統計分布や予測モデルでは僅かな事象を反映しない。
---人間、社会、経済は実験が非常に難しい対象
---現状のデータから「外挿」を推定する必要もある。
--モデルに基づく課題解決が重要(モデル自身も不完全)
---対象システムの主要な要素関係を抽出
---コンピューター上でモデル化
---シミュレーション~
・課題をコンピューター上のモデルで再現し、~
・解決策の効果をモデルを使用して評価する。
***ビッグデータの法則 [#d7eb9f5c]
-95%は信頼できない
--日本国債の金利に影響する動きの早い海外保有量は全体の5%...
--ブランドに関するアンケートで役立つコメントは約5%
--会社を引っ張っていく影響力のある人材は5%
--今後はデータを如何に捨てるかが重要に。
-パレートの法則からロングテールの法則へ~
分布の「右側」や「左側」が重要になってきている(ビジネス...
--付加価値が高い高級品の売り上げは伸びている。
--IT界隈のBig5、ソシャゲの廃課金者
--リスク管理(ネット炎上、ES/CS)
--イノベーター理論の左右の5%への注目
--クラウド・ビジネス(低価値・低頻度の事業化)
-振り子現象
--データを重視し過ぎると振り子現象などで分析麻痺が起こる。
--データとは正反対の直感が重視されるようになる。
-業界によって様々な
--ベンフォードの法則~
自然界に出てくる多くの数値の最初の桁の分布が、~
一様ではなく、ある特定の分布になっている、という法則
--モンモール数~
完全順列の総数、プレゼント交換がうまくいく確率
--[[ネイピア数>DS:数学的基礎 - 微分・偏微分#adabdb73]]~
最適停止問題、最適停止問題の一種の秘書問題
--黄金比( 1:( 1 + √5 )/ 2 ≒ 1:1.62 )~
フィボナッチ数列で、ある程度数が大きくなると、~
数列の隣り合う数の比が限りなく黄金比に近づいていく。~
---為替の大きな流れが約162カ月で変わるという説
--白銀比(1:√2 ≒ 1:1.414)~
長方形の長辺を中点で2分割してできた長方形が、~
元々の長方形と相似であるようにした辺の比
---A4判、A5判など用紙の縦横比は白銀比
---日本の美術や建造物で用いられ日本人の感性に合うと言われ...
--「78:22」の法則
---空気の窒素含有率
---体内の善玉菌と悪玉菌の比率
*活用 [#tf82d72c]
**パターン [#k2a1f1e1]
***[[クロス集計>クロス集計分析]]を用いて[[離散分布>統計解...
簡単に言うと、
-[[集計結果を二次元表で見る。>クロス集計分析#pa81e392]]
-[[ピボット / アン・ピボット>クロス集計分析#m6add619]]
-[[ドリルダウン、ドリルアップ、ダイス、スライス、ドリルス...
などを行う。
集計元のデータが連続尺度である場合は、
>[[ヒストグラム>統計解析#pa9def8e]]などを使用して
カテゴリ毎の分布を確認しても良い。
***[[ヒストグラム>統計解析#pa9def8e]]を用いて[[連続分布>...
年代別来客数などを例に。
-[[可視化>#v5084e84]]の活用
--標準級間隔を設定。~
例えば、年代別来客数なら、~
10歳毎の世代に区切る。
--以下が読み取れる。
>
+どんな種類がある?
+最も多い種類はどれ?
+大半のサンプルはどこ?
+最小値はどれぐらい?
+最大値はどれぐらい?
+データ不備はある?
--特徴の異なる様々な分布がある
---ピーク(峰)の数~
異種データの混在の可能性に注意
---ピーク(峰)の偏り~
平均値を解釈する際に注意
---外れ値の有無~
データ不備や異常値の可能性に注意
-[[代表値>#j6ea2557]]の活用~
分布の特徴を少ない情報で伝えられる
***[[散布図>統計解析#wbb80cf7]]で傾向を見たり予測をしたり...
***時系列等で傾向を見たり予測をしたり。 [#d5519ff0]
-[[クロスセクションデータ>統計解析#rd258818]]~
実数同士では正しい比較にならない場合は、~
規模の影響を取り除いた比率で見る([[例>統計解析#s88787fc]...
--構成比~
総数とその内訳の比率
--相対比
---異なるデータを分子、分母に取った比率
---(人口や面積など)各集団の大きさの影響を除去
>※ 余談:分母が同じで足して100%になる2つの比率は-1の相...
-[[時系列データ>統計解析#pcd4198d]]
--観測頻度
---年次データ(暦年、年度
---半期データ(暦年、年度
---四半期データ(暦年、年度
---月次データ
---週次データ
---日次データ
---時間データ
---不規則間隔データ
--フローデータとストックデータ
---フローデータ~
ある期間内の発生量や変化量~
(例)平成25年の1年間の出生数
---ストックデータ~
ある一時点の状態をとらえたもの~
(例)平成26年10月1日現在の人口
---例~
・出生数と人口~
・販売台数と保有台数~
・...
--名目値と実質値~
金額を扱う統計で使われる。
---名目値~
その時その時の価格により表した金額
---実質値~
ある基準時の価格により表した金額
名目値
= --------------
価格指数
--季節性の調整
---季節性の例~
・夏:クーラー代、ビール消費~
・冬:暖房費、鍋材料~
・新学期:教育費~
・ボーナス時期:高額商品
---季節性を調整する方法~
・簡単な方法:前年同月比
当月の値
= -------------- - 1
前年の同月の値
・高度な方法:季節調整(季節変動を除去 )~
Excelの[データ]タブから[データ分析]をクリックし、~
ダイアログボックスで[移動平均]を選択肢、~
月次データの場合、区間を[12]に設定する。
---見方~
季節調整値の傾向の変化を見る。~
・前月比~
・前年同月比~
・前年同月の前月比
--季節製以外の変動を考慮~
コレ等のデータ特性を見極めた上で予測を行う。
時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】...
--同時相関と相互相関~
(季節性は除かれているものとする)
---同時相関~
・同時点での相関=2つの時系列データを並べた場合~
・可処分所得と消費支出の相関係数 = 0.46~
・[[擬似相関>統計解析#bad01586]]~
・双方の時系列に単調トレンドがある時、相関があるように...
・前期比などに変換してから相関係数を計算する(→ 相関な...
---相互相関~
時間差での相関
--時系列予測
---多項式回帰による予測~
トレンドが時間の関数~
・はっきりしたトレンドがある場合、時間の多項式を当てはめ...
・1次関数が良く用いられ、高次の多項式は望ましくない。~
・大きな構造変化が起こるときにはうまく予測できない。
---自己回帰モデル(auto-regressive model)~
線形予測モデル(linear prediction model)による予測。~
実現値となる変数がその変数の過去の値と確率項に線形に依存。~
・今現在の値を現在より前の値を重みづけして足し合わせる(...
・過去の変数を用いることで精度を高める。どのくらい遡るか...
・トレンドがある場合には適用できない。
---多くの時系列を活用した予測。~
1つの時系列だけでの予想は困難。相互相関を活用。
--[[回帰分析>統計解析#a421ea17]]の応用~
[[説明変数>#e86ac9d5]] [𝑋] に時間 [𝑡] を適用
--より高度な時系列分析
---多量の時系列データを使った分析~
・パネルデータの分析~
・高頻度観測データの活用
---時系列の背後にある潜在要因の推定。~
・トレンドの推定~
・共通成分の推定
**ビジネス上での事例 [#i0a7619e]
***A / Bテスト [#wa61cb7f]
-ランダム化比較試験
-ビジネス上での活用では効果検証が重要になる。
--広告デザインの売上への効果
--ウェブサイト・コンテンツのクリック率への効果
--ワクチンの感染病予防率への効果
-KGIと施策の間の関係(施策効果) を調査する。
++対象の集団から小集団(標本)を2つ取り出す。
++効果検証をしたい施策A/Bをそれぞれの標本に適用する。
++それぞれの標本においてKGIを測る。
++両施策によるKGIの分布を比較し、有意な効果があるかを判断...
>※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公...
両標本は全ての要因について同一である必要がある(→ ラン...
-事例
--デザイン変更の効果測定
--クーポン配布の効果測定
***アンケート [#o9b07afc]
肝臓癌死亡率ワースト1からの脱却の[[PPDAC>BI / AI#ef5f472...
-P (problem、問題):
--肝臓癌死亡率ワースト1
--肝炎ウイルス陽性者が治療を受けていないケースが多い
-P (plan、計画):~
治療を受けるまでの意思決定過程における特徴を把握する。
-D (data、データ収集):~
受療者及び未受療者に対してアンケートを実施。
-A (analysis、分析):
--医師が早い段階から説明を行った方が受療率が高いことが判明
--アンケートの分析には[[クロス集計分析>#y3de4a0a]]などを...
-C (conclusion、結論):~
医師が早い段階から受療の効果等について説明する取り組み
***QC手法の適用 [#j2bf684e]
<以下、一変量解析>
-基本統計量とヒストグラム
--[[基本統計量>#j6ea2557]]
--[[ヒストグラム>統計解析#pa9def8e]]
-時系列図([[管理図>PMP:品質マネジメント#w0686daa]]
--どう計画するか?
---仮説:時系列で値に変動がある。
---目的の数値化
--どう読めばいいか?
---特徴:比較結果
---意味合い:次の仮説
--EXCELでどう作るか?
---グラフ化するデータの範囲を選択
---挿入 → 折れ線 → マーカー付き折れ線を選択
-[[パレート図>統計解析#ke4c31ef]]
<以下、二変量解析>
-散布図と単回帰分析
--[[散布図>統計解析#wbb80cf7]]
--[[単回帰分析>統計解析#xc0279dd]]
-[[クロス集計>#y3de4a0a]]とその応用
***[[テスト分野>テスト分野の理論体系(DS)]] [#a990a43c]
***データ解析 [#y3de4a0a]
-[[クロス集計分析>クロス集計分析#mfbeff94]]
-[[アソシエーション分析>データ解析#wec1e143]]
***[[統計解析>統計解析#v601f98f]] [#jbf5d122]
***[[ビッグデータ>ビッグデータ#c12ecfbb]] [#k1b0f374]
**コンテクストやバイアス [#d3808a0c]
データがどうやって生成されているのか、そのコンテクストや...
***社会科学データには主観が入り込みやすい [#k46e0d06]
計測単位が決まっていないため、計測する人の解釈やバイアス...
***全てのデータは加工済み [#o8b59c42]
全てのデータというのは実は加工されている。
-なぜそれが収集されたのか
-どのように収集されたのか
-どのように加工されたのか
***データは集めた人の声を代弁する [#z0623afa]
-データが自分自身で話すことはない。
-大量のデータを使っても、
--客観的で、コンテクスト
--因果関係、バイアス、選択、不完全性
>と言った問題は、解決できない。
-[[統計を使ってウソをつく方法からの学び>統計解析#i6f71d83]]
***データは人間の衝突を解決しない [#cec937cd]
データに対する盲信は、そのデータに対する信用をも無くす。
*参考 [#h6d7caaf]
**データ分析 [#x90f1963]
***[[データ解析]] [#r77a4921]
xx学とか知らなくても、~
表計算ソフトなどで取り敢えずできる系
***[[統計解析]] [#q8dfb2b7]
≒統計学、データ分析の原点
***[[ベイズ統計]] [#h6b70cfa]
最近流行りの機械学習・深層学習の基礎
**[[非構造化データ処理>要素技術#qa6076ee]] [#p79a1ae5]
***[[言語処理>要素技術#g4e5060c]] [#pbf26aad]
***[[音声処理>要素技術#c7baa14d]] [#s933273d]
***[[画像処理>要素技術#f0208031]] [#m58a154e]
**[[BI / AI]] [#d5a61c1c]
***[[ビジネス インテリジェンス(BI)]] [#p7d1e003]
***[[人工知能(AI)]] [#ae00e827]
**データサイエンティスト協会 [#a60a7c8f]
-データサイエンス100本ノックをやろう~
(WindowsにDocker Desktop入れよう)~
https://www.cresco.co.jp/blog/entry/14446/
**gacco [#i5d5bea4]
-機械学習/統計学/データサイエンスの無償gacco動画、全ま...
【2021年秋版】:AI・機械学習の独学リソース(1/3 ページ) ...
https://atmarkit.itmedia.co.jp/ait/articles/1911/07/news0...
**総務省 [#s7876825]
-データサイエンス・スクール/ビジネスに役立つ統計講座~
https://www.stat.go.jp/dss/
--ビジネスに役立つ統計講座
--プレゼングラフ作成のポイント
--出来る人のビジネス活用術
--あなたの統計力
--データサイエンス・オンライン講座
--統計データ分析コンペティション
-データサイエンス・スクール/ビジネスに役立つ統計講座~
https://www.stat.go.jp/dss/online_index.html
--社会人のためのデータサイエンス入門|総務省統計局~
https://gacco.org/stat-japan/
--総務省統計局 データサイエンス・オンライン講座~
---第2弾「社会人のためのデータサイエンス演習」~
https://gacco.org/stat-japan2/
---第3弾「誰でも使える統計オープンデータ」~
https://gacco.org/stat-japan3/
**DIGITAL X [#ob7317f8]
Column 学校では学べないデジタル時代のデータ分析法~
https://dcross.impress.co.jp/industry/column/column201709...
-【第1回】デジタル時代はなぜ“データ分析力”を求めるのか~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第2回】データ分析で重要なのは「列(属性)」を増やすこと~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第3回】ビッグデータの分析は客観的から主観的へ、ベイズ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第4回】「可視化」でビギナーズラックもAmazonの戦略も理...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第5回】「分類」の手法を誤ると正しい姿はみえてこない~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第6回】データに潜む関連性を見いだし将来を予測する~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第7回】未解決な事象の分析に威力を発揮するベイズ推定~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第8回】正しい分析に向けデータの特性と関係性のパターン...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第9回】データの関係性パターンとしての「構造」と「空間」~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第10回】人の行動・感情を知るために必要な非構造化データ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第11回】データ分析の王道としての順問題と逆問題を理解す...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第12回】データ分析で失敗しないための5つのポイント~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第13回】データ分析における心理的側面の深いつながり~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第14回】データ分析にはリスク管理・危機管理が不可欠~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第15回】データ分析には数学的・科学的手法を生かすセンス...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第16回】データが持つ“重力”を活用するために乗り越えるべ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第17回】データを“金”に変えるにはメッセージが不可欠であ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第18回】データ分析に不可欠な発想力は日々の行動で磨ける~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-ビッグデータの法則
--【第19回】その1=95%は信頼できない~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第21回】その2=振り子現象、すべては繰り返す~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第22回】その3=数字の魔力【第22回】~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第23回】その4=広がる格差、なぜ格差が広がっているのか...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第20回】元号は時代のブランド、新元号「令和」をブランド...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第24回】分析の『5大アセット』が専門家にも負けない知見...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-お金の分析
--【第25回】その1=メタデータしか分析できない投資信託は...
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第26回】その2=ベストな金融機関を選べるか~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--その3=年代別モデル~50歳からのお金のサバイバル術
---【第27回】〔前編〕~
https://dcross.impress.co.jp/docs/column/column20170926-0...
---【第28回】〔後編〕~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第29回】解説編=ライフイベントの辞書から年代別モデル...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-ヘルスケアの分析
--【第30回】その1=ストレス・肥満・フレイルを防ぐ飲み物・...
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第31回】その2=健康食品・サプリによる予防~
https://dcross.impress.co.jp/docs/column/column20170926-0...
--【第32回】その3=ヘルスケアの辞書~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第33回】人生の岐路に役立つヒトに関する分析~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第34回】時系列の分析で新たな意味を見いだせるメタデータ...
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第35回】メタ分析で隠れた真実をあぶり出す~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第36回】データ分析と心理学の深いつながり~
https://dcross.impress.co.jp/docs/column/column20170926-0...
-【第37回】分析では複数の手法の組み合わせが大切~
https://dcross.impress.co.jp/docs/column/column20170926-0...
**Qiita [#kd8b5336]
-データはほんとうに「真実」なのか~
https://qiita.com/KanNishida/items/afe0d088bda503115fb1
***[[統計解析>統計解析#kd8b5336]] [#h6ae3ac3]
***[[ベイズ統計>ベイズ統計#f92c5a25]] [#o32c2295]
ページ名: