「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>データサイエンス力]] *目次 [#d6c76a2d] #contents *概要 [#j821ec1b] **分析の基本 [#d631e766] ***考える順序 [#e9db9c3c] 作業順の逆順で考える。 +結果の想定~ ~ ( ↓ そのタメに必要なモノ ↓ )~ ~ +必要な図表の想定~ ~ ( ↓ そのタメに必要なモノ ↓ )~ ~ +必要なデータの「集計」(結果)の想定~ ~ ( ↓ そのタメに必要なモノ ↓ )~ ~ +必要なデータの「収集」(結果)の想定 ***属性を見出す [#l0dc28d8] 属性が分析の基準になるため、~ 新たな「列」をどう作るかが鍵。 ***関係性を見出す [#p346c99f] -現状のデータ(数字)を --分解して細かな要素に分け、 --性質、構造などを明らかにする >ことで、 --[[要因(1変数)の状況把握>#i6baf21e]]と --[[要因と結果(2変数)の関係>#x7416392]]として >解明する。 -足し算やかけ算、log、ルート、微積分など~ 2つ以上の事象の関係性を、数学を駆使して、あぶり出す。 -偽の因果関係を見抜く6つのステップ --【基本】「AならばBである」という関係の必然性を追求する --【反証】「AならばBである」という関係は偶然と仮定する --【裏】「AでなければBではない」と“裏”を考える(!原因→!結果) --【逆】「BならばAである」と“逆”にしてみる(結果→原因) --【第3の要因】新しい要因を想定する(交絡因子) --【実験】実際に試験する ***関係性パターン [#l3a1e0f9] -相関 --集合 ---前提にMECEという状態が必要 ---[[分類の手段であるクラスタ分析、因子分析、主成分分析>#nef5c535]]で作られる。 --位置~ [[SWOT>PMP:共通 - OPM - ポートフォリオ・マネジメント#je817530]]、[[PPM>PMP:共通 - OPM - ポートフォリオ・マネジメント#m7463134]] --類似~ 相関関係を表すデータが散らばったグラフから類似の関係性を探せる。 -変化 --展開~ 分からないことを観測データから推論 ---[[ベイズ推定>ベイズ統計]] ---[[ロジカル・シンキング>#f37e932a]] ---[[フェルミ推定>#f37e932a]](観測データがない場合) --循環~ [[PDCA>データサイエンティスト#ef5f4720]]より、[[OODA>#jb893ab1]]が適合するようになってきている。 --因果~ [[ロジスティック回帰分析>データ解析#f8862775]]や[[判別分析>統計解析#ke57e386]] -構造~ 代数の領域 --階層、ネットワーク --T字、逆T字 -空間~ 幾何の領域 ***展開、推論 [#f37e932a] -ロジカル・シンキング --手法およびキーワード ---MECE ---So What / Why So ---ピラミッド・ストラクチャ ---ロジック・ツリー ---フレームワーク --三角ロジックとトゥールミンモデル ---三角ロジック~ 事実・データ(根拠)を基に、自分なりの理由付け (解釈)をする。 ---トゥールミンモデル~ ・結論、データ、理由付けの3つを議論の基本要素で図式化。~ ・さらに限定子、論駁、裏付けの要素が加えられている。 -フェルミ推定(観測データがない場合) --ココで出てきたものがKPIになったりする。 --アメリカのシカゴには何人のピアノの調律師がいるか?~ ([[フェルミ推定 - Wikipedia>https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A7%E3%83%AB%E3%83%9F%E6%8E%A8%E5%AE%9A]]に例がある。) **変数と尺度 [#d4515f11] ***説明変数と目的変数 [#e86ac9d5] -説明変数 --統計学において因果関係の原因となる変数。 --回帰分析などで用いられる。 --別名 ---予測変数 ---独立変数 -目的変数 --統計学において因果関係の結果となる変数。 --回帰分析などで用いられる。 --別名 ---結果変数 ---応答変数 ---反応変数 ---従属変数 ---基準変数 ---被説明変数 ***名義尺度(質的データ) [#wfc8bfd2] -カテゴリに分類するための特性を表す尺度 --順序無し(名義尺度)~ 性別、血液型、都道府県など ---カテゴリ分類の意味のみ持つ。 ---四則演算に意味は無い。 ---[[代表値>#j6ea2557]]に意味は無い。 --順序付き(順序尺度)~ 松/竹/梅、優/良/可などの順位 ---順位に意味を持つ。 ---四則演算、値の間隔に意味は無い。 ---[[中央値>#j6ea2557]]のみ意味を持つ。 -データや分類で使用され、~ 質的分類は標準化される(日本標準産業分類など)。 ***連続尺度(量的データ) [#sfeed30d] -数値で表し測れる大小の関係がある尺度で、 -比例尺度と間隔尺度は見分けが難しい場合がある。 -0の時に測定対象がnullになるかならないかで判断。 --間隔尺度~ 年齢、西暦・元号、セ氏度など(0でも測定対象がある ---一般的な数値データ ---順位に意味を持つ。 ---加減算に意味を持つが、~ 乗除算に意味は無い。 ---[[代表値>#j6ea2557]]に意味を持つ。 --比率尺度~ 速度、人口、体重、金額、売上など(0だと測定対象が無い ---絶対的な原点0を持つ数値データ(0≠null)。 ---順位に意味を持つ。 ---四則演算に意味を持つ。 ---[[代表値>#j6ea2557]]に意味を持つ。 ***上記以外の分類 [#a23fa09f] -離散型データ(計数データ) --数えることができるデータ --人数、枚数、個数、性別、表・裏、正・誤 -連続型データ(計量データ) --数えることができず連続的なデータ --身長、体重、面積、体積、時間、強度、濃度 **解明の仕方 [#o76323f7] ***要因の状況把握 [#i6baf21e] -鳥瞰的な状況把握 --[[可視化:図表作成>#v5084e84]] --[[代表値>#j6ea2557]]:~ 代表値と呼ばれる特徴量を算出することで、~ 図表を用いずには鳥瞰的な状況把握が可能。 -[[名義尺度>#wfc8bfd2]] --[[可視化:棒グラフなど>#v5084e84]] --[[代表値>#j6ea2557]] ---カテゴリ数 ---最頻値 ---など -[[連続尺度>#sfeed30d]] --可視化:[[ヒストグラム>統計解析#pa9def8e]]など --[[代表値>#j6ea2557]] ---平均値 ---標準偏差 ---最頻値 ---など ***要因と結果の関係 [#x7416392] -比較 --[[名義>#wfc8bfd2]] vs [[名義>#wfc8bfd2]]:[[クロス集計を用いて、離散分布を比較>#w894c86e]] --[[名義>#wfc8bfd2]] vs [[連続>#sfeed30d]]:[[ヒストグラムを用いて、連続分布を比較>#l9940c92]] -傾向 --[[連続>#sfeed30d]] vs [[連続>#sfeed30d]]:~ [[散布図>統計解析#wbb80cf7]]や[[時系列>#d5519ff0]]等で、片方の変数に対してもう片方の変数の傾向を見る。 ***複数要因の関係 [#u8c19b84] -要因が複数の時、要因間の相互作用も考慮すべきであるが、~ 変数が3~4個以上になると、前述の手法だけでは困難 -要因と結果を示すデータをコンピューターに与え、~ 自動的にその関係を学習させる機械学習などが有効 **定量分析 [#nc96cb71] ***プロセス [#l94ef350] |>|プロセス|>|>|>|>|>|問題の特定と対策|h |問題解決|定量分析|>|PF1|→ PF2|→ PF3|>|→ PF4|h |問題発見フェーズ|Step1:目的の明確化|[[ロジ&br;カル&br;シン&br;キン&br;グ>#teeacad8]]|目的&仮説で比較軸を決める&br;(どの[[KGI or KPI>ST:CSF・KPI・KGI]]?)|問題の[[構造分析>#n2f265a0]]&br;([[CSF → KPI → KGI>ST:BSCとKPI・KGI]])|[[仮説検証の分析計画>#zc70ebcd]]を提案|繰&br;り&br;返&br;し|目的 → 問題の特定| |~|Step2:仮説立案|~|~|~|~|~|問題の仮説立案| |解決策立案フェーズ|Step3:解析準備|~|比較条件を決める&br;([[パネル → クロスセクション>統計解析#yced16e9]])|[[比較して意味合いを抽出>#oc4189b4]]|~|~|[[分析方法の設計>#d631e766]]| |~|Step4:解析・検証|~|~|~|~|~|意味合いを抽出| |実行フェーズ|Step5:提言・実行|>|>|>|>|>|[[仮説検証の分析計画>#zc70ebcd]]を実行し(、問題ではなく)、目的に対応する具体的な対策まで実行| ***[[ロジカル・シンキング>#f37e932a]] [#teeacad8] -解くよりも解けるように問題を定義する。 -So What / Why So -ピラミッド・ストラクチャ --結論(目的に沿う比較軸を選択する。 --比較(データの比較条件を揃える。 --事実(様々なデータ ***構造分析 [#n2f265a0] 数字の大小ではなく構造を理解する。 -[[フェルミ推定>#f37e932a]] --掛け算での分解:モレ分析(プロセス上の問題を分析 --たし算での分解:マトリクス分析(2属性までバラつきの要因を分析 -ディシジョン・ツリーによる期待値の計算 --意思決定毎の期待値を算出 --デシジョンボックス ---意思決定分岐~ 意思決定の分岐 ---チャンスイベント~ 確率的に利得が変化するイベント ***定量化と定性化 [#oc4189b4] 定性化:定量的なデータを[[可視化>#v5084e84]]&比較して意味合いを抽出。 -定性情報 >↓ 定量化 ↑ 定性化 -定量情報 ***仮説検証の分析計画 [#zc70ebcd] -仮説検証の分析計画 --仮説立案 ---[[ロジカル・シンキング>#teeacad8]] ---[[構造分析>#n2f265a0]] --仮説検証の計画立案~ [[定量化と定性化>#oc4189b4]] --仮説検証で解決策立案 --解決策の具体化計画 -仮説検証:空 → 雨 → 傘 --┌──────────→ 空:結果 --│ 雨:考察(かも) --└(データ処理)← 傘:次アクション → 具体的な対策 *詳細 [#kd52ffd6] **分析手法 [#necc2881] ***可視化・分類・予測 [#bd949064] -データ分析の手法には「[[可視化>#v5084e84]]」「[[分類」「予測>#w482fb5b]]」の3つがある。 -現場では「[[可視化>#v5084e84]]」「[[分類」「予測>#w482fb5b]]」に加え検証の作業の繰り返しが基本。 -検証の方法には、[[効果検証、A/Bテスト>データ分析#i0a7619e]]などがある。 ***[[変数の数や尺度>#d4515f11]]で分類 [#u9cb0931] 変数の数 -1個 --[[ヒストグラム>統計解析#pa9def8e]] --[[パレート図>統計解析#ke4c31ef]] -2個 --量的:[[散布図>統計解析#wbb80cf7]]、[[単回帰分析>統計解析#xc0279dd]](相関分析) --質的:[[クロス集計>クロス集計分析]] -3個以上~ [[目的変数>#e86ac9d5]]の数 --0個 ---量的:[[主成分分析 / クラスタ分析>#nef5c535]] ---質的:数量化理論Ⅲ類 --1個~ [[目的変数>#e86ac9d5]]の種類 ---量的~ [[説明変数>#e86ac9d5]]の種類~ ・量的:[[重回帰分析>統計解析#xc0279dd]]~ ・質的:[[数量化理論Ⅰ類>統計解析#qe0c7a27]] ---質的~ [[説明変数>#e86ac9d5]]の種類~ ・量的:[[ロジスティック回帰分析>データ解析#f8862775]]や[[判別分析>統計解析#ke57e386]](因果)~ ・質的:[[決定木分析>統計解析#lcaf7a28]] --2個:正準相関分析 ***分析の目的で分類 [#k6ccf8ee] -参考情報A |分析目的|分析手法|h |特徴|[[基本統計量>#j6ea2557]]、[[ヒストグラム>統計解析#pa9def8e]]、[[パレート図>統計解析#ke4c31ef]]、[[時系列>#d5519ff0]]分析| |分類|[[クラスタ分析>統計解析#df844c06]]、[[判別分析>統計解析#ke57e386]]、[[ロジスティック回帰分析>データ解析#f8862775]]、機械学習の分類、クラスタリング| |集約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計解析#c9b821dc]]| |予測|[[相関分析>統計解析#bad01586]]、[[回帰分析>統計解析#xc0279dd]]、[[数量化理論Ⅰ類>統計解析#qe0c7a27]]、待ち行列分析| -参考情報B |>|分析目的|分析手法|h |予測|数値予測|[[回帰分析>統計解析#xc0279dd]]、[[決定木分析>統計解析#lcaf7a28]]、[[DNN>ニューラルネットワーク#p7254b04]]| |~|判別|[[ロジスティック回帰分析>データ解析#f8862775]]、[[決定木分析>統計解析#lcaf7a28]]、[[DNN>ニューラルネットワーク#p7254b04]]| |非予測|分類|[[クラスタ分析>統計解析#df844c06]]| |~|相関|[[アソシエーション分析>データ解析#wec1e143]]| |~|縮約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計解析#c9b821dc]]| -参考情報C |>|>|分析目的|分析手法|h |>|>|絞り込み|[[クロス集計>クロス集計分析]]| |予測|>|関係の強弱を知る|[[相関分析>統計解析#bad01586]]| |~|影響度を測る|数値予測|[[決定木分析>統計解析#lcaf7a28]]、[[回帰分析>統計解析#xc0279dd]]| |~|~|判別|[[決定木分析>統計解析#lcaf7a28]]、[[ロジスティック回帰分析>データ解析#f8862775]]、[[判別分析>統計解析#ke57e386]]、[[MT法>AIの活用例#nc55395f]]| |>|非予測|分類|[[クラスタ分析>統計解析#df844c06]]| |~|~|相関|[[アソシエーション分析>データ解析#wec1e143]]| |~|~|集約|[[主成分分析>統計解析#f800acad]]、[[因子分析>統計解析#c9b821dc]]| |>|>|検証|[[A/Bテスト>#wa61cb7f]]、コホート研究、ケースコントロール法| |その他|>|推論|ベイズ推定| |~|>|空間把握|トポロジカルデータ解析、スパースモデリング| |~|>|非構造化|テキスト・マイニング(形態素解析)| ***分析のプロセスで分類 [#a5b97006] ||問題発見、問題認識(異常は発生していないか?)|原因発見、解決策(ベストな選択はなにか?)|効果の確認|h |見える化|[[ヒストグラム>統計解析#pa9def8e]]、[[時系列>#d5519ff0]]分析|[[パレート図>統計解析#ke4c31ef]]、[[散布図>統計解析#wbb80cf7]]、[[クロス集計>クロス集計分析]]|層化| |統計的手法|([[目的変数>#e86ac9d5]]が[[質的データ>#wfc8bfd2]]の場合、もしくは分類)&br;検定、[[判別分析>統計解析#ke57e386]]、[[ロジスティック回帰分析>データ解析#f8862775]]、[[クラスタ分析>統計解析#df844c06]]|([[目的変数>#e86ac9d5]]が[[量的データ>#sfeed30d]]の場合、もしくは分類)&br;[[決定木分析>統計解析#lcaf7a28]]、[[主成分分析>#nef5c535]]、[[回帰分析>統計解析#xc0279dd]]・[[アソシエーション分析>データ解析#wec1e143]]|検定| ***その他、利用頻度、関連 [#ab1d4c7b] -利用頻度 |順位|手法|h |1|[[クロス集計>クロス集計分析]]| |2|[[クラスタ分析>統計解析#df844c06]]| |3|[[回帰分析>統計解析#xc0279dd]]| |4|[[決定木分析>統計解析#lcaf7a28]]| |5|[[相関分析>統計解析#bad01586]]| |6|[[ロジスティック回帰分析>データ解析#f8862775]]| |7|[[因子分析>統計解析#c9b821dc]]| |8|[[アソシエーション分析>データ解析#wec1e143]]| |9|[[判別分析>統計解析#ke57e386]]| |10|[[主成分分析>統計解析#f800acad]]| -組合せパターン~ 多くの目的に有効な3つのパターン。 --【パターン1】~ アンケートからのA/Bテスト。など。 ---分類:[[因子分析>統計解析#c9b821dc]] ---影響度を測る:[[回帰分析>統計解析#xc0279dd]] ---検証:[[A/Bテスト>#wa61cb7f]] --【パターン2】~ F1層が商品を買うか買わないか。など。 ---分類:[[クラスタ分析>統計解析#df844c06]] ---絞り込み:[[クロス集計>クロス集計分析]] ---影響度を測る:[[ロジスティック回帰分析>データ解析#f8862775]] --【パターン3】 ---絞り込み:[[クロス集計>クロス集計分析]] ---関係の強弱を知る:[[相関分析>統計解析#bad01586]] -各分析手法の関連 散布図 ─> 函数 ─> 回帰分析 ─┐ 条件付き確率 ┬─> ベイズ法 ─┴─────┬─> 判別分析 ─> 機械学習 └─> アソシエーション分析 ─┘ (判別モデル) ↑ 深層学習 >※ [[ベイズ法はトップダウン方式、深層学習はボトムアップ方式>深層学習(deep learning)#f411bfa0]] **[[可視化>#v5084e84]]・[[代表値(統計量)>#j6ea2557]] [#m39119c4] ***可視化 [#v5084e84] -様々な --[[統計表>統計解析#t259dbee]] ---棒グラフ, 円グラフ, etc. ---[[ヒストグラム>統計解析#pa9def8e]] ---[[パレート図>統計解析#ke4c31ef]] ---[[散布図>統計解析#wbb80cf7]] --[[確率分布>統計解析#efae792f]] >を利用する -図表の例 --[[品質マネジメント>PMP:品質マネジメント#e9baba6e]] --... ***関係の見方 [#v27c2ad9] -[[可視化>#v5084e84]]する。 --2つの[[ヒストグラム>統計解析#pa9def8e]]から --1つの[[散布図>統計解析#wbb80cf7]]を生成できる。 -[[共分散・相関係数>統計解析#bad01586]]の指標が得られる。 ***代表値(統計量) [#j6ea2557] 母集団から無作為抽出されたデータ(標本)から~ 母集団推定のために計算で生成される数字を表す。 -代表値(統計量) の特徴を数値にまとめるもの -代表値では分布を見なくても、分布の特徴を把握できる -グラフによって代表値が変わってくる~ (棒グラフではカテゴリ数なども代表値になる)。 -一般的には、以下の代表値がよく用いられる --[[分布の中心>#xcffe56e]] --[[分布のバラつき>#o1f7e894]] ***分布の中心 [#xcffe56e] -位置を示す~ 偏りや外れ値がある場合、中央値と最頻値は~ 平均値より有意義(直感に近い値を示す) --平均値:分布の中心傾向を表す値~ 分布が偏っている場合、外れ値が存在する場合には解釈に注意 ---相加平均(算術平均):~ 一般的に平均といえばこれ。~ すべての変量の和をデータの総数で割った値で表す。 ---相乗平均(幾何平均):~ 伸び率の平均を求めるような場合~ ---調和平均:~ 速度や生産性など単位量あたりの大きさの平均を求める場合 ---加重平均:~ 観測する値に重みを加えた平均値で表す。~ 人数が違うクラスAとBの平均点から学年の平均点を出す ---移動平均:~ 時系列で大きい変動を見るのに利用される。~ 一定期間の間隔(=ウィンドウサイズ)を定め、~ その間隔内で計算した平均値で表す。 (パフォーマンスカウンタなどで使われる) --中央値(メジアン):分布を下半分と上半分に分ける値~ 偏りや外れ値がある場合、平均値より有意義であることがある。 --最頻値(モード):頻度が最も高い値~ 偏りや外れ値がある場合、平均値より有意義であることがある。 -表計算ソフト(Excel、LibreOffice Calc)では以下の関数が使える --平均値:AVERAGE関数 --中央値:MEDIAN関数 --最頻値:MODE関数 ***分布のバラつき [#o1f7e894] -範囲、カテゴリ数~ データの最大値と最小値の差(レンジとも呼ぶ)を表す。 -四分位・パーセンタイル・箱ひげ図~ 分布(中央値からの散らばり)を表現~ --四分位~ 四分位数の定義はいくつかあるが、文科省による定義は、~ 「全データを順に並べて四つに等しく分けたときの三つの区切りの値」。 ---第n分位~ ・第1四分位 (Q1)~ ・第2四分位 (Q2) = 中央値~ ・第3四分位 (Q3) ---四分位xx~ ・四分位範囲 = Q1~Q3~ ・四分位偏差 = 四分位範囲 / 2~ --パーセンタイル~ = 四分位を拡張する ---nパーセンタイル~ ---25パーセンタイル = 第1四分位 (Q1)~ ---50パーセンタイル = 第2四分位 (Q2)~ ---75パーセンタイル = 第3四分位 (Q3)~ --箱ひげ図~ カテゴリ毎に等、狭いスペースに~ 複数の分布を並べて表現することが可能 ---四分位範囲(Q1 - Q3)に箱を描く~ ---データのある所まで線を描く(MAX:四分位範囲の1.5倍)~ ---線の外にデータがある場合、その位置に点を打つ。 -[[分布を指標化した数値>統計解析#taf4df67]] **[[分類>#nef5c535]]・[[予測>#b33322a3]] [#w482fb5b] ***分類 [#nef5c535] -手順 ++分類によって当たりをつける ++対象を絞り込む -手法 --[[クラスタ分析>統計解析#df844c06]] --[[主成分分析>統計解析#f800acad]] --[[因子分析>統計解析#c9b821dc]] ***予測 [#b33322a3] -手順 ++予測によって影響度を測る ++先を読む ++効果を検証する -手法 --関係の強弱を知る ---相関分析 --影響度を測る ---ロジスティック回帰分析 ---(重)回帰分析 --先読み ---[[判別分析>統計解析#ke57e386]] ---[[MT法>AIの活用例#nc55395f]] --[[傾向から予測>#mcca5dca]]する。 **結果の報告 [#s99f56d5] ***記述/可視化方法 [#c7ebfd91] -要件①:調査分析の前提条件の明示~ 明示しない場合、結果を誤って解釈する事がある。 --目的、用語の定義 --データソース(期間、対象者など) --外在的要素・状況(社会情勢、制約条件など) -要件②:分析プロセスの明示~ プロセスが分析結果に影響を及ぼす事がある。 --収集方法 --分析手法 -要件③:適切な表現 --情報を正確に伝える指標設定(代表値など) --示したい事柄に適した表、グラフの種類 --図表の部位の明記(タイトル、凡例、軸、単位、出典等) ***解釈の注意点 [#j23b6ecc] [[上記>#c7ebfd91]]を踏まえて解釈する。 -パターン --不適切なサンプル ---母集団を代表していない標本。 ---偏りのある標本、少ない標本 --グラフの作為 ---基準点、単位、期間の異なる比較。 ---視覚的な錯覚を生じる表現など。 --定義の違い~ 定義の違いを無視して比較する場合など。 --認知バイアス~ ヒューリスティックス(経験則)によるバイアス ---記憶や想像のし易さによる利用可能性ヒューリスティックス ---典型事例を全体像として錯覚する代表ヒューリスティックス --[[確証バイアス>認知バイアスのパターン#wbeb08d5]]~ 仮説や信念を検証する際にそれを支持する情報ばかりを集め、~ 反証する情報を無視または集めようとしない傾向のこと。 -例 --情報の偏り(不適切なサンプル ---母数が少ない。~ 女性の大学院進学率(3人だけ) ---年賀状を出す人~ 平日昼間の固定電話による世論調査(高齢者) --軸の操作(グラフの作為 ---軸の基準点、データの単位、データの取得期間 ---変化を解り易く伝える反面、誇張にもなる。 --ロジック展開のウソ~ 正規雇用社員比率が上がった理由は非正規雇用社員の大量退職。 ---比率では解らない(実数を確認する必要がある)。 ---実数の変化が何故起きたか?も確認する必要がある。 --錯覚・思い込み ---条件付き確率 |-|X|Y|h |罹患率|0.1%|80%| |致死率|50%|0.001%| |罹患&致死率|0.05%|0.0008%| ---... **分析の発展 [#b6b105e5] ***順問題と逆問題 [#jb893ab1] データ分析における順問題と逆問題~ (定義は実際曖昧で、時代や学問分野によって異なることが多い。) -順問題:~ 原因から試行錯誤しながら結果を探索 --原因から結果を推定、[[数理モデル>#v58cff2a]]を使った予測 ---“構造”から“機能”を発見する。 ---確率や、基礎研究や基礎医学は順問題。 ---推論の結果が知識 → 知恵へと変わっていく([[DIKW>データサイエンティスト#w6ae5cf3]])。 --必要なもの ---データ(入力用) ---モデル~ ・[[数理モデル>#v58cff2a]]~ ・[[ベイズ統計の推論モデル>ベイズ統計#s6513f07]]~ ・[[フェルミ推定>#f37e932a]]~ ・[[ロジカル・シンキング>#f37e932a]]~ ・通常のシミュレーション~ -逆問題:~ 結果から、原因を探求 --結果から原因を推定、データから[[数理モデル>#v58cff2a]]を推定 ---“機能”に見合った“構造”を探す ---ある現象に着目して観測データから、~ その原因や現象を支配しているパラメタなどを決定する問題。 ---通常、原因やパラメタなどは直接的に決定することが不可能であり、~ 利用できる間接的な観測データから推定することしかできない。 --必要なもの ---データ(分析用) ---勘と経験と度胸(KKD) ---モデル~ ・[[推論統計の統計モデル>統計解析#eabd2473]]~ ・[[ベイズ統計の経験モデル>ベイズ統計#s6513f07]]~ ・逆問題解析(非破壊検査、最適形状作成、最適制御) -AUOODA(プロセス)~ [[OODA>高度午前 - システム戦略#v0959929]]が基礎で順問題と逆問題でプロセスが異なる。~ 2プロセス併用して、他方の内容を検証する方法もある。 --順問題 ---A (arrange、探索)~ ・データ群から原因となる事象を測定(Measure)~ ・試行錯誤で探索し、離れたデータ群をぶつけて共通点を探す。 ---U (understand、学習 > 理解)~ ・データを十分に理解し、事象を学習~ ・新しい列を作りながら設計(Design)し、情報化。 ---O (observe、学習 > 観察)~ 情報から規則性、あるいは、いつもとは違う“何か”を観測(Monitor)。 ---O (orient、モデル化)~ 規則性、因果関係、相関関係などをモデル化しアルゴリズム(Algorism)を考える。 ---D (decide、推論)~ ・可視化・分類した分析結果は単なる事実~ ・主観的に推論(ナレッジ化)するための解析(Analytics)。 ---A (act、実践)~ 推論で得られた真実を明確なメッセージに変える(ビジネスモデルの構築)~ ・誰に、どのような価値を提供するか【Who、What】~ ・そのために、どんな業務構造や取引先との関係が必要か【How、When、Why】~ ・どのような販売ルートと価格設定で、どれだけ収益を上げるか【Where、Which、How much】 --逆問題 ---A (act、経験値・肌感覚)~ ビジネス(モデル)上の経験値・肌感覚のデジタル化 ---D (decide、可視化)~ デジタル化した経験値を可視化していくことで解析(Analytics)の糸口にする。 ---O (orient、モデル化)~ 経験値を可視化する中で、アルゴリズム(Algorism)を見抜き数値化する。 ---O (observe、観察・検証)~ 数値化したものの正当性を得るために観察(Monitor)し、検証する。 ---U (understand、理解)~ ・なぜ、このような結果になるのか、その原因を理解する。~ ・単なる原因だけでなく、真の目的や意図(Design)をくみ取る。~ ・必要に応じデータに隠れている、人のたくらみや下心も読み取る。 ---A (arrange、原因への対策)~ ・浮き上がった原因への対策(Countermeasure)を施し、~ ・原因に繋がる事柄を整頓(Arrange)していく。 ***データ分析と数学 [#yae9dbfa] データ分析の手段と数学の間にある関係 |分析の手段|関連する数学の例|h |可視化|確率分布、統計、集合論、線形代数、&br;行列(画像データ、文字データは行列で表せる)| |分類|群論、統計| |予測|解析(フーリエ解析など)、確率、統計、&br;行列の固有値、微積分、セルオートマトン| |判別|代数、方程式論、アルゴリズム論| |推論|ベイズ推定、微積分| |トポロジカルデータ解析|幾何、トポロジー、多様体| |スパースモデリング|トポロジー、グラフ理論| ***数理モデル [#v58cff2a] -推定や予測をする。 --物事を説明するのに必要な数学的なフレームワーク。 --データの生成プロセスをおおまかに理解するため。 -モデルの仮定や検証 --モデルの妥当性、モデルのパラメータの正確な推定、モデルからの推論が関心ごと。 --テストに使われるデータは分析対象の母集団からランダムに取られたサンプル -分類 --数理モデル(決定論的・確率論的モデル~ 必ずしも不確実性を含むわけではない --[[統計モデル(非決定論的モデル>統計解析#eabd2473]]~ ---不確実性を明示的に取り込んでいく ---不規則性を確率の概念をもって表現する --構造 ---ランダム ---一定 ---線形関数(1次関数 ---2次関数 ---n次関数 ---指数関数 ---正規分布 --指向 ---理解指向モデル~ データ生成の原理・仕組を知る事に焦点を合わせたモデル。~ ・数理構造から知る~ ・推定したパラメタ値から知る~ ・推定したパラメタ値と内部構造から知る~ ・パラメタ値を変えてシミュレーションする~ ---応用指向モデル~ 現実の事象から数学化、データを生成して現実での応用に焦点を合わせたモデル~ ・回帰モデル~ ・分類モデル~ ・生成モデル~ ***想定外の軽減 [#k2617965] 想定外は予測しにくいため。 -信頼性の高いデータを使う --信頼性 = 完全性 + 正確性 + 正当性 --正当性 = 合理性 + 社会通念 + 経験則 + 客観性 -ハインリッヒの法則を応用する~ 1件の重大な事件・事故の背景には、 --29件の軽微な事件・事故があり --300件のヒヤリ・ハットした事象がある -[[“トライアングル”を成立させない>SC:脅威#e5d57324]] --動機 :[[明確な要求(デマンド:Demand)>#neb1fb65]] --機会 :モニタリング --正当化:[[顕在化した感情(エモーション:Emotion)>#neb1fb65]] -適切なデータ分量を知る --1次データは臨場感のあるデータで生々しいが、 --2次データは脚色されている可能性も高い。 ***心理学要素 [#v92546d1] 心理学要素が必要になることもあり、~ 画一化・標準化されたデータ分析を難しくしている。 -様々な[[認知バイアス>認知バイアスのパターン]] --同調効果(ミラー効果 --内集団バイアス --リスキーシフト --ハロー効果 --フレーミング効果 --アンカリング効果 --プライミング効果 --バンドワゴン効果・アンダードッグ効果 --ツアイガルニック効果、スノッブ効果、ウインザー効果 -プロパガンダ・テクニック --エコーチェンバー~ --感情への訴えかけ --衆人に訴える論証 --恐怖に訴える論証 --ヒトラーに例える論証(ゴドウィンの法則 --虚偽報道、フェイクニュース --敵対的メディア認知 -発生論の誤謬 --権威に訴える論証 --伝統に訴える論証 --新しさに訴える論証 ***人の行動・感情(非構造化データ [#neb1fb65] -データの種類 --明確な要求(デマンド:Demand)のデータ ---構造化、非構造化データ ---モノを買ったりサービスを利用したり ---デマンドドリブン型のシステム --意図のない単なる事象(イベント:Event)のデータ ---構造化、非構造化データ ---意図を持たない、単なる流れによって発生する ---イベントドリブン型のシステム(レコメンド --顕在化した感情(エモーション:Emotion)のデータ ---非構造化データ ---喜怒哀楽など、人の感情が顕在化したもの ---エモーションドリブン型のシステム --潜在的な心理(マインド:Mind)のデータ ---非構造化データ ---本人も気付いていない(潜在的)人の意識の状態や変化 ---マインドドリブン型のシステム -利用例 --退職傾向の分析 --... ***モデルとシミュレーション [#x1491573] -社会課題の解決 --感染症対策、企業経営、金融リスク、電力市場の自由化 --データだけでは難しい、事前に実験・検証が困難 ---データそのものは常に完全ではない。 ---すべてのデータが集まるわけではない。 ---従来型の統計分布や予測モデルでは僅かな事象を反映しない。 ---人間、社会、経済は実験が非常に難しい対象 ---現状のデータから「外挿」を推定する必要もある。 --モデルに基づく課題解決が重要(モデル自身も不完全) ---対象システムの主要な要素関係を抽出 ---コンピューター上でモデル化 ---シミュレーション~ ・課題をコンピューター上のモデルで再現し、~ ・解決策の効果をモデルを使用して評価する。 ***ビッグデータの法則 [#d7eb9f5c] -95%は信頼できない --日本国債の金利に影響する動きの早い海外保有量は全体の5%程度 --ブランドに関するアンケートで役立つコメントは約5% --会社を引っ張っていく影響力のある人材は5% --今後はデータを如何に捨てるかが重要に。 -パレートの法則からロングテールの法則へ~ 分布の「右側」や「左側」が重要になってきている(ビジネスチャンスが潜む)。 --付加価値が高い高級品の売り上げは伸びている。 --IT界隈のBig5、ソシャゲの廃課金者 --リスク管理(ネット炎上、ES/CS) --イノベーター理論の左右の5%への注目 --クラウド・ビジネス(低価値・低頻度の事業化) -振り子現象 --データを重視し過ぎると振り子現象などで分析麻痺が起こる。 --データとは正反対の直感が重視されるようになる。 -業界によって様々な --ベンフォードの法則~ 自然界に出てくる多くの数値の最初の桁の分布が、~ 一様ではなく、ある特定の分布になっている、という法則 --モンモール数~ 完全順列の総数、プレゼント交換がうまくいく確率 --ネイピア数~ --[[ネイピア数>DS:数学的基礎 - 微分・偏微分#adabdb73]]~ 最適停止問題、最適停止問題の一種の秘書問題 --黄金比( 1:( 1 + √5 )/ 2 ≒ 1:1.62 )~ フィボナッチ数列で、ある程度数が大きくなると、~ 数列の隣り合う数の比が限りなく黄金比に近づいていく。~ ---為替の大きな流れが約162カ月で変わるという説 --白銀比(1:√2 ≒ 1:1.414)~ 長方形の長辺を中点で2分割してできた長方形が、~ 元々の長方形と相似であるようにした辺の比 ---A4判、A5判など用紙の縦横比は白銀比 ---日本の美術や建造物で用いられ日本人の感性に合うと言われる。 --「78:22」の法則 ---空気の窒素含有率 ---体内の善玉菌と悪玉菌の比率 *活用 [#tf82d72c] **パターン [#k2a1f1e1] ***[[クロス集計>クロス集計分析]]を用いて[[離散分布>統計解析#r5c60594]]を比較 [#w894c86e] 簡単に言うと、 -[[集計結果を二次元表で見る。>クロス集計分析#pa81e392]] -[[ピボット / アン・ピボット>クロス集計分析#m6add619]] -[[ドリルダウン、ドリルアップ、ダイス、スライス、ドリルスルー>クロス集計分析#oe66323b]] などを行う。 集計元のデータが連続尺度である場合は、 >[[ヒストグラム>統計解析#pa9def8e]]などを使用して カテゴリ毎の分布を確認しても良い。 ***[[ヒストグラム>統計解析#pa9def8e]]を用いて[[連続分布>統計解析#f6645051]]を比較 [#l9940c92] 年代別来客数などを例に。 -[[可視化>#v5084e84]]の活用 --標準級間隔を設定。~ 例えば、年代別来客数なら、~ 10歳毎の世代に区切る。 --以下が読み取れる。 > +どんな種類がある? +最も多い種類はどれ? +大半のサンプルはどこ? +最小値はどれぐらい? +最大値はどれぐらい? +データ不備はある? --特徴の異なる様々な分布がある ---ピーク(峰)の数~ 異種データの混在の可能性に注意 ---ピーク(峰)の偏り~ 平均値を解釈する際に注意 ---外れ値の有無~ データ不備や異常値の可能性に注意 -[[代表値>#j6ea2557]]の活用~ 分布の特徴を少ない情報で伝えられる ***[[散布図>統計解析#wbb80cf7]]で傾向を見たり予測をしたり。 [#mcca5dca] ***時系列等で傾向を見たり予測をしたり。 [#d5519ff0] -[[クロスセクションデータ>統計解析#rd258818]]~ 実数同士では正しい比較にならない場合は、~ 規模の影響を取り除いた比率で見る([[例>統計解析#s88787fc]])。 --構成比~ 総数とその内訳の比率 --相対比 ---異なるデータを分子、分母に取った比率 ---(人口や面積など)各集団の大きさの影響を除去 >※ 余談:分母が同じで足して100%になる2つの比率は-1の相関になり意味がない。 -[[時系列データ>統計解析#pcd4198d]] --観測頻度 ---年次データ(暦年、年度 ---半期データ(暦年、年度 ---四半期データ(暦年、年度 ---月次データ ---週次データ ---日次データ ---時間データ ---不規則間隔データ --フローデータとストックデータ ---フローデータ~ ある期間内の発生量や変化量~ (例)平成25年の1年間の出生数 ---ストックデータ~ ある一時点の状態をとらえたもの~ (例)平成26年10月1日現在の人口 ---例~ ・出生数と人口~ ・販売台数と保有台数~ ・... --名目値と実質値~ 金額を扱う統計で使われる。 ---名目値~ その時その時の価格により表した金額 ---実質値~ ある基準時の価格により表した金額 名目値 = -------------- 価格指数 --季節性の調整 ---季節性の例~ ・夏:クーラー代、ビール消費~ ・冬:暖房費、鍋材料~ ・新学期:教育費~ ・ボーナス時期:高額商品 ---季節性を調整する方法~ ・簡単な方法:前年同月比 当月の値 = -------------- - 1 前年の同月の値 ・高度な方法:季節調整(季節変動を除去 )~ Excelの[データ]タブから[データ分析]をクリックし、~ ダイアログボックスで[移動平均]を選択肢、~ 月次データの場合、区間を[12]に設定する。 ---見方~ 季節調整値の傾向の変化を見る。~ ・前月比~ ・前年同月比~ ・前年同月の前月比 --季節製以外の変動を考慮~ コレ等のデータ特性を見極めた上で予測を行う。 時系列データ = 傾向・循環変動【TC】+ 変動の季節変動【S】+ 不規則変動【I】 --同時相関と相互相関~ (季節性は除かれているものとする) ---同時相関~ ・同時点での相関=2つの時系列データを並べた場合~ ・可処分所得と消費支出の相関係数 = 0.46~ ・[[擬似相関>統計解析#bad01586]]~ ・双方の時系列に単調トレンドがある時、相関があるように見える。~ ・前期比などに変換してから相関係数を計算する(→ 相関なしと解る)。 ---相互相関~ 時間差での相関 --時系列予測 ---多項式回帰による予測~ トレンドが時間の関数~ ・はっきりしたトレンドがある場合、時間の多項式を当てはめて予測~ ・1次関数が良く用いられ、高次の多項式は望ましくない。~ ・大きな構造変化が起こるときにはうまく予測できない。 ---自己回帰モデル(auto-regressive model)~ 線形予測モデル(linear prediction model)による予測。~ 実現値となる変数がその変数の過去の値と確率項に線形に依存。~ ・今現在の値を現在より前の値を重みづけして足し合わせる(線形和)ことで表現~ ・過去の変数を用いることで精度を高める。どのくらい遡るかは、統計的な判断が必要。~ ・トレンドがある場合には適用できない。 ---多くの時系列を活用した予測。~ 1つの時系列だけでの予想は困難。相互相関を活用。 --[[回帰分析>統計解析#a421ea17]]の応用~ [[説明変数>#e86ac9d5]] [𝑋] に時間 [𝑡] を適用 --より高度な時系列分析 ---多量の時系列データを使った分析~ ・パネルデータの分析~ ・高頻度観測データの活用 ---時系列の背後にある潜在要因の推定。~ ・トレンドの推定~ ・共通成分の推定 **ビジネス上での事例 [#i0a7619e] ***A / Bテスト [#wa61cb7f] -ランダム化比較試験 -ビジネス上での活用では効果検証が重要になる。 --広告デザインの売上への効果 --ウェブサイト・コンテンツのクリック率への効果 --ワクチンの感染病予防率への効果 -KGIと施策の間の関係(施策効果) を調査する。 ++対象の集団から小集団(標本)を2つ取り出す。 ++効果検証をしたい施策A/Bをそれぞれの標本に適用する。 ++それぞれの標本においてKGIを測る。 ++両施策によるKGIの分布を比較し、有意な効果があるかを判断する。 >※ 両標本に施策A/Bを適用する(A/B以外を混ぜない)ので、公平にするには、~ 両標本は全ての要因について同一である必要がある(→ ランダム・サンプリング)。 -事例 --デザイン変更の効果測定 --クーポン配布の効果測定 ***アンケート [#o9b07afc] 肝臓癌死亡率ワースト1からの脱却の[[PPDAC>BI / AI#ef5f4720]] -P (problem、問題): --肝臓癌死亡率ワースト1 --肝炎ウイルス陽性者が治療を受けていないケースが多い -P (plan、計画):~ 治療を受けるまでの意思決定過程における特徴を把握する。 -D (data、データ収集):~ 受療者及び未受療者に対してアンケートを実施。 -A (analysis、分析): --医師が早い段階から説明を行った方が受療率が高いことが判明 --アンケートの分析には[[クロス集計分析>#y3de4a0a]]などを使用できる。 -C (conclusion、結論):~ 医師が早い段階から受療の効果等について説明する取り組み ***QC手法の適用 [#j2bf684e] <以下、一変量解析> -基本統計量とヒストグラム --[[基本統計量>#j6ea2557]] --[[ヒストグラム>統計解析#pa9def8e]] -時系列図([[管理図>PMP:品質マネジメント#w0686daa]] --どう計画するか? ---仮説:時系列で値に変動がある。 ---目的の数値化 --どう読めばいいか? ---特徴:比較結果 ---意味合い:次の仮説 --EXCELでどう作るか? ---グラフ化するデータの範囲を選択 ---挿入 → 折れ線 → マーカー付き折れ線を選択 -[[パレート図>統計解析#ke4c31ef]] <以下、二変量解析> -散布図と単回帰分析 --[[散布図>統計解析#wbb80cf7]] --[[単回帰分析>統計解析#xc0279dd]] -[[クロス集計>#y3de4a0a]]とその応用 ***[[テスト分野>テスト分野の理論体系(DS)]] [#a990a43c] ***データ解析 [#y3de4a0a] -[[クロス集計分析>クロス集計分析#mfbeff94]] -[[アソシエーション分析>データ解析#wec1e143]] ***[[統計解析>統計解析#v601f98f]] [#jbf5d122] ***[[ビッグデータ>ビッグデータ#c12ecfbb]] [#k1b0f374] **コンテクストやバイアス [#d3808a0c] データがどうやって生成されているのか、そのコンテクストやバイアスなどに注意を払うべき ***社会科学データには主観が入り込みやすい [#k46e0d06] 計測単位が決まっていないため、計測する人の解釈やバイアスが入り込む。 ***全てのデータは加工済み [#o8b59c42] 全てのデータというのは実は加工されている。 -なぜそれが収集されたのか -どのように収集されたのか -どのように加工されたのか ***データは集めた人の声を代弁する [#z0623afa] -データが自分自身で話すことはない。 -大量のデータを使っても、 --客観的で、コンテクスト --因果関係、バイアス、選択、不完全性 >と言った問題は、解決できない。 -[[統計を使ってウソをつく方法からの学び>統計解析#i6f71d83]] ***データは人間の衝突を解決しない [#cec937cd] データに対する盲信は、そのデータに対する信用をも無くす。 *参考 [#h6d7caaf] **データ分析 [#x90f1963] ***[[データ解析]] [#r77a4921] xx学とか知らなくても、~ 表計算ソフトなどで取り敢えずできる系 ***[[統計解析]] [#q8dfb2b7] ≒統計学、データ分析の原点 ***[[ベイズ統計]] [#h6b70cfa] 最近流行りの機械学習・深層学習の基礎 **[[非構造化データ処理>要素技術#qa6076ee]] [#p79a1ae5] ***[[言語処理>要素技術#g4e5060c]] [#pbf26aad] ***[[音声処理>要素技術#c7baa14d]] [#s933273d] ***[[画像処理>要素技術#f0208031]] [#m58a154e] **[[BI / AI]] [#d5a61c1c] ***[[ビジネス インテリジェンス(BI)]] [#p7d1e003] ***[[人工知能(AI)]] [#ae00e827] **データサイエンティスト協会 [#a60a7c8f] -データサイエンス100本ノックをやろう~ (WindowsにDocker Desktop入れよう)~ https://www.cresco.co.jp/blog/entry/14446/ **gacco [#i5d5bea4] -機械学習/統計学/データサイエンスの無償gacco動画、全まとめ~ 【2021年秋版】:AI・機械学習の独学リソース(1/3 ページ) - @IT~ https://atmarkit.itmedia.co.jp/ait/articles/1911/07/news033.html **総務省 [#s7876825] -データサイエンス・スクール/ビジネスに役立つ統計講座~ https://www.stat.go.jp/dss/ --ビジネスに役立つ統計講座 --プレゼングラフ作成のポイント --出来る人のビジネス活用術 --あなたの統計力 --データサイエンス・オンライン講座 --統計データ分析コンペティション -データサイエンス・スクール/ビジネスに役立つ統計講座~ https://www.stat.go.jp/dss/online_index.html --社会人のためのデータサイエンス入門|総務省統計局~ https://gacco.org/stat-japan/ --総務省統計局 データサイエンス・オンライン講座~ ---第2弾「社会人のためのデータサイエンス演習」~ https://gacco.org/stat-japan2/ ---第3弾「誰でも使える統計オープンデータ」~ https://gacco.org/stat-japan3/ **DIGITAL X [#ob7317f8] Column 学校では学べないデジタル時代のデータ分析法~ https://dcross.impress.co.jp/industry/column/column20170926-02/index.html -【第1回】デジタル時代はなぜ“データ分析力”を求めるのか~ https://dcross.impress.co.jp/docs/column/column20170926-02/000111.html -【第2回】データ分析で重要なのは「列(属性)」を増やすこと~ https://dcross.impress.co.jp/docs/column/column20170926-02/000142.html -【第3回】ビッグデータの分析は客観的から主観的へ、ベイズ推定が注目される理由~ https://dcross.impress.co.jp/docs/column/column20170926-02/000196.html -【第4回】「可視化」でビギナーズラックもAmazonの戦略も理由が見えてくる~ https://dcross.impress.co.jp/docs/column/column20170926-02/000243.html -【第5回】「分類」の手法を誤ると正しい姿はみえてこない~ https://dcross.impress.co.jp/docs/column/column20170926-02/000323.html -【第6回】データに潜む関連性を見いだし将来を予測する~ https://dcross.impress.co.jp/docs/column/column20170926-02/000382.html -【第7回】未解決な事象の分析に威力を発揮するベイズ推定~ https://dcross.impress.co.jp/docs/column/column20170926-02/000444.html -【第8回】正しい分析に向けデータの特性と関係性のパターンを知る~ https://dcross.impress.co.jp/docs/column/column20170926-02/000494.html -【第9回】データの関係性パターンとしての「構造」と「空間」~ https://dcross.impress.co.jp/docs/column/column20170926-02/000535.html -【第10回】人の行動・感情を知るために必要な非構造化データの分析~ https://dcross.impress.co.jp/docs/column/column20170926-02/000570.html -【第11回】データ分析の王道としての順問題と逆問題を理解する~ https://dcross.impress.co.jp/docs/column/column20170926-02/000591.html -【第12回】データ分析で失敗しないための5つのポイント~ https://dcross.impress.co.jp/docs/column/column20170926-02/000644.html -【第13回】データ分析における心理的側面の深いつながり~ https://dcross.impress.co.jp/docs/column/column20170926-02/000696.html -【第14回】データ分析にはリスク管理・危機管理が不可欠~ https://dcross.impress.co.jp/docs/column/column20170926-02/000732.html -【第15回】データ分析には数学的・科学的手法を生かすセンスが不可欠~ https://dcross.impress.co.jp/docs/column/column20170926-02/000763.html -【第16回】データが持つ“重力”を活用するために乗り越えるべき3つの壁~ https://dcross.impress.co.jp/docs/column/column20170926-02/000783.html -【第17回】データを“金”に変えるにはメッセージが不可欠である~ https://dcross.impress.co.jp/docs/column/column20170926-02/000825.html -【第18回】データ分析に不可欠な発想力は日々の行動で磨ける~ https://dcross.impress.co.jp/docs/column/column20170926-02/000867.html -ビッグデータの法則 --【第19回】その1=95%は信頼できない~ https://dcross.impress.co.jp/docs/column/column20170926-02/000909.html --【第21回】その2=振り子現象、すべては繰り返す~ https://dcross.impress.co.jp/docs/column/column20170926-02/000990.html --【第22回】その3=数字の魔力【第22回】~ https://dcross.impress.co.jp/docs/column/column20170926-02/001038.html --【第23回】その4=広がる格差、なぜ格差が広がっているのか?~ https://dcross.impress.co.jp/docs/column/column20170926-02/001075.html -【第20回】元号は時代のブランド、新元号「令和」をブランド分析してみた~ https://dcross.impress.co.jp/docs/column/column20170926-02/000949.html -【第24回】分析の『5大アセット』が専門家にも負けない知見を生み出す~ https://dcross.impress.co.jp/docs/column/column20170926-02/001101.html -お金の分析 --【第25回】その1=メタデータしか分析できない投資信託は投資ではない?!~ https://dcross.impress.co.jp/docs/column/column20170926-02/001144.html --【第26回】その2=ベストな金融機関を選べるか~ https://dcross.impress.co.jp/docs/column/column20170926-02/001181.html --その3=年代別モデル~50歳からのお金のサバイバル術 ---【第27回】〔前編〕~ https://dcross.impress.co.jp/docs/column/column20170926-02/001203.html ---【第28回】〔後編〕~ https://dcross.impress.co.jp/docs/column/column20170926-02/001216.html --【第29回】解説編=ライフイベントの辞書から年代別モデルを作る~ https://dcross.impress.co.jp/docs/column/column20170926-02/001228.html -ヘルスケアの分析 --【第30回】その1=ストレス・肥満・フレイルを防ぐ飲み物・朝食のモデル~ https://dcross.impress.co.jp/docs/column/column20170926-02/001248.html --【第31回】その2=健康食品・サプリによる予防~ https://dcross.impress.co.jp/docs/column/column20170926-02/001272.html --【第32回】その3=ヘルスケアの辞書~ https://dcross.impress.co.jp/docs/column/column20170926-02/001331.html -【第33回】人生の岐路に役立つヒトに関する分析~ https://dcross.impress.co.jp/docs/column/column20170926-02/001397.html -【第34回】時系列の分析で新たな意味を見いだせるメタデータの価値~ https://dcross.impress.co.jp/docs/column/column20170926-02/001458.html -【第35回】メタ分析で隠れた真実をあぶり出す~ https://dcross.impress.co.jp/docs/column/column20170926-02/001556.html -【第36回】データ分析と心理学の深いつながり~ https://dcross.impress.co.jp/docs/column/column20170926-02/001611.html -【第37回】分析では複数の手法の組み合わせが大切~ https://dcross.impress.co.jp/docs/column/column20170926-02/001710.html **Qiita [#kd8b5336] -データはほんとうに「真実」なのか~ https://qiita.com/KanNishida/items/afe0d088bda503115fb1 ***[[統計解析>統計解析#kd8b5336]] [#h6ae3ac3] ***[[ベイズ統計>ベイズ統計#f92c5a25]] [#o32c2295]