「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。 目次 †概要 †分析の基本 †考える順序 †作業順の逆順で考える。
属性を見出す †属性が分析の基準になるため、 関係性を見出す †
関係性パターン †
展開、推論 †
変数と尺度 †説明変数と目的変数 †
名義尺度(質的データ) †
連続尺度(量的データ) †
上記以外の分類 †
解明の仕方 †要因の状況把握 †
要因と結果の関係 †
複数要因の関係 †
定量分析 †プロセス †
ロジカル・シンキング †
構造分析 †数字の大小ではなく構造を理解する。
定量化と定性化 †定性化:定量的なデータを可視化&比較して意味合いを抽出。
仮説検証の分析計画 †
詳細 †分析手法 †可視化・分類・予測 †
変数の数や尺度で分類 †変数の数
分析の目的で分類 †
分析のプロセスで分類 †
その他、利用頻度、関連 †
可視化・代表値(統計量) †可視化 †
関係の見方 †
代表値(統計量) †母集団から無作為抽出されたデータ(標本)から
分布の中心 †
分布のバラつき †
分類・予測 †分類 †
予測 †
結果の報告 †記述/可視化方法 †
解釈の注意点 †上記を踏まえて解釈する。
分析の発展 †順問題と逆問題 †データ分析における順問題と逆問題
データ分析と数学 †データ分析の手段と数学の間にある関係
数理モデル †
想定外の軽減 †想定外は予測しにくいため。
心理学要素 †心理学要素が必要になることもあり、
人の行動・感情(非構造化データ †
モデルとシミュレーション †
ビッグデータの法則 †
活用 †パターン †クロス集計を用いて離散分布を比較 †簡単に言うと、 などを行う。 集計元のデータが連続尺度である場合は、
カテゴリ毎の分布を確認しても良い。 ヒストグラムを用いて連続分布を比較 †年代別来客数などを例に。
散布図で傾向を見たり予測をしたり。 †時系列等で傾向を見たり予測をしたり。 †
ビジネス上での事例 †A / Bテスト †
アンケート †肝臓癌死亡率ワースト1からの脱却のPPDAC
QC手法の適用 †<以下、一変量解析>
<以下、二変量解析>
テスト分野 †データ解析 †統計解析 †ビッグデータ †コンテクストやバイアス †データがどうやって生成されているのか、そのコンテクストやバイアスなどに注意を払うべき 社会科学データには主観が入り込みやすい †計測単位が決まっていないため、計測する人の解釈やバイアスが入り込む。 全てのデータは加工済み †全てのデータというのは実は加工されている。
データは集めた人の声を代弁する †
データは人間の衝突を解決しない †データに対する盲信は、そのデータに対する信用をも無くす。 参考 †データ分析 †データ解析 †xx学とか知らなくても、 統計解析 †≒統計学、データ分析の原点 ベイズ統計 †最近流行りの機械学習・深層学習の基礎 非構造化データ処理 †言語処理 †音声処理 †画像処理 †BI / AI †ビジネス インテリジェンス(BI) †人工知能(AI) †データサイエンティスト協会 †
gacco †
総務省 †
DIGITAL X †Column 学校では学べないデジタル時代のデータ分析法
Qiita †
統計解析 †ベイズ統計 † |