「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>データ分析]] --[[データ解析]] --統計解析 --[[ベイズ統計]] *目次 [#aabde7d1] #contents *概要 [#x1be97cb] -[[データ分析]]の原点はデータ容量に関わらず統計学の考え方 -[[確率は「順問題」、統計は「逆問題」>データ分析#jb893ab1]] **分類 [#ye8cca29] 統計学は以下に分類できる。 -記述統計・推計統計(ネイマン・ピアソン統計) -確率統計(ベイズ統計) ***記述統計 [#z3664fb7] データを集計する手法を学ぶ学問、データの特徴を表現([[推測統計>#q0a11bcf]]の基礎) -あるデータに対して、そのデータの特徴をより簡単に解り易く表現する。 -複雑なデータをシンプルな形にする事で人間が理解し易くする。 ※ 全数調査が前提 ***推測統計 [#q0a11bcf] 限られた標本から調査したい母集団全体の特徴を推測するという学問 -竜巻から生き残る可能性が高い方法(シェルター or 橋の下)を予測する。 -全人口の一部サンプルから全人口を予測する。 -ある年、ある町で医療の処方を受ける必要がある人口を予測する。 -何人くらいの人が明日スーパーに来るのかを予測する。 ***[[ベイズ統計]] [#e290e80f] -標本を必ずしも必要としない、母数が確率的に動くとみなす。 -手元のデータが不十分であることを前提に新たに情報が得られるたびに考え方を更新する。 **モデル [#eabd2473] データとモデルが問題解決の両輪で、~ データとモデルの解釈が重要になる。 ***統計モデル [#s24982db] 統計モデル(非決定論的モデル -[[決定論的数理モデル>データ分析#v58cff2a]]+ノイズ -基本パーツは、あくまで[[確率分布>#efae792f]] -ごく一部のデータから、真の分布を仮定して、~ [[全体の平均(代表値)>データ分析#j6ea2557]]や[[分散>#m656dd23]]の値を推測する。 --[[全体の平均(代表値)>データ分析#j6ea2557]]や[[分散>#m656dd23]]を計算するだけでは、統計モデリングとはいえない。 --[[ヒストグラム>#pa9def8e]]に[[正規分布>#ef7464d6]]を重ねあわせたらモデリングに一歩足を踏み入れている。 -記述能力・汎化能力 --記述能力:モデルのパラメタ推定に使ったデータを再現する能力 --汎化能力:モデルのパラメタ推定に使わなかったデータを予測する能力 --トレードオフ ---パラメタの少ない簡単な統計モデルでは記述能力が低下。 ---パラメタの多い複雑な統計モデルでは汎化能力が低下。 -分類 --線形モデル~ いわゆる通常の単回帰分析のモデル --一般線形モデル~ 重回帰分析・分散分析・共分散分析などを表す線形モデルの拡張 --一般化線形モデル~ [[目的変数>データ分析#e86ac9d5]]に[[正規分布>#ef7464d6]]を仮定しない拡張された拡張 --一般化線形混合モデル ---サンプルにグループ構造が存在する場合にグループ間の差による変動も組み込んだモデル ---パラメタを消すため、積分回数も増え計算時間もかかり、推定も不安定になるためを用いるのが良い。 --[[ベイズモデル>#xeef498a]] ***[[ベイズモデル>ベイズ統計#w036ba0b]] [#xeef498a] [[統計モデル>#s24982db]]のパラダイムシフト ***[[AIのモデル>ベイズ統計#s6513f07]] [#p27a4de6] 学習によって推論モデルを構築する。 *統計表 [#t259dbee] **基本的な表 [#ff177fed] ***度数分布表 [#o336fc8e] -一変量解析 --統計において標本として得たある変量の値のリスト --変数(カテゴリ)、あるいは適当な範囲で、~ 分類したデータの個数を数えて表にしたもの。 -計算方法~ 表計算ソフト(Excel、LibreOffice Calc)では --数値データはFREQUENCY関数を、 --それ以外はCOUNTIF関数を使用する。 ***[[ヒストグラム>https://www.google.com/search?q=%E3%83%92%E3%82%B9%E3%83%88%E3%82%B0%E3%83%A9%E3%83%A0&tbm=isch]] [#pa9def8e] -一変量解析 --[[度数分布表>#o336fc8e]]を棒グラフに似た図で表現したグラフ。 --データの分布状況を視覚的に認識するために用いられる。 -分析プロジェクト的に --どう計画するか? ---仮説:連続する階級に分布する度数に傾向がある。 ---目的の数値化 --どう読めばいいか? ---特徴:比較結果 ---意味合い:次の仮説 ---特徴的な分布~ ・現象の多くは正規分布に従う~ ・二山形:異なる2種類のグループが混在している可能性~ ・離れ小島:集団の一部に対して特定の異常が発生している可能性 -どう作るか? --[[Matplotlib>Matplotlib#dd9449c5]] --Excelで~ 表計算ソフト(Excel、LibreOffice Calc)では~ [[度数分布表>#o336fc8e]]を作成して棒グラフで表示する。 ***[[パレート図>https://www.google.com/search?q=%E3%83%91%E3%83%AC%E3%83%BC%E3%83%88%E5%9B%B3&tbm=isch]] [#ke4c31ef] -一変量解析 --パレートの法則(80:20の法則)的に偏りを見る。 --以下を組み合わせた複合グラフ ---値が降順にプロットされた棒グラフ ---その累積構成比を表す折れ線グラフ -分析プロジェクト的に --どう計画するか? ---仮説:属性で値に偏りがある。 ---目的の数値化 --どう読めばいいか? ---特徴:比較結果 ---意味合い:次の仮説 -どう作るか? --[[Matplotlib>Matplotlib#oc3f2690]] --Excelで ---度数でソート後 ---構成比率、累積構成比率を追加 ---階級毎、度数で棒グラフ化 ---累積構成比率を折れ線グラフ化 ***[[散布図>https://www.google.com/search?q=%E6%95%A3%E5%B8%83%E5%9B%B3&tbm=isch]] [#wbb80cf7] -二変量解析 --2次元にプロットする方法 --[[2変数間の関係>#kac67a35]]を見るのに役立つ -プロットの後、 --[[相関分析>統計解析#bad01586]]で指標化できる。 --[[単回帰分析>統計解析#a421ea17]]で予測できる。 --3変数に拡張 ---量的変数ならプロットを色分け ---3次元プロット(ただし見難い) ---バブル・チャート(プロットが多いと見難い) -分析プロジェクト的に --どう計画するか? ---特徴:[[2変数間の関係>#kac67a35]] ---意味合い:次の仮説 --どう読めばいいか? ---特徴:比較結果(関係) ---意味合い:次の仮説 -どう作るか? --[[Matplotlib>Matplotlib#p8bdbbdb]] --Excelで~ 挿入 → 散布図 → 散布図(マーカーのみ)を選択 **時間を含む場合に使用する表 [#yced16e9] ***パネルデータ [#l1e8876a] -各分類の各時点のデータ -大規模なデータになることが多い。~ ([[クロスセクションデータ>#rd258818]]、[[時系列データ>#pcd4198d]]の元データ) -例:各都道府県の1981年から2014年までの人口データ ***クロスセクションデータ [#rd258818] -時点を固定した時の様々な分類のデータ -[[パネルデータ>#l1e8876a]]を時系列で集計した表の~ 特定の時点の分類のデータを並べたもの。 --データの並ぶ順番に意味はない --例:2014年1月1日時点の各都道府県の人口データ ***時系列データ [#pcd4198d] -同じ分類で時点が異なるデータ -[[パネルデータ>#l1e8876a]]を時系列で集計した表の~ 特定の分類のデータを時系列に並べたもの。 --データは並び順は通常、古い -> 新しい順 --例:東京都の1981年から2014年までの人口データ -可視化は、[[時系列プロット、ヒストグラム>データ分析#j2bf684e]]で行う。 *分布 [#g914fdcf] 平均値からの散らばり **分布を指標化した数値 [#taf4df67] ***[[図表>データ分析#o1f7e894]] [#vaedde39] ***分散 [#m656dd23] -データの散らばりの度合いを表す値。 --散らばりが大きいと分散も大きくなり、 --散らばりが小さいと分散は 0 に近づく。 -計算方法 --Excelであれば、~ 「分散 = VARP(値の範囲)」で計算可能。 --二乗偏差の平均~ σ^2 = 偏差平方和 / 自由度 ---自由度 = 標本の数 - 1 ---偏差平方和 = Σ((各データ値 - 平均値)^2) --[[期待値>#uc4eb504]]から計算する。 V(X) = E(X^2) - E(X)^2 ---離散型 V(X) = Σ(X - E(X))^2 P(X) ---連続型 V(X) = ∫-∞~∞(X - E(X))^2 P(X) dx --サイコロの例 |出目|X|1|2|3|4|5|6| |出目^2|X^2|1|4|9|16|25|36| |確率|P(X)|1/6|1/6|1/6|1/6|1/6|1/6| |>|E(X^2) =|1/6 +|4/6 +|9/6 +|16/6 +|25/6 +|36/6| |分散|V(X)|>|>|>|>|>|E(X^2) - [[E(X)^2>#uc4eb504]] = (1+4+9+16+25+36)/6 - (7/2)^2 = 91/6 - 49/4 = 35/12| ***標準偏差 [#g9d1e77e] -データの散らばりの度合いを表す指標。 -計算方法 --Excelであれば、~ 「= STDEVP(値の範囲)」で計算可能。 --計算式は、~ [[分散>#m656dd23]]を平方根にとる。 ---σ = √σ^2 ---平方根(√)は 値^0.5 で計算可能。 ***偏差値 [#w1e5109d] 偏差値 = 50 + [[標準偏差>#g9d1e77e]] * 10 ※ ばらつきが小さいテストで高得点だと高くなる。 ***分布の形 [#d33a767c] -尖度~ ピーク(峰)への集中度合いを示す値 -歪度~ 左右の非対称性(ピーク(峰)の偏り)を示す値 **確率分布 [#efae792f] -[[区間推定>#b62b2874]]、[[検定方法>#t6e0e6bc]]などで活用できる。 -なんとなく、軸の説明を目にすることが少ないが、 --縦軸は確率密度、≒ 頻度、定義域内での値の相対的な出易さ --横軸は確率変数、≒ 取り得る値全体、分布上の位置 ***離散分布 [#r5c60594] 0 でない確率をとる確率変数値が高々可算個である確率の分布。 ***連続分布 [#r5c60594] 連続的な値の分布であり、ある範囲の値が起こる確率の分布 ***正規分布(ガウス分布) [#ef7464d6] -連続的な変数に関する確率分布の一つ(絶対[[連続確率分布>#r5c60594]]) -データが平均値の付近に集積するような分布 -確率密度関数の式と実装 --式 = 1 / √(2πσ^2) * exp(-(x-μ)^2/(2σ^2)) --実装~ a=μ(平均), [[b=σ>#g9d1e77e]] def gauss(x, a=0, b=1): return 1 / np.sqrt(2*np.pi*b**2) * np.exp(-(x-a)**2/(2*b**2)) -尤度関数 --対数尤度関数の式 = - N/2 log (2πσ^2) - 1/(2σ^2) Σ((x-μ)^2) -標本数 --大数の法則~ 標本数nを増やすほど標本平均は母平均μに近づく。 --中心極限定理 ---母集団の分布にかかわらず、~ その標本平均(抽出された標本の平均)は正規分布する。 ---自然界や統計ではよく現れる。~ ・サイコロを n 回振ったときの出た目の和。~ ・ビギナーズラックが起こる理由は正規分布で説明できる ---分布に関して事前知識がない場合、~ 最初にモデルとして検討される分布~ ・独立な確率変数の平均は近似的に正規分布~ ・モデル化したい分布の多くは正規分布に近い。 -[[標準偏差>#g9d1e77e]]の範囲 → [[信頼区間>#b02ec786]] --左右に1.00[[標準偏差>#g9d1e77e]]の範囲に全体の68%が含まれる。 --さらに1.96倍の範囲に全体の95%が含まれる。 --さらに2.58倍の範囲に全体の99%が含まれる。 ***標準正規分布 [#dfbd964b] -平均が0で[[標準偏差>#g9d1e77e]]が1の正規分布。 -単位正規分布表またはZテーブルで積分計算せず確率計算が可能。 ***多変量正規分布 [#k0930e32] -1次元の正規分布を高次元へと一般化した確率分布 - ***二項分布 [#e97e8075] [[反復試行の確率>人工知能(AI)#d68fd4d7]]分布 -代表的なのは、コイン投げをたくさん行ったときの表が出る回数の分布 -Aが起こる確率をpとしたときに、繰り返し試行した結果、Aが起こる回数の分布 --確率pが0.5に近く、試行回数が十分大きいときは[[正規分布>#ef7464d6]]に近づき、 --確率pが小さいときには[[ポアソン分布>#wb452c46]]に近づく。 -[[ベルヌーイ分布>#aa908967]]との[[関係>E資格:試験対策#g7776c73]] --[[期待値>#uc4eb504]]:np --[[分散>#m656dd23]]:n(p(1-p)) ***ポアソン分布 [#wb452c46] -ある時間間隔で発生する事象の回数を表す[[離散確率分布>#r5c60594]]。 -元々は戦争で兵隊が馬に蹴られて死ぬ確率を表した分布~ (≒ 稀に起こる現象の発生確率を示す分布) -情報工学では重要な確率分布 --めったに起こらないが、起こるとある時期に固まって起きやすくなる現象、 --例えば、システムの信頼度、故障率、待ち行列といった現象に適用される。 -[[二項分布>#e97e8075]]の極限がポアソン分布になるらしい。 ***対数正規分布 [#n362b272] -確率変数 Y が[[正規分布>#ef7464d6]]に従うとき、e^Yが従う分布 -人工的な現象は歪な対数正規分布になる。 --身長の分布と違い体重の分布 --ロングテイルによって特徴づけられる給与や個人資産の分布~ (少数の大資産家と大多数の小資産家からなる世界) ***一様分布 [#f6645051] -離散型あるいは連続的な変数に関する確率分布の一つ -すべての事象の起こる確率が等しい現象のモデル --離散一様分布~ サイコロを振ったときの、それぞれの目の出る確率など --連続一様分布~ ある区間にモノを無作為に落としたとき、その区間のどこに落ちるかなど ***べき分布 [#c2367cc7] -まれにしか発生しない現象など --自然現象:1950年代に地震の大きさと頻度の調査で発見され近年急速に研究が進んだ。 --経済現象:株価、為替などの市場価格の変動、所得、純資産の分布 --社会現象:本の売上分布、論文の数と引用された回数、戦争の発生頻度と死者数 -[[正規分布>#ef7464d6]]との比較 |分布|平均|[[分散>#m656dd23]]|特長|h |正規分布|意味あり|意味あり(平均値からの乖離具合)|ランダム| |ベキ分布|意味のない場合がある|意味のない場合がある|ファット・テール| -型 --連続型:パレート分布 --離散型:ジップ分布 ***ベータ分布 [#q475cfbd] 連続確率分布(絶対連続分布)で、~ 第1種ベータ分布および第2種ベータ分布がある。 ***ガンマ分布 [#ve7b8457] 連続確率分布の一種(絶対連続分布)、~ 形状母数 k、尺度母数 θ の2つの母数で特徴づけられる。 ***三角分布 [#w6313e73] -最小値、最大値、および最頻値によって定義される連続分布 -分布の形状は三角形になる --最小値から開始し、 --最頻値でのピーク値まで直線的に増加し、 --最大値まで直線的に減少 ***ワイブル分布 [#kcde0d2f] 機械や物体が壊れる、劣化するといった現象になる確率を示す。 ***バスタブ曲線 [#a44bd530] 時間が経過することによって起こってくる機械や装置の故障の割合の~ 変化をしめすグラフのうち、その形が浴槽の形に似ている曲線。 ***OC曲線 [#u30aacba] 製品の製造過程などで抜き取り検査を行う際に、~ 製造ロットの不良率と検査合格率の関係を表したグラフ。 ***ベルヌーイ分布 [#aa908967] [[離散確率分布>#r5c60594]] -確率質量関数~ 確率変数Xが、0 or 1 P(X=x) = p^x * (1-p)^(1-x) -具体例としてはコイン投げがよく挙げられる。 --表: P(X=1) = p^1 * (1-p)^(1-1) = p --裏: P(X=0) = p^0 * (1-p)^(1-0) = 1-p --[[期待値>#uc4eb504]]はp = 0(1-p) + 1(p) = p --[[分散>#m656dd23]]はp(1-p) E(X^2) = 0^2(1-p) + 1^2(p) = p E(X)^2 = p^2 V(X) = p - p^2 = p(1-p) -出る確率と[[期待値>#uc4eb504]]、[[分散>#m656dd23]] --確率 ---表P(X=1)=1/3の時、 ---裏P(X=0)=1-P(X=1)=1-(1/3)=2/3の時 --[[期待値>#uc4eb504]]、[[分散>#m656dd23]] ---[[期待値>#uc4eb504]]は 1P+0(1-P) = P = 1/3 ---[[分散>#m656dd23]]は 1^2P+0^2(1-P) - P^2 = P-P^2 = P(1-P)= 1/3(1-(1/3))=2/9 -試行n回でk回起きた(nCk) --尤度関数 = P^k (1-P)^n-k --尤度関数を微分 ---この式が = 0になるPがもっともらしい推定値(最尤推定量)。 ---この関数を微分するのは少々面倒なので、対数尤度関数を微分し、最大値を考える。 --対数尤度関数 = k log(P) * n-k log (1-P) --対数尤度関数を偏微分~ この式が = 0になるPがもっともらしい推定値(最尤推定量)。 = k/P - n-k/(1-P) -確率分布の表現例 --表が出ると言う事象に1、裏がでるという事象に0 --4枚のコインを同時に投げて裏表どちらが出るかという試行を1200回行う |事象|表:4, 裏:0|表:3, 裏:1|表:2, 裏:2|表:1, 裏:3|表:0, 裏:4|| |確率変数|4|3|2|1|0|| |回数|75|300|450|300|75|| |確率|75/1200=1/16|300/1200=4/16|450/1200=6/16|300/1200=4/16|75/1200=1/16|確率の和:(1+4+6+4+1)/16=1| |確率変数と確率の積|(1*4)/16=4/16|(4*3)/16=12/16|(6*2)/16=12/16|(4*1)/16=4/16|(1*0)/16=0/16|分布の期待値:(4+12+12+4+0)/16=32/16=2| ***マルチヌーイ分布 [#t1a00fea] (カテゴリ分布) -[[離散確率分布>#r5c60594]] -[[ベルヌーイ分布>#aa908967]]を実現値が3つ以上の場合にも対応できるよう拡張した確率分布 -サイコロを振ったとき1つの面kの出目の確率をpkとして、 --k面が出る事象を X=1 --k面以外が出る事象を X=0 > とすればXはマルチヌーイ分布に従う。 -尤度関数 --Kはクラスの総数で出力ベクトルの次元に一致。 --nkはクラスkに所属するサンプル数(0か1か) --pkはクラスkのサンプルが新たに得られる確率 Cat(x|p)=p1^n1...pk^nk...pK^nK ***t分布 [#aa2fd36e] 標本数が十分に多ければ[[正規分布>#ef7464d6]]が期待できる標本でも、~ 標本数が少ない場合は[[正規分布>#ef7464d6]]よりも[[分散>#m656dd23]]が大きくなる。 -このような場合に用いられる確率分布がt分布。 -標本数が少ない場合に[[正規分布>#ef7464d6]]の代用として用いられる。 ***X^2分布 [#d9b76532] -カイ二乗(X^2)分布は、標本の[[分散>#m656dd23]]の分布 --自由度が大きくなると[[分散>#m656dd23]]の分布は[[正規分布>#ef7464d6]]に近づく。 --標本分散から母分散を予測する場合に利用する~ 分布のため[[推測統計>#q0a11bcf]]では広く用いられる分布 -サンプル数が少ないほど、指数関数的な分布になる。 -計算方法~ --期待度数: ---行要素と列要素が独立であると仮定した際の[[期待値>#uc4eb504]] ---計算式:= 当該列ラベル総計 ×(当該行ラベル総計 ÷ 全データ数) --カイ二乗(X^2)値: ---カイ二乗(X^2)分布の値 ---計算式:= (実測値 - 期待度数)^ 2 ÷ 期待度数 -参考 --[[X^2検定>#if297860]] --[[決定木分析>#lcaf7a28]] ***F分布 [#l1fbf154] -[[正規分布>#ef7464d6]]する母集団から無作為に抽出された標本の[[分散>#m656dd23]]比の分布 --標本それぞれの自由度によってF分布の形状は異なる。 --差を比較するときに有効な分布で[[分散>#m656dd23]]分析に用いられる。 >[[カイ二乗(X^2)分布>#d9b76532]]と同様に、~ サンプル数が少ないほど、指数関数的な分布になる。 -参考 --[[F検定>#r266c74e]] **標本分布 [#s5619cd9] 統計数値の精度を知るなど。 -母集団の分布~ 母集団 → 全数調査 -標本の分布~ 標本 → 標本調査 → [[代表値>データ分析#j6ea2557]]の推定(推定値を計算) --平均 --[[分散>#m656dd23]] --[[標準偏差>#g9d1e77e]] -推定値の正確さを知るため~ 推定を繰り返し推定値の分布(標本分布)を作る。 ***期待値 [#uc4eb504] -確率論において、確率変数のすべての値に確率の重みをつけた加重平均。 -確率分布において、標本分布の平均値 --性質1:期待値は母集団平均に"平均的"に一致する。 --性質2:母集団分布によらず、標本サイズが大きいとき期待値は[[正規分布>#ef7464d6]]に近づく。 -離散型と連続型の確率分布と期待値 --離散型の場合、 ---Σ(総和)で計算する。 E(X) = Σ X P(X) ---サイコロの例 |出目|X|1|2|3|4|5|6| |確率|P(X)|1/6|1/6|1/6|1/6|1/6|1/6| |期待値|E(X)|>|>|>|>|>|1+2+3+4+5+6/6=21/6=7/2=3.5| --連続型の場合 ---∫(積分)で計算する。 ∞ E(X)=∫ X P(X) dx -∞ ---なお、∫P(X) dxは必ず 1 になる必要がある(あたりまえ、っちゃ、あたりまえ)。 ---サイコロの例ではないが、確率密度関数P(X)=1/6において確率変数が0から6の範囲をとるときの~ ・確率:なんとなく0-6(連続)で、6回なので、この値(=3)になるのは直感的には理解できる。 6 6 E(X)=∫ X 1/6 dx = [x^2/6*2] = [6^2/12] - [0/12] = 36/12 - 0 = 3 0 0 ・期待値:上記にxをかけた値で積分する。 6 6 =∫ X^2 1/6 dx = [x^3/6*3] = [6^3/18] - [0/18] = 216/18 0 0 -期待値と...の関係 --[[分散>#m656dd23]] --[[共分散>#bad01586]] -確率分布と期待値と分散 --離散型の場合:[[ベルヌーイ分布>#aa908967]]、[[マルチヌーイ分布>#t1a00fea]] --連続型の場合:[[正規分布(ガウス分布)>統計解析#ef7464d6]] ***標準誤差率 [#k55b23a6] 標本分布の[[標準偏差>#g9d1e77e]]を標準誤差と言う。 -性質3:標準誤差は抽出する標本サイズの平方根に反比例する。 --標本サイズが小さいと標本平均の差は大きい。 --標本サイズが大きくなれば標本平均の差は小さくなる。 -標準誤差率は、以下のように計算できる。 = 標準誤差 / 推定値 ***信頼率(危険率) [#fc84c5cb] -信頼率:予測の当たる確率 -危険率:予測の外れる確率 ***信頼区間 [#b02ec786] -標本の平均から母集団の平均を推測することができる。 --[[信頼率(危険率)>#fc84c5cb]]と信頼区間はトレードオフの関係にある。 --[[正規分布を標準正規分布>#ef7464d6]]に変換(標準化)し、~ [[信頼率>#fc84c5cb]]95%もしくは99%における信頼区間を求める --この区間をn%信頼区間と呼び、 ---[[期待値>#uc4eb504]]からのn%信頼区間は、 ---n%の確率で母集団平均を含む。 -計算方法 --信頼区間を求める不等式 z = 正規分布の横軸の値 = 信頼区間の範囲 信頼区間の下限 ≤ z ≤ 信頼区間の上限 -- zを展開する 標本平均 - 母平均 = 信頼区間の下限 ≤ ───────────── ≤ 信頼区間の上限 不偏標準偏差 / √自由度 --母平均についての不等式にする 信頼区間の下限 * 不偏標準偏差 信頼区間の上限 * 不偏標準偏差 = ─────────────── ≤ 標本平均 - 母平均 ≤ ─────────────── √自由度 √自由度 信頼区間の上限 * 不偏標準偏差 信頼区間の下限 * 不偏標準偏差 = 標本平均 + ─────────────── ≤ 母平均 ≤ 標本平均 + ─────────────── √自由度 √自由度 --値の入手元 ---自由度 :標本サイズ ---標本平均 :標本分布 ---不偏標準偏差 :標本分布 ---信頼区間の上下限:正規分布表 >※ 平方根(√)は 値^0.5 で計算可能。 ***サンプルサイズ [#pee6a212] 一般的にサンプルサイズは[[標準誤差>#k55b23a6]]と[[信頼区間>#b02ec786]]から逆算して求める。 *変数間の関係 [#dc50258a] **回帰分析 [#xc0279dd] ***線形単回帰・重回帰分析 [#sae065f6] [[説明変数>データ分析#e86ac9d5]]の数により以下に分けられる。 -[[線形単回帰分析>#a421ea17]] -[[線形重回帰分析>#na76c5ec]] ***回帰係数、偏回帰係数 [#we736db5] -回帰係数 --[[目的変数>データ分析#e86ac9d5]]に対する影響度合い。 --例えば、y=βx+αという単回帰 ---[[目的変数>データ分析#e86ac9d5]]:y ---[[説明変数>データ分析#e86ac9d5]]:x ---回帰係数:β ---切片:α -偏回帰係数 --[[説明変数>データ分析#e86ac9d5]]同士の影響を取り除いた、[[目的変数>データ分析#e86ac9d5]]に対する影響度合い。 --例えば、y=γx1+βx2+αという単回帰 ---[[目的変数>データ分析#e86ac9d5]]:y ---[[説明変数>データ分析#e86ac9d5]]:x1, x2 ---偏回帰係数:β、γ ---切片:α ***P値(有意確率) [#j018ff00] -計算された[[回帰係数>#we736db5]]が0である確率。 --計算されたβ=1.0が、推定によってβ=0.0(xとyは無関係)になる確率 --故にP値を計算して十分に小さい場合にのみ ≒ x と y に関係があると言える。 -全体の面積を1とした、[[t分布>#aa2fd36e]]を考える。 --t値: ---棄却域の境界 ---大きいほど(母集団との)ズレが大きい --P値: ---棄却域の面積 ---小さいほど(母集団との)ズレが大きい --片側検定、両側検定がある。 -P値が... --回帰分析~ 0.05(5%有意水準)よりも小さい(大きい)値の場合、~ [[目的変数と説明変数>データ分析#e86ac9d5]]の間に関係がある(ない)確率が高い。~ (関係がない場合、該当する[[説明変数>データ分析#e86ac9d5]]を分析の対象から削除する場合もある。) --[[仮説検定>#t6e0e6bc]]~ 0.05(5%有意水準)よりも大きい(小さい)値の場合、~ 標本の平均 = 母集団の平均 の可能性は 5% 以下(以上)で、~ 帰無仮説(集団間に「差はない」と言う仮説)は棄却(採択)される。 ***[[多項式回帰>#oe32e0f1]](非線形性の導入 [#j2991011] **2変数間の関係 [#kac67a35] 二変量解析(y = f(x)) ***相関分析 [#bad01586] -[[散布図>#wbb80cf7]]上で見た変数間の関係を指標化できる。~ 事前に[[散布図>#wbb80cf7]]を書くことは、以下のように重要になることがある。 --無相関と思っていたのに、~ グループ分けによって相関が発現 --外れ値に気づかず、相関が高いと判断 ---外れ値は取り除く。 ---外れ値レコードが様々な列を持ってる場合、~ ココから更に[[クロス集計分析]]しても良い。 -共分散: --変数のデータの関係を示す指標で、 ---プラス:右肩上がりの[[散布図>#wbb80cf7]](正比例) ---ゼロ:関係が無い(相関が無い) ---マイナス:右肩下がりの[[散布図>#wbb80cf7]](反比例) --計算方法 ---表計算ソフト(Excel、LibreOffice Calc)ではCOVAR関数を使用する。 ---データ間での、偏差(平均との差)の積の平均値 ---[[期待値>#uc4eb504]]で表すと、 Cov[X, Y] = E[(X-E[X])(Y-E[Y])] = E[(XY)]-E[(X)]E[(Y)] ---cov (f(x), g(y)) = 5であるとするとcov (f(x)+4, 2g(y)) の値は?~ ・共分散の性質: cov(aX, bY) = a*b*cov(X, Y)~ ・cov(f(x)+4, 2g(y)) = 2*1* cov(f(x)+4, g(y)) = 2 * cov(f(x), g(y)) = 2*5 = 10 -相関係数:~ --相関係数は直線的な関係の強さを表す指標 ---スケールによらない。 ---因果関係を表さない。 --標本点が一直線上にある:線形(linear) ---右上がり(傾きが正):正の相関、相関係数=0~+1 ---右下がり(傾きが負):負の相関、相関係数=0~-1 ---目安~ ・0 ~±0.1:無相関~ ・±0.1~0.3:弱い相関~ ・±0.3~0.7:中程度の相関~ ・±0.7~1 :強い相関 --標本点が一直線上にない:非線形(nonlinear) ---多次元、離散的、外れ値を含む。 ---外れが多い程、相関係数は0に近くなる。 ---相関係数=0なら無相関 --計算方法 ---表計算ソフト(Excel、LibreOffice Calc)ではCORREL関数を使用する。 ---共分散を横軸と縦軸の[[標準偏差>#g9d1e77e]]の積で割る。 X・Yの共分散 = ------------------------- Xの標準偏差 * Yの標準偏差 -擬似相関~ (因果関係を包含しない見せかけの相関) --共変関係 ---共通因子が生み出す2つの結果の間の相関関係。 ---例えば、所得と健康満足度に年齢と言う共通因子がある。 --[[同時相関>データ分析#d5519ff0]]~ 時系列に単調トレンドがある場合の相関関係。 --偶然~ 再調査や類似研究の結果を確認する。 --バイアス~ 標本に偏りがある(相関が、有るのに無い、無いのに有る。の様な間違いが起きる)。 --因果の流れが逆~ 残業と(能率ではなく)効率(能率なら残業しないほうが高いかも) ---✕:残業をやめれば、効率が上がる。 ---○:効率の良い人が残業をしていない。~ (≒ 業績の良い企業・組織の人が残業をしない) --因果の証明が難しい。 ---緑茶の消費量が多い地域は長生き。~ 長生きの原因は緑茶か?は証明が難しい。 ---おにぎりを買う人はお茶も買う?~ データを以下のように[[クロス集計分析]]する。~ ・縦軸:お茶、横軸:おにぎり(因果関係なし:お茶 → おにぎり)~ ・縦軸:おにぎり、横軸:お茶(因果関係あり:おにぎり → お茶) -線形外挿の危険性 --外挿とは、そのデータの範囲の外側で予想される数値を求めること。 --線形外挿とは、線形補間をデータ範囲の外側の点に対して適用する最も簡単な外挿。 --より広い範囲でデータを取ったら曲線的な関係で、その一部が直線的という事があり得る。 --故に、データが得られた周辺の入力に対してしか、予測が信頼できない。 ***線形単回帰分析 [#a421ea17] -相関関係の分析~ 因果関係と断定できない。~ 線形外挿の危険性がある。 --1つの[[目的変数>データ分析#e86ac9d5]]([[量的>データ分析#sfeed30d]])を1つの[[説明変数>データ分析#e86ac9d5]]([[量的>データ分析#sfeed30d]])で予測する。 ---[[相関係数>#bad01586]]で、相関の度合いが解る。 ---[[回帰式は線形回帰の回帰直線になる。>#s616f38f]] --回帰分析の流れ ---データを取る ---グラフにする ---回帰式で表す --目的と理論 ---目的:予測、説明 ---理論:最小二乗法 -感度分析~ [[説明変数の目的変数>データ分析#e86ac9d5]]に対する影響度 --[[回帰係数>#we736db5]]と[[相関係数>#bad01586]] ---回帰係数は y に対する x の関係と言う一方通行的な係数 ---相関係数は x と y 相互間の関係と言う双方向な係数 --[[P値(有意確率)>#j018ff00]] -分析プロジェクト的に --どう計画するか?~ [[散布図>#wbb80cf7]]と同じ。 --どう読めばいいか?~ [[散布図>#wbb80cf7]]と同じ。 --Excelでどう作るか? ---グループ分けを行ったり、外れ値を削除したり、 ---[[相関係数>#bad01586]]、[[回帰式、決定係数(R2乗値)>#s616f38f]] -参考~ [[単回帰分析による予測>#s616f38f]] **3つ以上の変数間の関係 [#n02d9d64] 多変量解析(y = f(x1, x2, x3, ... )) ***線形重回帰分析 [#na76c5ec] -[[説明変数>データ分析#e86ac9d5]]が2つ以上(2次元以上)で、[[量的データ>データ分析#sfeed30d]]のもの。 --回帰分析の流れ ---データを取る ---%%グラフにする%% ---回帰式で表す~ N次元線形回帰モデル y = w1x1 + w2x2 + w3 --目的と理論 ---目的:予測、説明 ---理論:最小二乗法と勾配降下法~ 3変数以上の最小二乗法は[[勾配降下法>ニューラルネットワーク(学習)#e083729e]]で解く -感度分析~ [[説明変数の目的変数>データ分析#e86ac9d5]]に対する影響度 --[[偏回帰係数>#we736db5]]、[[P値(有意確率)>#j018ff00]] --影響度 = [[偏回帰係数>#we736db5]] *(変数のレンジ(最小値-最大値)) --多重共線性(マルチコ) ---[[説明変数>データ分析#e86ac9d5]]の中に、相関係数が高い組み合わせがある場合、~ ・[[偏回帰係数>#we736db5]]の分散を増加させて不安定になる(?)~ ・データ点が直線上にまとまり回帰曲面が回転して不安定になる。 ---マルチコを回避するには説明変数間の二変量解析で強い相関関係を発見し、~ ・どちらかを除外して分析する([[特徴量選択>機械学習(machine learning)#s58bcf22]])。~ ・[[エンコーディング>機械学習(machine learning)#id0e10d5]]、[[特徴量作成>機械学習(machine learning)#g620e73a]]などを行う。 --抑制変数~ 相関係数が低くても予測における重要度が大きい説明変数 ---相関係数が低い抑制変数を利用した学習もさせる。 ---自由度調整済み決定係数がより大きいモデルを採用する。 --特徴量([[説明変数>データ分析#e86ac9d5]])選択 ---[[説明変数>データ分析#e86ac9d5]]の組み合わせを逐一試す必要がある。 ---ステップワイズ法と言う[[説明変数>データ分析#e86ac9d5]]の選択アルゴリズムがある。 --交互作用~ 説明変数の効果が別の説明変数の値によって変化する作用 ---線形回帰モデルでは交互作用を表現できない。 ---交互作用を考慮に含めるためには、[[非線形回帰モデル>#oe32e0f1]]を使う。 -参考~ [[重回帰分析による予測>#yb74e330]] ***数量化理論Ⅰ類 [#qe0c7a27] -[[説明変数>データ分析#e86ac9d5]] (x)が[[質的なデータ>データ分析#wfc8bfd2]]の場合の[[重回帰分析>#na76c5ec]]。 --目的と理論 ---目的:予測、説明 ---理論:最小二乗法 -感度分析~ [[説明変数の目的変数>データ分析#e86ac9d5]]に対する影響度 --[[偏回帰係数>#we736db5]]、[[P値(有意確率)>#j018ff00]] --影響度~ (質的 ≒ 0・1データなので)~ ---変数間では[[回帰係数>#we736db5]]のレンジ(最小値-最大値)を用いる。~ ---変数内では[[回帰係数>#we736db5]]をそのまま利用可能。 -質的なデータのままでは、分析にかけられないため、ダミー変数を使い数量化する。 --質的データの状態 |標本No.|来店者数|曜日|天候|h |1|n1|月|晴| |2|n2|火|くもり| |3|n3|水|雨| |4|n4|木|雪| |5|n5|金|雹| |6|n6|土|晴| |7|n7|日|晴| --ダミー変数を使い量的データ化した状態 |標本No.|来店者数|>|>|>|>|>|>|曜日|>|>|>|>|天候|h |~|~|月|火|水|木|金|土|日|晴|くもり|雨|雪|雹|h |1|n1|1|0|0|0|0|0|0|1|0|0|0|0| |2|n2|0|1|0|0|0|0|0|0|1|0|0|0| |3|n3|0|0|1|0|0|0|0|0|0|1|0|0| |4|n4|0|0|0|1|0|0|0|0|0|0|1|0| |5|n5|0|0|0|0|1|0|0|0|0|0|0|1| |6|n6|0|0|0|0|0|1|0|0|0|0|0|1| |7|n7|0|0|0|0|0|0|1|0|0|0|0|1| --0・1データの場合に予測可能な列を1つ削除(曜日の日・天候の雹の列を削除) |標本No.|来店者数|>|>|>|>|>|曜日|>|>|>|天候|h |~|~|月|火|水|木|金|土|晴|くもり|雨|雪|h |1|n1|1|0|0|0|0|0|1|0|0|0| |2|n2|0|1|0|0|0|0|0|1|0|0| |3|n3|0|0|1|0|0|0|0|0|1|0| |4|n4|0|0|0|1|0|0|0|0|0|1| |5|n5|0|0|0|0|1|0|0|0|0|0| |6|n6|0|0|0|0|0|1|0|0|0|0| |7|n7|0|0|0|0|0|0|0|0|0|0| -参考~ [[モデルは重回帰分析と同じ>#yb74e330]] ***判別分析 [#ke57e386] 最も当てハマるカテゴリ(ある事象の発生)を予測 -[[目的変数>データ分析#e86ac9d5]] [y] が[[質的なデータ>データ分析#wfc8bfd2]]の場合の[[重回帰分析>#na76c5ec]]。 --故に、あるデータを既存のグループに分類する分析と言える。 --判別データである[[目的変数>データ分析#e86ac9d5]]をダミー変数によって数量化する。 -判別分析における重回帰分析の回帰式を判別式と呼ぶ。 --判別式(の0.5)の境界で判別率を計算する。 --1を0と外す場合と、0を1と外す場合、~ どちらのケースが許容範囲内かが重要。 -質的なデータのままでは、分析にかけられないため、ダミー変数を使い数量化する。 --質的データの状態 |標本No.|利用年数|年齢|買い替え|h |1|x11|x21|○| |2|x12|x22|✕| |3|x13|x23|○| |4|x14|x24|✕| |5|x15|x25|○| |6|x16|x26|✕| |7|x17|x27|○| --ダミー変数を使い量的データ化した状態 |標本No.|利用年数|年齢|買い替え|h |1|x11|x21|1| |2|x12|x22|0| |3|x13|x23|1| |4|x14|x24|0| |5|x15|x25|1| |6|x16|x26|0| |7|x17|x27|1| --必要なら0・1データの場合に予測可能な列を1つ削除~ (ココでは、0・1の一列なので削除は不要) -参考~ [[モデルは重回帰分析と同じ>#yb74e330]] ***多項式回帰 [#oe32e0f1] -多項式(2次関数や3次関数など)を利用した回帰分析 -回帰式に曲線(あるいは曲面、超曲面)を使用する(非線形性を導入する)。~ x1^2 や x1^3を一つの説明変数と見なすことで線形回帰と全く同じ方法で学習できる。 --2変数 y = w0x0 + w1x1 + w2x1^2 + ... + wnx1^n --3変数 y = w0x0 + w1x1 + w2x1^2 + w3x1^3 + w4x2 -問題点:[[過学習>機械学習(machine learning)#l377f5cd]]が起き易い。 --説明変数が多過ぎる。 --重みパラメタの絶対値が極端に大きくなる(→ [[正則化回帰>#i38c7fea]])。 -計算方法~ [[Pythonで分析する手順>データマイニング(DM)- Python#sb08c3b8]] ***正則化回帰 [#i38c7fea] -概要 --最小二乗法 > 勾配降下法 > 誤差関数に~ ---制約(罰則)を付け加えて推定量を縮小させる解析法 ---二乗誤差関数にパラメタを大きくすると損失が増える正則化項を足して、パラメタの自由度を下げ過学習を防止する。 --重み([[パラメタ>機械学習(machine learning)#bdce9b16]])の値を平易なものにし、手法によっては説明変数を自動的に減らす。 ---推定量の算出 ---変数選択(変数を自動的に削減 -正則化最小二乗法 --「誤差」のΕ(w)に「パラメタが大きくなるとペナルティが加えられる罰則項」の正則化項(=λR(w))が追加される。 ---λは、正則化の強さを制御する[[ハイパーパラメタ>機械学習(machine learning)#v45aae84]] ---この Ε’(w) が最小になるパラメタの点を模索する。 Ε’(w) = Ε(w) + λR(w) --これはKKT条件で「R(w)=Rの制約の下で損失関数を最小化する」と言うことになるらしい(絵的に)。 ---二乗誤差関数の解を小さくしようとする圧力(解を二乗誤差関数の極小値に近づける向き) ---解の存在範囲を小さくしようとする圧力(解を原点に近づける向き) -Lpノルム~ ベクトルの大きさの一般形 ∥w∥p=(|w1|^p+|w2|^p+...+|wd|^p)^1/p --L0ノルム~ ... --L1ノルム~ p=1のときのLpノルム ---L1距離(マンハッタン距離) ---L1ノルムに罰則を課す線形モデルに適用した正則化回帰をLasso(ラッソ)回帰(L1正則化) ---一部の特徴量のみが重要。特定のデータの重みを0にすることで、不要なデータを削除する。 ---式はパラメタの絶対値を足し合わせた形で等距離線は正方形(一般には超多面体) ---ひし形なので w1 or w2 が0の時に最小となる可能性が高い。 ---= 説明変数を削っても良い時に使用(スパース表現)。 ∥w∥1=(|w1|^1+|w2|^1+...+|wd|^1)^(1/1) = |w1|+|w2|+...+|wd| =Σ|wi| --L2ノルム~ p=2のときのLpノルム ---L2距離(ユークリッド距離) ---L2ノルムに罰則を課す線形モデルに適用した正則化回帰をRidge(リッジ)回帰(L2正則化) ---全ての特徴量が重要。データの大きさに応じて0に近づけて、滑らかなモデルにする。 ---式は原点から最適解となる点の等距離線が円形(一般には超球状) ---円形なので w1 or w2が0の時に最小となる可能性が低い。 ---= 全ての説明変数を使って過学習を抑えたい時に使用。 ∥w∥2=(|w1|^2+|w2|^2+...+|wd|^2)^(1/2) = √(w1^2+w2^2+...+wd^2) = √(Σwi^2) --ElasticNet ---式はL2とL1の中間の形状である膨らみを持った正方形 ---L1とL2の中間のノルムに罰則を課す正則化回帰 -計算方法~ [[Pythonで分析する手順>データマイニング(DM)- Python#y118b20c]] ***ロジスティック回帰分析 [#ge055200] 2値分類の確率を予測(回帰とあるが分類 -[[目的変数>データ分析#e86ac9d5]] [y] が[[質的なデータ>データ分析#wfc8bfd2]]の場合。 --事象の有無がはっきりと決まる場合 ---出力は y=1 になる確率の値(2値分類)。 ---[[目的変数>データ分析#e86ac9d5]]が 確率 (0-100%) の 数値 0-1 で表わされる場合。 ---判別データである[[目的変数>データ分析#e86ac9d5]]をダミー変数によって数量化する。 --以下で使用される。 ---病気の発生する確率の予測~ 予測変数:アルコール摂取量と喫煙本数 ---ターゲット顧客の商品購入率の予測~ 予測変数:職業・性別・趣味 --目的と理論 ---目的:予測、説明 ---理論:(最適化手法が)最小二乗法ではなく最尤法([[パーセプトロン]]より柔軟)~ ・最も尤も(もっとも)らしいパラメタを獲得すると言うコンセプト~ ・予測確率を出力できるところが[[パーセプトロン]]に対する優位性~ ・[[回帰分析>統計解析#xc0279dd]]の最小二乗法では残差を最小にするように[[回帰係数>#we736db5]]を決めた。~ ・ココでは逸脱度(対数尤度の合計 * -2)を最小にするように[[偏回帰係数>#we736db5]]を求める。~ ・回帰式:Ln ( NG確率 / 1 - NG確率 ) = ax1 + bx2 + cx3 + d~ ・コンピュータが無くても計算がし易い(=計算機統計未満みたいな)~ --別の説明 ---確率(probability)~ ・ある事柄「A」が起きる確率:P(A)~ ・Y = 1 である確率:P(y = 1) ---[[条件付き確率>ベイズ統計#v372de91]](conditional probability)~ ・ある事柄「B」が起きると言う条件下での別の事柄「A」が起きる確率:P(A|B)~ ・データ x が与えられたとき y = 1 である確率:P(y = 1|x) ---モデル数式~ ・P(Y = 1|x1) = σ(w0 + w1 x1)~ ・σ:Sigmoid関数 -感度分析~ [[説明変数の目的変数>データ分析#e86ac9d5]]に対する影響度 --[[偏回帰係数>#we736db5]]、[[P値(有意確率)>#j018ff00]] --オッズ比 ---とあるできごとが起こる確率と起こらない確率の比 ---[[説明変数>データ分析#e86ac9d5]]の値が1変化したときにオッズが何倍になるかを示す。 ---オッズ比が1倍より高い(あるいは低い)ほど、影響がある説明変数になる。 ---「ある事象が起こる確率p」(他カテゴリ)と「起こらない確率(1-p)」(基準カテゴリ)の比 = P / 1 - P ---オッズの対数を取ったものをロジット関数~ ロジット関数の逆関数がロジスティック関数~ (2値分類:[[Sigmoid関数>ニューラルネットワーク(推論)#qc025e6f]]、3値分類以上:[[Softmax関数>ニューラルネットワーク(推論)#b77bdfd7]]) ---オッズ比と[[偏回帰係数>#we736db5]]の関係~ [[偏回帰係数>#we736db5]]をexpすると、その[[偏回帰係数>#we736db5]]に属する[[説明変数>データ分析#e86ac9d5]]のオッズ比になる。 -その他 --[[多重共線性(マルチコ)>#na76c5ec]] --完全分離ケース ---完全分離または準完全分離に近い状態で最尤推定量が妥当とは思えない結果を出す。 ---[[偏回帰係数>#we736db5]]や標準誤差が異常に大きな値になっている場合に完全分離が生じている可能性が高い。 -質的なデータのままでは、分析にかけられないため、ダミー変数を使い数量化する。 --質的データの状態 |標本No.|>|>|含有率|強度検査|h |~|物質A|物質B|物質C|結果|h |1|x11|x21|x31|○| |2|x12|x22|x32|✕| |3|x13|x23|x33|○| |4|x14|x24|x34|✕| |5|x15|x25|x35|○| |6|x16|x26|x36|✕| |7|x17|x27|x37|○| --ダミー変数を使い量的データ化した状態 |標本No.|>|>|含有率|強度検査|h |~|物質A|物質B|物質C|結果|h |1|x11|x21|x31|1| |2|x12|x22|x32|0| |3|x13|x23|x33|1| |4|x14|x24|x34|0| |5|x15|x25|x35|1| |6|x16|x26|x36|0| |7|x17|x27|x37|1| --必要なら0・1データの場合に予測可能な列を1つ削除~ (ココでは、0・1の一列なので削除は不要) -計算方法 --[[Pythonで分析する手順>データマイニング(DM)- Python#we38b247]] --[[KNIMEで分析する手順>データマイニング(DM)- KNIME#eda5bdce]] --[[Excelで分析する手順>データマイニング(DM)- Excel#ffa2eaef]] -参考 --モデルは重回帰分析と異なる。 --Excelの機能だけでロジスティック回帰分析を実行する方法 | ブログ | 統計WEB~ https://bellcurve.jp/statistics/blog/8607.html ***サポートベクターマシン [#f3322edd] (SVM) -統計的学習理論の枠組みで提案された[[機械学習>#idf092a4]] -教師あり学習で、分類と回帰を扱うが、主に分類タスクで使われる。 -[[テキストマイニング>言語処理#u6f95d49]]、災害危険度評価、倒産判別問題、非線形な競馬予測などに利用される。 -特徴 --分類タスクの識別関数の式は不明だが正・負で決定的な出力をする。 --「分離マージン最大化」というコンセプトに基いて分類を行うため未学習データに対して高い識別性能を得る。 --カーネル関数は暗に高次元の特徴空間へ写像することを意味する -分離マージン最大化 --超平面上の各データ点と距離(マージン)が最大となる決定境界を求める。 --決定境界は超平面上の各データ点と距離(マージン)が最大となるように求める。 -データ点、サポート・ベクトル --サポート・ベクトルの最小数は2 --サポート・ベクトルの様々な定義~ ・決定境界を構成するデータ点~ ・誤分類されたデータ点~ ・マージン上のデータ点~ ・境界から最も近いデータ点 -カーネル法~ --カーネル関数(≒高次元に射影する射影関数)による写像によって線形分類できるようにする。 ---特徴ベクトルを射影関数で非線形変換した空間で線形の識別を行う。 ---非線形の分離にも対応できると言う非常に大きな利点がある。 ---この新しい特徴量を生成する計算コストが非常に高い。 ---カーネル・トリックで計算が複雑にならないように式変形する。 ---ベクトルのドット積をカーネル関数に置き換える(?) k(xi, xj) = φ(xi)^T, φ(xj) --カーネル関数 ---線形カーネルは非線形な分離に不適切 ---多項式カーネル~ k(x, y) = (x^T y + c)^d ---正規化線形カーネル~ 特徴ベクトルは φ(x) = x / ||x|| k(x, x') = xTx' / (||x|| ||x'||) ---RBF、Gaussianカーネル~ ・γ = 1 / 2σ^2~ = exp(-γ||xi - xj||^2) = exp(-||xi - xj||^2 / 2σ^2) ---シグモイド・カーネル K(xi, xj) = tanh(b xi^T xj + c) -ハードマージン・ソフトマージン --ハード・マージン ---学習データがマージンの内側に入らないことを強制する。 ---過学習する可能性がある。 --ソフト・マージン ---学習データがマージンの内側に入ることを許容する。~ ---過学習を抑制し汎化性が高くなる。 ---[[ハイパー・パラメタ>機械学習(machine learning)#v45aae84]]~ ・スラック変数(余裕度)とパラメタC(制約条件の厳しさ)~ ・パラメタCは小さい方が汎化性能は良いが、C=0では誤分類が増える。 -計算方法 --[[Pythonで分析する手順>データマイニング(DM)- Python#r0bad011]] ***決定木分析 [#lcaf7a28] 事前検知、要因分析 -[[説明変数・目的変数>データ分析#e86ac9d5]]、共に[[質的なデータ>データ分析#wfc8bfd2]]でも可能な分析。 --決定木とは、 ---ツリー構造を用いて分類、回帰を行う機械学習の手法。 ---情報利得の最大化を基準に条件分岐を繰り返す。 ---分類の結果がツリー構造で可視化されるため、~ 要因、条件を把握でき、予測のなかで最もアウトプットの解釈がし易い。~ ・最初の分岐が「最も従属的」な変数で、順に小さくしていく。~ ・木の左が低い確率の条件、右が高い確率の条件となるように記述する。 --決定木分析には回帰木を作る分析と分類木を作る分析がある。 ---回帰木 (regression tree)~ [[目的変数>データ分析#e86ac9d5]] [y] が[[量的なデータ>データ分析#sfeed30d]]の場合(の関数の近似に用いられる。 ---分類木 (classification tree)~ [[目的変数>データ分析#e86ac9d5]] [y] が[[質的なデータ>データ分析#wfc8bfd2]]の場合(に用いられる。 --メリット ---意味解釈性が高い ---学習が高速~ 柔軟性とのトレードオフ ---前処理が不要~ ・欠損値補完~ ・[[標準化・正規化>データマイニング(DM)- CRISP-DM#v9d19242]]~ ・[[One-Hotエンコーディング>機械学習(machine learning)#id0e10d5]] --目的と理論 ---目的:予測、説明 ---理論:集中度、従属度を決める指標~ ・CHAID:[[カイ二乗(X^2)値>#d9b76532]]~ ・CART :Gini不純度~ ある集合から1サンプルを抽出して戻し2回目の抽出で~ 異なるカテゴリのサンプルを抽出する確率で表す。~ 最小になるように枝わかれする。~ ・C4.5、C5.0:エントロピー~ カテゴリの混ざり具合、乱雑度を表す。~ 最小になるように枝わかれする。 -感度分析~ [[説明変数の目的変数>データ分析#e86ac9d5]]に対する影響度 --[[P値(有意確率)>#j018ff00]] -指標 --不純度~ ひとつのノード内に複数のクラスが~ どれだけ混在しているかを表す指標。 ---情報エントロピー~ ノード内の複数クラスの混合割合 ---ジニ不純度~ ノード内からランダムにサンプルを取り出すとき~ 特定クラスのサンプルを狙って取り出せない確率 --情報利得~ 条件分岐で、どれだけクラスを分離出来たか? ---数学的には、条件分岐の前後での不純度の総和の差額。 ---決定木の条件分岐ではこの差分の最大化を目指す。 -その他 --分岐基準~ 以下の a・b を分岐後のノードで繰り返し学習しながら全分岐を進める。 +++分岐基準の決定~ 全ての変数内で可能な分岐点を試行し分岐前後の集中度改善が最大の点を検出。 +++変数選択~ 分岐前後の集中度改善が最大となる変数から分岐する。 --剪定~ 単純な構造のため、サンプリングの違いによって境界線が大きく変わる。 ---深いノードでの条件分岐において過学習を起こしやすくなる。 ---末端の枝葉の要素数が小さくなり過ぎないようにする。 --[[アンサンブル学習>機械学習(machine learning)#t3b0d157]] ---ランダムフォレスト~ ・データの一部をランダムに取り出す(ブートストラップ(サンプリング))。~ ・識別ルールに使う特徴量をランダムの選択し決定木を構築処理を複数回繰り返す。~ ・決定木による複数の弱学習器を統合させて汎化能力を向上させる(バギング)~ ・各木の推定結果の多数決で最良の結果を選択により分類・回帰を行う。~ ・ランダムフォレストを用いた例~ 各特徴量を外した時に、予測精度(正解率)が~ どれくらい悪化するかを求め、その差で重要度を推定する方法 ---勾配ブースティング木~ ・勾配降下法と決定木(ブースティング)が組み合わされた手法~ ・[[ハイパーパラメタ>機械学習(machine learning)#v45aae84]]が多く、汎化性能への影響大。~ ・勾配ブースティング(XGBoost、LightGBM)を用いた例~ ・「モデルの学習の際、その特徴量が使用された回数」で推定する方法(split)~ ・「その特徴量が使用される分岐から、損失関数を小さくなったか~ (目的関数がどれだけ改善されたか)の幅」で推定する方法(gain) -ココでは y が質的データの場合の分類木を作る。 --タイタニック |標本No.|クラス|性別|年齢|生存|h |1|x11|x21|x31|○| |2|x12|x22|x32|✕| |3|x13|x23|x33|○| |4|x14|x24|x34|✕| |5|x15|x25|x35|○| |6|x16|x26|x36|✕| |7|x17|x27|x37|○| -計算方法 --[[Pythonで分析する手順>データマイニング(DM)- Python#abcf5051]] --[[KNIMEで分析する手順>データマイニング(DM)- KNIME#y04dd96f]] --[[Excelで分析する手順>データマイニング(DM)- Excel#s7f73298]] -参考 --モデルは重回帰分析と異なる。 --[[P値>#j018ff00]] -> [[X^2検定>#if297860]] ***[[特徴の分類>#ie80ebc6]] [#y7ffc045] ***[[機械学習>機械学習(machine learning)]] [#idf092a4] **特徴の分類 [#ie80ebc6] -多変量解析に含まれるが、[[目的変数>データ分析#e86ac9d5]] [y] の無い分析。 -[[教師なし学習>機械学習(machine learning)#p3ab14a7]]に分類されるため分析者の主観的な解釈が必要となる。 ***主成分分析 [#f800acad] (Principal Component Analysis、PCA) 情報集約(次元削減の最も簡単な手法)。 -複数の変数を集約して、データを量的に評価し分類する分析。 --データを要約するような特徴量(主成分)を抽出 --特徴量間の相関を分析してデータの構造をつかみ、 --相関のない少数の特微量へと次元削減する。 --全国模試の順位算出の例とか、業界の規模算出の例とか。~ 順位・優劣を、合計点ではなく合成得点で出すなどの場合。 --多次元のデータを次元圧縮(縮約)~ 複数の変数の相関を計算し相関の高い変数をまとめて少数の変数に合成する。~ コレによってデータを解釈し易くする(100次元から10次元への圧縮も可能) --目的と理論 ---目的:変数集約 ---理論:固有値問題 -感度分析~ [[説明変数の目的変数>データ分析#e86ac9d5]]に対する影響度 --固有値問題 ---主成分:変数を減らすために設定する新しい軸~ 主成分は、以下のようになるように作成する。~ ・重心(平均値)が原点となる。~ ・[[分散>#m656dd23]]が最大となる。~ ・元の情報量をなるべく損なわないよう、~ ・各点から主成分に引いた垂線の長さの総和が最小となる。~ ・第一主成分に直交し分散が最大になる第二主成分...を変数の次元数繰り返す。 ---固有値:主成分スコアの分散~ ・相関行列の主成分分析を行うと、固有値の合計は変数の数に一致する。~ ・つまり、固有値1は変数1つ分の分散を説明していると解釈できる。~ ・固有ベクトルは行列をスカラーである固有値に変換するベクトル。~ ・新しい軸の座標:Z = 固有ベクトル1 * x1 + 固有ベクトル2 * x2 + ... --特徴選択・特徴抽出 ---特徴選択~ 通常の特徴エンジニアリング ---特徴抽出~ ・次元圧縮(縮約)で、少ない特徴量で効率よく説明できる。~ ・ただし、低次元の場合は、特徴選択の方が精度が高いケースも。 -結果の解釈 --寄与率:固有値を固有値の合計に占める%として表す。 --累積寄与率:主成分に元の情報の何%を残すことができたか情報の集約度 ---寄与率の累積%を表す。一般に、80%が1つの目安になっている。 ---いくつの主成分を採用するかは累積寄与率が基準になる。 --因子負荷量 ---主成分が元の特徴量をどのように合成して作られたものなのかを表す指標 ---それぞれの主成分に対する、元の各特徴量との相関係数にあたる数値 --プロファイルの妥当性~ ヒアリングの結果などから解釈可能 -主成分分析以外の次元圧縮(縮約) --特異値分解(Singular Value Decomposition、SVD) --多次元尺度構成法(Multi-Dimensional Scaling、MDS) --t-SNE(t-distributed Stochastic Neighbor Embedding)可視化によく用いられる -計算方法 --[[Pythonで分析する手順>データマイニング(DM)- Python#rb8d508f]] --[[KNIMEで分析する手順>データマイニング(DM)- KNIME#pec69f67]] --[[Excelで分析する手順>データマイニング(DM)- Excel#ma4701c2]] ***因子分析 [#c9b821dc] -データを量的に評価し分類する構成概念の測定のための統計手法 -[[主成分分析>#f800acad]]とは因果関係を異にする。 --[[主成分分析>#f800acad]]は観測データから主成分を合成 --因子分析は観測データが合成量であると仮定し個々の潜在因子を分析 -構成概念(潜在因子)~ 直接観測はできないが、それを定義することにより~ 観測された現象をうまく説明できるようになる事柄 --この概念を構成概念と呼び、テストの個々の問題への解答を用いて測定 --構成概念を測定することを目的とした統計手法が因子分析や項目反応理論 --共通因子・独自因子([[説明変数>データ分析#e86ac9d5]]) ---共通因子:どの変数にも影響を与える因子 ---独自因子:ある変数にのみ関連する因子 ---交絡因子:独立変数と従属変数の両方に相関する因子 -データからは直接には観測できない要因(構成概念 / 潜在因子)を推論して考える --変数間の相関が高い理由は両変数の背後に共通因子が存在すると考える統計手法 --観測データ([[目的変数>データ分析#e86ac9d5]])が合成量であると仮定し個々の構成要素([[説明変数>データ分析#e86ac9d5]])を得ようとする ---各観測変数([[目的変数>データ分析#e86ac9d5]])には誤差が付与される。 ---構成要素([[説明変数>データ分析#e86ac9d5]])がデータとして観測されていない回帰分析。 -確認的因子分析・探索的因子分析 --確認的因子分析 ---観測変数と因子の関係について仮説がある状況で使う因子分析 ---仮説(モデル)の正しさはCFI、RMSEA、SRMR、AICなどの適合度指標で検討 --探索的因子分析 ---明確な仮説がない状況で使う因子分析 ---いくつの、どのような因子があるのかを探索的に調べる。 -参考~ [[テスト分野の統計手法 > 因子分析>テスト分野の理論体系(DS)#o97b7a0f]] **クラスタ分析 [#df844c06] データの特性から似ているデータ同士をグループ化し、~ いくつかのクラスタ(集団を意味)に分類する分析(グループ分け、特徴抽出)。 -クラスタ(房 / 集団 / 群れ)に分類する。 -分類後、クラスタ毎の特徴を分析する。 --標本毎の折れ線グラフ等で可視化 --[[重回帰分析>#na76c5ec]]の属性毎の影響度 -分類 --顧客のセグメント分析 --ニュース記事のトピック分類 -マーケティング~ ビッグデータのOne to oneマーケティング手法として最重要 --商品のレコメンデーション --ブランディング(?) -目的と理論 --目的:類似グループの発見 --理論: ---階層型~ ・教師なしの決定木的なグループ化~ ・小さなテーブル向きの手法 ---非階層型~ ・距離に基づくグループ化~ ・コサイン距離~ ・ユークリッド距離~ ・マハラノビス距離~ ・比較的大きいテーブル向きの手法~ ***階層型 [#i3af129d] ... ***非階層型 [#mcb82c0a] 以下、非階層型のクラスタ分析のk平均法(k-means clustering)を扱う。 -考え方 > +ランダムに適当にグループを振り分け +重心を設定する。 +最も近い重心のグループに分け直し +重心を再設定する。 +変化が無くなるまで③~④を繰り返す。 -重心との「近さ」の計算の仕方に複数の方法がある。 --クラスタ内誤差平方和(SSE)の最小化~ SSE:各クラスタ・サンプルの重心とユークリッド距離の二乗和 --ベクトル化:≒ 量的データのダミー変数化 ---0・1を、0・0.707にする。 ---この際、列削除は不要。 --... -[[主成分分析>#f800acad]]をクラスタリングの前に適用~ 以下の3つのメリットがある。 --次元削減によって、「次元の呪い」を回避できる。~ (次元が増えると学習データ量が指数関数的に増える) --主成分同士に相関がないので、ユークリッド距離が使える --主要な潜在変数に次元削減できるので、結果を説明しやすい -弱点と対策 --超球状でないクラスタが苦手 ---サンプルの生成~ ・超球状のクラスタを2つ生成~ ・細長いクラスタを1つ生成 ---k-means法でクラスタ分析してプロットすると、~ 細長いクラスタに超球状のクラスタが食い込む。 --サンプル数の異なるクラスタが苦手 ---サンプルの生成~ ・サンプル数25のクラスタを2つ生成~ ・サンプル数300のクラスタを1つ生成 ---k-means法でクラスタ分析してプロットすると、~ 大きなクラスタに小さなクラスタが食い込む。 --重心の初期値次第で、最終的なクラスタが大きく変わる ---重心をランダムに割り当てる場合、複数回試み性能の良いものを選択。 ---重心が他の重心の近くの位置にならないように距離を測って初期化する。 --クラスタ数を自分で決めなければならない ---エルボー法~ クラスタ数が小さ過ぎると複数クラスタを無理やり統合する~ ことになるので、SSEが急に上がる言う仮説に基づいている。 ---シルエット分析~ ・シルエット係数 = (乖離度 − 凝集度) / 両者のうち大きい方(大きいほど良い)~ ・乖離度:一番近い他クラスタのサンプルと各サンプルとの距離(大きいほど良い)~ ・凝集度:クラスタの重心と各サンプルとの距離(小さいほど良い)~ ・シルエット図~ 同じ太さのナイフ状のパレートが平均の線に深めに刺さっていると良い感じ。~ ・シルエット係数の平均値より大きいサンプルが多いクラスタは適切にクラスタリングされている。~ ・全クラスタのサンプル数が大きく偏っていない場合、適切にクラスタリングされている。 -結果の解釈 --各クラスタのサイズ ---各クラスタのサイズが極端に偏っている場合(10:1など) ---クラスタ数見直しを行って再分析 or 外れ値として分析から除外。 --クラスタ差別化の程度 ---入力変数に対して各クラスタ平均が著しく異なっているかを判断。 ---クラスタ分散などで各クラスタ内での散らばりが大きくないことを確認。 --プロファイルの妥当性~ 業界知識やビジネス仮説から解釈可能 -計算方法 --[[Pythonで分析する手順>データマイニング(DM)- Python#ie416797]] --[[KNIMEで分析する手順>データマイニング(DM)- KNIME#b22dfd62]] --[[Excelで分析する手順>データマイニング(DM)- Excel#j9d3b049]] *予測モデル [#b360af3a] **プロセス [#y41a6cc8] -モデル作成 --準備~ 以下の準備を行う。 ---外れ値を削除 ---欠損値の~ ・削除(欠損数が少ない場合)~ ・補完(平均値、最頻値) --作成 ---[[線形単回帰モデル>#s616f38f]] ---[[重回帰モデル>#yb74e330]] ---...モデル -モデル評価~ ... -改善対策~ ... **線形単回帰モデル [#s616f38f] [[線形単回帰分析>#a421ea17]]のモデル。 ***回帰式 [#w6623f8c] 線形データを直線で近似 -変数~ 説明変数が1次元(データXによるデータYの説明・予測 --X:予測 / 説明 / 独立 変数~ --Y:基準 / 目的 / 被説明 / 従属 変数 -一次関数(線形回帰の回帰直線)~ --[[散布図>#wbb80cf7]]に切片(B)・係数(A)の線を引く。 --Y = AX + B ***残差: [#ud603602] 予測した値と実際の値との差 ***残差平方和: [#ubab8d86] -残差の二乗(平方)の和、~ 二乗で+・-を打ち消す。 Σ(yi-(axi+b))^2 -予測 = Y([[目的変数>データ分析#e86ac9d5]])の外れ度合い -この値が --小さいほど予測が上手く行く。 --最小になるように係数を求める。 ***残差分散: [#d17f249f] -残差の二乗(平方)の平均~ 二乗で+・-を打ち消す。 Σ(yi-(axi+b))^2 / N-p-1 -予測の外れ度合い = Y([[目的変数>データ分析#e86ac9d5]])の[[分散>#m656dd23]] -この値が --小さいほど予測が上手く行く。 --最小になるように係数を求める。 ***決定係数(R2乗値) [#xded7c42] -[[目的変数>データ分析#e86ac9d5]]の実測値と予測値との相関([[相関係数>#bad01586]])を2乗した値 -値が1なら、 --残差がすべて0である --モデルがデータに完全にあてはまっている。 -値が1未満なら、 --0.9以上 :非常に当てはまりが良い --0.7~0.9:当てはまりが良い --0.5~0.7:あまり当てはまりが良くない --0.5未満 :当てはまりが悪い -[[目的変数>データ分析#e86ac9d5]]が --ない予想はすべて平均値になる。 --ある予想は回帰式に従った値になる。 -残差は、[[目的変数>データ分析#e86ac9d5]]が --ない場合、大きく、 --ある場合、小さい。 -以下の式で求められる1から0の間をとる数値で、1に近い程、~ [[目的変数>データ分析#e86ac9d5]]がある場合の予測が正確 = 回帰式上にプロットがある、と言える。 目的変数がない場合の残差分散 - 目的変数がある場合の残差分散 = ------------------------------------------------------ 目的変数がない場合の残差分散 ***計算方法 [#vb3ad1cd] -[[Pythonで分析する手順>データマイニング(DM)- Python#i6f0734b]] -[[KNIMEで分析する手順>データマイニング(DM)- KNIME#zaaa118d]] -[[Excelで分析する手順>データマイニング(DM)- Excel#xdad39b9]] **重回帰モデル [#yb74e330] 線形データを直線で近似 -重回帰分析の回帰式は --説明変数が多次元 --[[目的変数>データ分析#e86ac9d5]] (y) と[[説明変数>データ分析#e86ac9d5]] (x1,x2,x3・・・) y = ax1 + bx2 + cx3 + d --学習用データからyを予測する回帰式を生成する。 --[[単回帰分析>#s616f38f]]と異なり、最小二乗法と勾配降下法によって決定。~ 説明変数がn個になると、n+1個の変数を含む~ 2次関数の最小値を見つける最小二乗法の問題 --[[決定係数(R2乗値)>#s616f38f]]は、相関係数の2乗ではないらしい。 -計算方法 --[[Pythonで分析する手順>データマイニング(DM)- Python#aad4af67]] --[[KNIMEで分析する手順>データマイニング(DM)- KNIME#zaaa118d]] --[[Excelで分析する手順>データマイニング(DM)- Excel#w3d2aa1a]] **...モデル [#lce87f0f] 色々あるらしい。 **[[過学習>機械学習(machine learning)#l377f5cd]] [#b9f92716] *確率と検定 [#g602edbd] **区間推定 [#b62b2874] -全データを収集すれば真の平均値が得られるが、現実的に困難。 -そこで、得られた標本から推定できる母平均(母集団の平均値)の範囲を求める。 -区間推定では、標本の[[信頼区間>#b02ec786]]から母平均がどの範囲にあるかを推定する。 -[[重回帰分析>#na76c5ec]]で[[偏回帰係数>#we736db5]]の[[信頼率>#fc84c5cb]]95%の区間が出力されている。 **仮説検定 [#t6e0e6bc] 検定(仮説検定、統計的仮説検定) ***概要 [#y91f4c0d] -母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ。 -母集団のある性質について、分析対象である標本の[[確率分布>#efae792f]]から判断、検証。 -[[区間推定>#b62b2874]]の考え方を応用すると、~ 複数の集団のデータに対しての推定範囲を比べれば、~ 「集団間に差があるのか?ないのか?」の疑問に答えられるが --慎重になれば~ 「全データを確認しないと本当に差があるのか解らない。」 --楽観的になれば ---「サンプルの標本平均と、母平均は同じ。」 ---「サンプル毎の標本平均が違うのだから、母平均も違う。」 >となってしまう。 -「極端に楽観的な判断」も「極端に慎重な判断」も --現実で使うにはふさわしくない。 --中間の丁度良い判断の指標が必要になる。 --それを実現するのが検定(仮説検定、統計的仮説検定)。 --確率的に見て集団間の違いの有・無を判断する。 ***手順 [#u5781f9a] -まず仮説を立てる。 -その仮説に対して以下を設定する。 --帰無仮説:集団間に「差はない」と言う仮説 --対立仮説:帰無仮説の反対の「差がある」と言う仮説 -この仮説+(帰無仮説 or 対立仮説)を~ 肯定するか、否定するかを確率分布から決める。 --肯定することを「採択する」 --否定することを「棄却する」 -白いカラスの例 --世界には黒いカラスが99%、白いカラスが1%居ると仮定。 --1,000羽のカラスを観測したらすべて黒いカラスだった。 --このとき、上記の仮説は正しいとする帰無仮説だと~ 確率は 0.99^1000 = 0.00004 と、とても低い。 --とすると以下の様に考えるのが自然 ---帰無仮説が誤り(棄却)。~ ---対立仮説が正しい(採択)。 -有意水準:[[P値(有意確率)>#j018ff00]]の水準 --仮説が間違っていると判断する確率 --有意水準は[[P値>#j018ff00]] = 0.05(5%), 0.01(10%) などが多く使われる。 **検定手法 [#m19678d3] ***分類 [#q9d01378] |||名義尺度のデータ|正規分布しない|正規分布する|h |1変数|-|[[X^2検定>#if297860]]|Kolmogorov-Smirnovの1試料検定|z検定/[[t検定>#a5d79c02]]| |2変数|独立|[[X^2検定>#if297860]]|Mann-WhitneyのU検定|[[t検定>#a5d79c02]]| |~|対応|McNemaの検定|Wilcoxonの符号付き順位和検定|[[t検定>#a5d79c02]]| |多変数|独立|[[X^2検定>#if297860]]|Kruskal-Wallisの検定|[[F検定>#r266c74e]]| |~|対応|CochranのQ検定|Friedmannの検定|[[F検定>#r266c74e]]| ***t検定 [#a5d79c02] 群間差と個体差により事象に違いがあるか統計的観点から示す。 -[[t分布>#aa2fd36e]]を利用する検定法の総称 -以下の様な場合に用いられる。 --サンプルは母集団を代表しているか? --集団Aと集団Bに差はあるといえるか? -計算手順 --... --Excelで分析する手順~ [[P値(有意確率)>#j018ff00]] = 0.05(5%)を有意水準として使用する。 ---個数 := SUM(データの範囲) ---平均 := AVERAGE(データの範囲) ---[[標準偏差>#g9d1e77e]] := STDEV(データの範囲) ---t値 := ABS( (標本の平均 - 母集団の平均) / (標準偏差 / √個数) ) ---[[P値>#j018ff00]](片側):= TDIST(t値, 自由度(= 個数 - 1), 分布の指定(= 片側分布 = 1) ) >※ 平方根(√)は 値^0.5 で計算可能。 -[[重回帰分析>#na76c5ec]]で[[偏回帰係数>#we736db5]]の[[P値>#j018ff00]]が出力されている。~ [[P値>#j018ff00]] < 0.05 なら、[[説明変数>データ分析#e86ac9d5]]として有効となるらいし。 ***X^2検定 [#if297860] [[期待値>#uc4eb504]]と実測値により事象に違いがあるか統計的観点から示す。 -[[X^2分布>#d9b76532]]を用い、[[クロス集計表>クロス集計分析]]の~ [[名義尺度のデータ>#q9d01378]]の行要素と列要素の~ 独立性の検定に用いる(例えば[[A/Bテスト>データ分析#wa61cb7f]]のような)。 -独立性の検定は、[[決定木分析>#lcaf7a28]]に出てきた、[[カイ二乗(X^2)値>#d9b76532]]と[[P値>#j018ff00]]を用いる。 ***F検定 [#r266c74e] -データ群の[[分散>#m656dd23]]が等しいか分析する際に用いる[[F分布>#l1fbf154]]を利用する検定法 -[[分散>#m656dd23]]分析は観測データのばらつきを、 --誤差にすぎないのか、 --それとも各要因の特性による差なのか >に分解し、要因の効果を判定する分析。 -2群の要因間の差の検定には[[t検定>#a5d79c02]]を用いたが、~ 3群以上の要因間の差の検定にF検定を用いる。~ [[t検定>#a5d79c02]]を3群のデータの差に適用しようとすると、~ 「少なくとも一つの組み合わせの間に差がある確率」が高まってしまう。 (少なくとも一つの組み合わせの間に差がある確率) = (A - B間に差がある確率) + (A - C間に差がある確率) + (B - C間に差がある確率) -全体のバラツキは、群内のバラツキと群間のバラツキの和として表現できる。 --群内より群間のバラツキが大きければ、群の違いが大きいことを意味する。 --一方、群間より群内のバラツキが大きければ、バラツキは群の違いに起因しない。 >と言える。 -表の例 |標本No|群A|群B|群C|h |1|A1|B1|C1| |2|A2|B2|C2| |3|A3|B3|C3| |...|...|...|...| -計算方法 --Excelでなくても出来る。 ---事前に表を組んでおく(列追加)。~ ・全体:各項目の範囲を群内ではなく全体にしたもの。 ---表外の項目に関しては以下。~ ・個数:= COUNT(群内の値の範囲)~ ・平均:= AVERAGE(群内の値の範囲)~ ・[[分散>#m656dd23]]:= VARP(群内の値の範囲)~ ・[[偏差平方和>#m656dd23]]~ ・群間:= (全体の平均 - 当該群の平均)^2 * 当該群の個数~ ・群内:= 当該群の分散 * 当該群の個数~ ・全体:= 全体列の分散 * 全体列の個数~ ・自由度~ ・群間:= COUNTA(群名の範囲) - 1~ ・群内:= (群Aの個数 - 1) + (群Bの個数 - 1) + ...~ ・F値:= (偏差平方和(群間)の合計 / 自由度(群間)) / (偏差平方和(群内)の合計 / 自由度(群内))~ ・[[P値>#j018ff00]]:= FDIST(F値, 自由度(群間), 自由度(群内)) --Excelで分析する手順 ---[データ分析]から[分散分析: 一元配置]を選択 ---[入力範囲]を指定して[OK]ボタンを押下。~ ・分散分析: 一元配置 |グループ|標本数|合計|平均|分散|h |群A|...|...|...|...| |群B|...|...|...|...| |群C|...|...|...|...| ・分散分析表 |変動要因|変動|自由度|分散|観測された分散比|P-値|F境界値|h |群間|...|...|...|...|...|...| |群内|...|...|...|...|...|...| |合計|...|...||||| *活用 [#e1097b12] **政府統計 [#sc275ccc] -各府省等によって作成される統計 -オープンデータ化で[[政府統計の総合窓口(e-Stat)>#v835f7fc]]から探せる。 ***一次統計と二次統計 [#e13e5d6c] -一次統計 --調査統計 ---統計調査を行って集計した結果 ---多くは標本調査で、一部、全数調査。 --業務統計~ 行政機関に提出されたデータを集計した結果 -二次統計~ 加工統計 ***統計局で作成している統計 [#lfab75b1] -人口に関する基本的な統計 --国勢調査(全数調査 ---対象:国内に常住するすべての人 ---周期:5年 --人口推計 --住民基本台帳人口移動報告 -住宅・土地の状況を明らかにする統計 --住宅・土地統計調査 -国民の就業・不就業の状況を明らかにする統計 --労働力調査 --就業構造基本調査 -社会生活の実態を明らかにする統計 --社会生活基本調査 -事業所・企業に関する統計 --経済センサス(全数調査 ---対象:全国の(民営)事業所及び企業(農林漁家等を除く ---周期:5年 --個人企業経済調査 --サービス産業動向調査 -科学技術に関する統計 --科学技術研究調査 -家計の実態を明らかにする統計 --家計調査 ---対象:約9千世帯 ---周期:毎月 --家計消費状況調査 --全国家計構造調査 -物価に関する統計 --小売物価統計調査 --消費者物価指数(CPI) --消費動向指数(CTI) -地域に関する統計 --地域メッシュ統計 ***e-Stat 政府統計の総合窓口 [#v835f7fc] https://www.e-stat.go.jp/ -統計データを探す --すべて --分野 --組織 -統計データを活用する --統計ダッシュボード~ https://dashboard.e-stat.go.jp/ ---グラフ ---時系列表 --地図~ https://www.e-stat.go.jp/gis ---地図で見る統計(jSTAT MAP)~ ・プロット作成機能~ ・エリア作成機能~ ・統計グラフ作成機能~ ・レポート作成機能~ ---統計データダウンロード ---境界データダウンロード --地域 **ビジネス上での事例 [#v601f98f] ***根拠に基づく医療 [#s2f2f17f] エビデンス・ベースド・メディスン -急性心筋梗塞後に抗不整脈薬を投与すれば 死亡者を減らせるはず -データでは、偽薬(プラシーボ)の方が人が死ななかった。 経験や勘、論理的に正しいではなく、エビデンスに基づく(導入) ***給与や年収などの分布の見方 [#c7ae60dd] [[平均値などの代表値を使ってみる。>データ分析#j6ea2557]] ***比率で見た地域間比較 [#s88787fc] -普及率~ 太陽光発電システムのある住宅の数及び普及率 --住宅数で比較するのは正しい?~ 住宅総数の多い都道府県で高くなる傾向 --比率(普及率)で比較~ 日射量の多い地域で高くなる傾向 -女性の比率~ 女性の数と比率 --実数では総人口が多いほど、女性が多い(相関係数 = 0.999)。 --比率にすると人口の多い都道府県ほど、女性の割合が低いと言う情報が得られる。 ***労働者を増やす(M字カーブの改善効果 [#qf27c639] -生産年齢人口中の女性の非労働力人口が多い。 -年齢階級別女性の労働力人口比率から、~ M字カーブ(妊娠・出産・育児による離職)を~ 防止すれば生産年齢人口を増やすことができる。 -スウェーデン並みに引き上げると534万人増加 ***付加価値額と非正規職員比率の関係 [#ncc74f82] -産業間で付加価値額に差がある --一般的に人件費の高い産業で大きくなる傾向 --非正規職員比率が高い産業は付加価値が小さくなる 傾向 -[[相関分析>#bad01586]]~ 相関係数を計算すると(表計算ソフトで簡単に計算できる)、~ 非常に強い負の相関(相関係数は-0.77071)があることが解る。 ***未婚割合の多い地域とは? [#aaf3aeb8] -地域の未婚割合に関連する地域のXXXX --未成年割合(が高い地域 --借家割合(が高い地域 -[[散布図 → 回帰分析>#xc0279dd]] ***スポーツをデータで科学する [#e6684a5a] ワールドカップで勝つためには -[[目的変数>データ分析#e86ac9d5]] --順位 --勝率 --勝ち数 -[[説明変数>データ分析#e86ac9d5]]~ FIFAから国別データが公表 --得点 --シュート数 --位置別シュート数 --攻撃 --守備 --反則 --パス --走行距離 -[[散布図>#wbb80cf7]]を描く。 --勝率([[目的変数>データ分析#e86ac9d5]])をy軸、 --[[説明変数>データ分析#e86ac9d5]]をx軸として ---パス成功数 ---ゴール枠内へのシュート数 ---ボール保有時の走行距離 ---シュートをブロックした回数 ---セーブ数(負の相関→シュートされ過ぎw) ---バロンドール2010候補者の数 --[[→ 回帰分析>#xc0279dd]] ***合計特殊出生率の見方 [#j929ad9f] -ある年次の15歳から49歳までの女性の年齢別出生率を合計した数値 -人口が維持できる水準(人口置換水準)は2.07 --1974年に2.05と下回って以降、右肩下がり。 --2005年には最低の1.26を記録するが回復傾向にあるが低い。 -県別にみた合計特殊出生率をみると --0.7ポイントの差があり、ココに注目すると、 --共働き率(親との同居近居、保育所、職場の支援)に~ 「低い」説明力があるらしいことが解ったとか。 ***国際比較データから日本社会を読み解く [#k49764b7] -合計特殊出生率の国際比較 --欧米と比較した場合 --アジアと比較した場合 -国際比較データでみる平均寿命~ --データをOECD加盟国(※)に限定 --国民の経済的な豊かさ(1人あたりのGDP)は寿命と対応している? ---[[回帰分析>#xc0279dd]]で、高い説明力があることが解るが、~ ---ソレ以外の要素も影響を与えている事が解る。 ***[[線形単回帰分析による予測>#s616f38f]] [#n8e56d76] **統計を使ってウソをつく方法からの学び [#i6f71d83] ***[[相関関係>#bad01586]]に気をつける [#zdae67e0] -因果関係(Xが原因でYが起きている or Yが原因でXが起きている -[[擬似相関>#bad01586]](XとYに関係はないが、たまたまあるように見える) -第3の変数、ZがXとYに影響を与えている --第3の隠れた要因のせいで、~ 間違った結論を導き出してしまうことはよくある。 --大学に在籍している年数が長くなるほど裕福 ---勤勉だから ---親が金持ちだから ***関係というのはいつまでも続くものではない [#e452aca0] 収入が増えるほどより人生に満足することができるようになるか? -○:貧困から抜け出した人々 -✕:一定の年収を超えた人々 ***いつもチャートの軸のスケールを確認する [#k324ba60] TVのテロップなどの印象操作でおなじみ。 ***小さなサンプルからは驚くような結果を導き出せる [#hb1f79eb] -標本分布、[[標準誤差>#k55b23a6]]は標本サイズに反比例する。 -発がん率が最も高いのは人口が最も少ない町であることが多い。 ***データを説明する全ての数値を見る [#x33c7836] -ある町の平均気温が16度(最高気温と最低気温の情報がないと役に立たない。 -2人の子供のIQが99と102だった(3ポイントほどの[[標準誤差>#k55b23a6]]がある -平均で2年ほど寿命を長くする薬(14年ほど寿命が長くなったり、12年寿命が短くなったり ***どの「[[代表値>#j6ea2557]]」が使われているのかに注意する [#w44d680c] 特に、[[正規分布>#ef7464d6]]以外の場合。 ***共通のベースラインと比べる [#b47d18e1] -相対的に比べることが重要。 -統計値を出す計算方法や定義の変化 ***サンプルの選択過程にあるバイアスに気をつけろ [#lf0a02cd] [[バイアス ≒ 標本の偏り>#bad01586]] ***有名人には気をつけろ、そして権威を疑え [#c99df213] [[権威に訴える論証>データ分析#v92546d1]] ***一つの統計値を信じすぎてはいけない [#da5ec617] ≒ 特定の状況に対して[[過学習>機械学習(machine learning)#l377f5cd]]し過ぎている。 -1つの値ではなく、値の範囲を見るべき。 -数値だけでなく、その信頼区間を求めるべき。 *参考 [#qec07d2d] -記述統計学と推計統計学の違い | 全人類がわかる統計学~ https://to-kei.net/basic/inductive-statistics/ -統計モデリングとは何か?線形モデルから階層ベイズまでを徹底解説|スタビジ~ https://toukei-lab.com/%E7%B5%B1%E8%A8%88%E3%83%A2%E3%83%87%E3%83%AB **YouTube [#r5a7d822] -謎解き統計学 | サトマイ~ https://www.youtube.com/@satomai811/playlists **Wikipedia [#idf28e31] ***相関関係と因果関係 [#je5270cd] https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82 -相関関係(相関~ https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2 -因果関係(因果性~ https://ja.wikipedia.org/wiki/%E5%9B%A0%E6%9E%9C%E6%80%A7 -相関係数~ https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0 ***推計統計(統計的機械学習 [#s6b55a29] -回帰分析~ https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90 -重回帰分析~ https://ja.wikipedia.org/wiki/%E9%87%8D%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90 -数量化理論~ https://ja.wikipedia.org/wiki/%E6%95%B0%E9%87%8F%E5%8C%96%E7%90%86%E8%AB%96 -判別分析~ https://ja.wikipedia.org/wiki/%E5%88%A4%E5%88%A5%E5%88%86%E6%9E%90 -多項式回帰~ https://ja.wikipedia.org/wiki/%E5%A4%9A%E9%A0%85%E5%BC%8F%E5%9B%9E%E5%B8%B0 -正則化~ https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%89%87%E5%8C%96 -ロジスティック回帰~ https://ja.wikipedia.org/wiki/%E3%83%AD%E3%82%B8%E3%82%B9%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%E5%9B%9E%E5%B8%B0 -決定木~ https://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8 -主成分分析~ https://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90 -因子分析~ https://ja.wikipedia.org/wiki/%E5%9B%A0%E5%AD%90%E5%88%86%E6%9E%90 -データ・クラスタリング~ https://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0 ***統計的仮説検定 [#zd70d5e7] https://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A -パラメトリックな検定手法 --t検定~ https://ja.wikipedia.org/wiki/T%E6%A4%9C%E5%AE%9A --F検定~ https://ja.wikipedia.org/wiki/F%E6%A4%9C%E5%AE%9A -ノンパラメトリックな検定手法 --カイ二乗検定~ https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A **Qiita [#kd8b5336] -データと統計を使って人を騙す10の方法~ https://qiita.com/KanNishida/items/2208060727c3f68055ec -k-meansの最適なクラスター数を調べる方法~ https://qiita.com/deaikei/items/11a10fde5bb47a2cf2c2#%E3%82%A8%E3%83%AB%E3%83%9C%E3%83%BC%E6%B3%95 -K-means法を D3.js でビジュアライズしてみた - てっく煮ブログ~ http://tech.nitoyon.com/ja/blog/2013/11/07/k-means/