テスト分野の理論体系（DS）の変更点

追加された行はこの色です。
削除された行はこの色です。
テスト分野の理論体系（DS）へ行く。
テスト分野の理論体系（DS）の差分を削除
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>データサイエンティスト]]
-戻る~
[[データサイエンティスト]] > [[データ分析]]

*目次 [#yd5abdcb]
#contents

*概要 [#x2957e4e]
能力や性格テストなど企業の採用・昇進等の判断材料と~
されているテストがデータサイエンスを基盤として成り立っている

*詳細 [#u81668a7]

**テストの事例 [#d6cbe858]
***SPI [#l0c70dc8]
-株式会社リクルートが実施している適性検査
-大学生が就職試験の際によく受験する40年以上の実績がある検査
-[[項目反応理論>#t7a0fb24]]を応用し短時間でも精度の高い測定を可能にしている

-特徴
--性格検査
--基礎能力検査
--信頼性 / 妥当性 / 標準性を重視している

***RST [#p8a1f86e]
-教育のための科学研究所が実施している読解力テスト
-読解力を六つないし七つの側面から評価するテスト

-特徴
--[[項目反応理論>#t7a0fb24]]が使われている
--[[適応型テスト>#f4b53bab]]が使われている
--[[信頼性 / 妥当性>#z281d4f5]]について検証している

***日本語能力試験 [#y5d5f52f]
-日本語を母語としない人の日本語能力を測定し認定する試験
-国際交流基金と日本国際教育支援協会が共同で実施している
-日本への留学、就業のための目安、大学院受験のための資格の一つ
-N1からN5までのレベルがあり、受験者はレベルを選択して受験

-特徴
--[[項目反応理論>#t7a0fb24]]が使われている
--...

***ビッグファイブ [#c0c189d9]
-能力検査ではなく性格検査
-[[因子分析>#o97b7a0f]]という心理学発祥の統計手法によって客観的に導出されたもの
--開放性
--誠実性
--外向性
--協調性
--神経症傾向

***ブランドジャパン [#ob77b0ec]
-BtoC、BtoBの両面から各ブランドのブランド力を測定することを目的とした調査
--BtoC：企業名と商品　サービス名の合計1,000ブランドを一般生活者視点で評価
--BtoB：企業名のみ500ブランドの企業活動をビジネス・パーソンの視点で評価

-共分散構造分析という手法が使われる。~
（[[因子分析>#o97b7a0f]]は共分散構造分析の下位のモデル）

-BtoCのモデル~
総合力を16項目を内包する4つの因子で構成し、因子スコアをグラフにする。


--フレンドリー
---好きである、気に入っている
---親しみを感じる
---なくなると寂しい
---共感する、フィーリングが合う

--コンビニエント
---知らない
---全く興味がない
---最近使っている
---役に立つ、使える
---品質が優れている

--アウトスタンディング
---ステータスが高い
---かっこいい、スタイリッシュ
---他にはない魅力がある
---際立った構成がある

--イノベーティブ
---いま注目されている（旬である）
---時代を切りひらいている
---勢いがある

-BtoBのモデル~
総合力を下記で構成し、因子スコアをグラフにする。

--企業評価項目5項目
---グローバルである
---日本を代表している
---日本経済を支えている
---一流である
---この企業を高く評価している

--21項目を内包する5つの因子
---先見力~
・時代を切りひらいている~
・成功している~
・経営者に魅力がある~
・ビジョンがある~
・この企業から学びたい~
---人材力~
・人材が優れている~
・人材育成に力を入れている~
・従業員を大切にしている~
・一度この企業で働いてみたい~
---信用力~
・品質、技術が優れている~
・信頼できる~
・環境に配慮している~
・伝統がある~
---親和力~
・認知度スコア~
・正直である~
・この企業に好感を持っている~
・顧客を大切にしている~
---活力~
・チャレンジ精神がある~
・自由闊達である~
・人まねが嫌いである~
・エネルギッシュである~

**テスト分野の統計手法 [#vab59d65]

***[[因子分析>統計解析#c9b821dc]] [#o97b7a0f]
[[ビッグファイブ>#c0c189d9]]や[[ブランドジャパン>#ob77b0ec]]で使用されている。

-全国模試の例
--理系・文系の振り分けや、各学生が強化すべき重点項目の洗い出し。
--潜在因子
---「文系」と「理系」の2因子
---「読解力」と「抽象化」と「計算力」の3因子

-採用面接の例

--７因子
---知的好奇心
---外向性
---協調性
---良識性
---情緒安定性
---異常度合
---建前度合

--5因子~
[[ビッグファイブ>#c0c189d9]]（特性５因子モデル）

***項目反応理論 [#t7a0fb24]
Item Response Theory（IRT）

-テストの難易度や受験者の学力分布に依存しない能力値を返却できる

--評価項目群への応答に基づいて下記の評価項目を~
正誤のような離散的な結果から確率論的に求めようとする試験理論
---被験者（受験者）の特性（学力・能力値）θ
---問題（評価項目）の識別力（a）・困難度（b）

--実際のテストでは様々な状況に合わせてモデルを使い分ける。

---2値データのモデル~
・1パラメタロジスティックモデル~
　・θ＞b：正答する可能性が上がる。~
　・θ＝b：正答確率は0.5~
　・θ＜b：正答する可能性は下がる。~
・2パラメタロジスティックモデル~
　・識別力（aj）が問題毎に定められている~
　・ajが大きな問題は、bj付近において能力値の違いを鋭く捉える（良問~
　・ajが負の値になると能力値が高いほど正答確率が低くなる（おかしな問題~
・3パラメタロジスティックモデル~
　・選択問題など当て推量（cj）が問題ごとに定められている。~
　・選択肢が5であれば20％の確率で正答できる。

---多値データのモデル~
・段階反応 / 部分得点 / 一般化部分得点モデル~
　正答と誤答の間に段階を設けたデータなどを分析~
・名義反応モデル~
　選んだカテゴリー間に順序性がないようなデータを分析~
・連続反応モデル~
　カテゴリーが非常に多く連続的な値と考えられるデータを分析~

-採用場面で使用されているテストでも実装されている。

--OECDによる国際的な学習到達度に関する調査
---NEAP（全米学力調査）
---TIMSS（国際数学・理科教育動向調査）
---PISA（読解力、数学的リテラシー、科学的リテラシーを測定）

--日本で実施されているもの
---[[SPI>#l0c70dc8]]
---[[RST>#p8a1f86e]]
---[[日本語能力試験>#y5d5f52f]]

***適応型テスト [#f4b53bab]
Computerized Adaptive Testing（CAT）

-簡単に言えば、コンピューターで、

--正解ならより難しい問題
--不正解ならより簡単な問題

>を出題する方法。

-各受験者に、項目提示終了基準を満たすまで、~
回答履歴に応じた最適な問題を項目プールから選んで提示するため、~
視力検査の様に少数の問題を解くだけで精度の良い能力値判定が可能。

-項目プールは、[[項目反応理論>#t7a0fb24]]に基づき、~
a b cパラメタが推定済みの問題の集まり。
--識別力（aj）
--困難度（b）
--当て推量（cj）

-能力値θの推定に[[ベイズ統計]]学が利用されている。~
全問正答・誤答の状況の能力値θの推定値が±∞に発散しないよう~
一様分布等の事前分布を仮定したベイズ推定を行う。

-項目分析~
個々の項目問題について
--(a)そのままテストに含めてよい
--(b)より望ましいパフォーマンスが得られるように改定する
--(c)パフォーマンスが望ましくないので廃棄する

>統計的に判断するための精査プロセスで、~
項目特性図（≒ [[項目反応理論>#t7a0fb24]]のグラフ）~
を使用して、おかしな問題をフィルタし、良問を厳選する。

***認知診断モデル [#k8b1575e]
-Qmatrixと反応データ（正誤データ）から~
各受験者の知識状態を推定することを目的とする。

-Qmatrix
--縦軸：問題
--横軸：属性（問題に正答するために必要な知識

-これにより学習者の弱点を知ることができる。

**性能評価指標 [#z281d4f5]
テストの性能評価の指標である[[信頼性>#y1a17008]]と[[妥当性>#g937bdae]]

***信頼性 [#y1a17008]
-測定結果の安定性を表す。

-同じ個人が回答（測定）する度に違う値になるテストは信頼性が低い

-α係数　ω係数　再検査信頼性などを計算して推定する
--α係数：内的整合性（項目全体が同一の構成概念を測定しているか）の指標
--ω係数：因子分析結果を反映し、負荷量を重みづけた指標
--再検査信頼性：同じテストをやったら同じ得点が得られるという一貫性の指標

***妥当性 [#g937bdae]
テストが狙った構成概念を測定できているかどうかを３つの妥当性で表す。

-構成概念妥当性
--構成概念に関する理論が成立しているかを表す。
--測定値の高さが構成概念の高さを表しているか。
--近年では、≒本質的な妥当性（測定値の解釈に関する適切性）と言う~
考え方も登場し、適切性を保証するための証拠を提示することが大切。
---内容的側面の証拠
---本質的側面の証拠
---構造的側面の証拠
---一般化可能性の側面の証拠
---外的側面の証拠
---結果的側面の証拠

-基準関連妥当性~
測定によって得られた値が、外部基準と高い相関を持つかどうかを指す指標。

--予測的妥当性
---テストによって将来をどれくらい的確に予測できるか
---入社試験などで重要になる。

--併存的妥当性
---テストと同時に収集されたテストとの相関から妥当性を見る。
---同じ構成概念を測定するテストとの相関は高くなる。

-内容的妥当性~
項目文が構成概念の領域を網羅しているか専門家の意見などから判断

*参考 [#t40b05b2]
テスト分野の理論体系（DS） の変更点

テスト分野の理論体系（DS）の変更点