といってもそもそも「連関」とか初耳用語。
この章は実際に検定の計算の流れを示しているので、概念的な説明は比較的少ない (のでメモが少ない)。
## Sec1
2 群 (つまり何らかの仕方で分かたれた 2 つのグループ) の比較を考える。1 つめの群を第 1 群、第 2 群と呼ぶ。例を出すとすると、ある中学校の試験の成績を評価する時に、男子だけで構成された群、女子だけで構成された群というのを比較する。
母集団に於ける従属変数を $y$ と表すとして、それぞれの群の母集団平均を $μ_{1}$、$μ_{2}$ として共通の分散 (それぞれの群の分散は等しいと仮定) を $σ^{2}$ とする。
独立な群 (independent groups)
各群の標本抽出が独立に行なわれている群。
対応のある群
独立な群と逆で、各群が一定の方法で抽出されている群。例えば、成績 1 位を 1 群、2 位を 2 群、3 位を 1 群、4 位を 2 群……というように弁別した場合は対応のある群となる。
平均値差の標本分布
母集団に於ける従属変数 $y$ の平均値差 $μ_{1}-μ_{2}$ に関する検定や推定には、母集団の値自体は不明なので、当然 $y$ の標本である標本平均 $\overline{y_{1}}$、$\overline{y_{2}}$ の差が使われる。母集団の分散が等しく、独立した 2 群の場合、標本平均差の標本分布は正規分布となる。
## Sec5
質的変数
ある・なし、はい・いいえ、男女のような値を取る変数。
連関 (association)
質的変数同士の相関の事。
カテゴリ変数
質的変数のうち、賛成・やや賛成・やや反対・反対のような順序性のあるカテゴリを持つ変数の事。
連関表 (contingency table)、クロス集計表 (cross tabulation)
カテゴリ変数間の連関を示す表。
$χ$ (カイ) 二乗統計量 (chi-square statistic)
カテゴリ変数間の連関を表す指標。
周辺度数
変数 $x$、$y$ がそれぞれ $a$ 個と $b$ 個のカテゴリを持つとすると $a \times b$ の大きさの表にこれを纏められる。この表の各セルの度数を $n_{ij}$ とした時、各列、各行の合計の欄の度数の事を周辺度数と言う。
例えば、それぞれの変数を
x: マジックアイテムのレアリティ (コモン、アンコモン、レア、ヴェリィレア、レジェンダリィ)
y: マジックアイテムの種別 (リング、スタッフ、ワンド、ロッド、ウェポン、アーマー、ワンダラスアイテム、スクロール、ポーション)
とすれば、これの対応表を作る事が出来る。
あるセルの度数 $n_{ij}$ の期待値を $e_{ij}$ と表記する。例で言えば、レアのワンドの総数 (度数) が $n_{ij}$、マジックアイテム全数に対するレアのワンドの割合が期待値 $e_{ij}$ になる。
全体の度数 (マジックアイテム全数) を $N$ とした時、2 変数間に連関が全く無い場合の $(i,j)$ セルの度数の期待値は
\[
e_{ij} = n_{i} \times \frac{n_{j}}{N}\\
= \frac{n_{i} \times n_{j}}{N}
\]
となる。これを連関が無い時の推定期待度数と呼ぶ。
カイ二乗統計量は、この推定期待度数 $e_{ij}$ と実際のセルの度数 $n_{ij}$ との際を次式で評価したものを言う。
\[
χ^{2} = \sum_{i=1}^{a} \sum_{j=1}^{b} \frac{(n_{ij} - e_{ij})^2}{e_{ij}}
\]
クラメルの連関係数 (Cramer's measure of association)
カイ二乗統計量を次式の様に加工したもの。
\[
V = \sqrt{\frac{χ^{2}}{(min (a,b) - 11) N}}
\]
この連関係数は
\[
0 \leq V \leq 1
\]
の範囲を取る事が分かっている。
$χ$ 二乗検定
母集団に於いて 2 つのカテゴリ変数間の連関が全く無いという帰無仮説を検定する方法。カイ二乗統計量が、その帰無仮説のもとでカイ二乗分布と呼ばれる確率分布に近似的に従う事を利用する。
0 件のコメント:
コメントを投稿