第三章は相関関係と回帰分析。
== Sec1
相関関係
$x,y$ の二値が変数の時、$x$ が大きいほど、$y$ も大きい傾向がある場合、正の相関があると言う。
$x$ が大きいほど、$y$ が小さい傾向がある場合、負の相関があると言う。
共分散
$x,y$ の二値が変数の時、$x$ の平均値 $\overline{x}$ と $y$ の平均値 $\overline{y}$ を考える。$x,y$ のそれぞれの値$x_{i}$、$y_{i}$ についてこれらの平均との距離の積の平均値が共分散 $s_{xy}$ になる。つまり
\[
s_{xy} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline{x}) (y_{i}-\overline{y})
\]
シグマで囲まれた項
\[
(x_{i}-\overline{x}) (y_{i}-\overline{y})
\]
は、xy 平面上で、$x$ の平均値の成す線と $y$ の平均値の成す線から作られる長方形の面積になる。
不偏共分散
不偏分散と同じようにデータ総数 N に対して N-1 で割った共分散を不偏共分散と言う。つまり
\[
s'_{xy} = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\overline{x}) (y_{i}-\overline{y})
\]
完全な正の相関がある 2 変数の共分散は、それぞれの変数の標準偏差の積になる。$xy$ の 2 変数を考えた時、完全な正の相関があるならば $y$ は
\[
y = cx + d
\]
という線形変換が可能である。従って、これを共分散の式に適用すると
\[
s_{xy} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline{x}) (y_{i}-\overline{y})\\
= \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\overline{x}) [(cx_{i}+d)-(c\overline{x}+d)]\\
= \frac{c}{N}\sum_{i=1}^{N}(x_{i}-\overline{x})^{2}\\
= cs_{x}^{2}\\
= (\frac{s_{y}}{s_{x}}) s_{x}^{2}\\
= s_{x}s_{y}
\]
相関係数
共分散をそれぞれの変数の標準偏差の積で割った値。つまり
\[
r = \frac{s_{xy}}{s_{x}s_{y}}
\]
相関係数の取り得る値は $-1 \leq s_{xy} \leq 1$ になる。
== Sec2
統計的事象は一般的に同じ $x$ の値に対して $y$ は様々な値を取る。例えば、中学生の学習時間 $x$ と試験点数 $y$ の統計の場合、$x$ に対して $y$ は一意に定まらない (同じ学習時間でも試験点数が異なる生徒が存在する)。
条件付き平均
こういった時、1 つの $x$ に対する様々な $y$ の平均を考える。これを $y$ の条件付き平均、と言う。中学生の例で言えば、学習時間が同じ生徒達の平均点数。
回帰直線
$y$ の条件付き平均の予測値 $\hat{y}$ を
\[
\hat{y}=a+bx
\]
とした時の直線の事。
回帰係数
回帰直線の式に於ける変数 $x$ の傾き $b$ の事。
最小二乗法
回帰直線を導く方法の一つ。回帰直線の式に実際観測データ $x_{i}$ を代入して得られる $\hat{y}_{i}$ と、実際の観測データ $y_{i}$ の差の二乗を最小化する $a$、$b$ を求める。つまり
\[
Q = \sum_{i=1}^{N}(y_{i}-\hat{y}_i)^{2}\\
= \sum_{i=1}^{N}[(y_{i}-(a+bx_{i})]^{2}
\]
残差
従属変数の実際の値と予測値ののずれの事。予測の誤差とも言う。残差を $e$ とすると
\[
e = y - \hat{y}
\]
また、残差の平均は
\[
\overline{e} = \overline{y} - \overline{\hat{y}} = 0
\]
となる。
変数の直交
互いに相関が無い ($r=0$) な変数同士は「直交している」と表現する。
残差は独立変数 $x$ との相関が 0 になる (後の章で説明するらしい)。
残差の定義式を変形すると
\[
y = \hat{y} + e
\]
が得られる。$\hat{y}$は独立変数 $x$ の線形変換であるから、$x$ との相関は 1 (または-1) になる。一方残差 $e$ は $x$ とは無相関なので、上記式は $y$ を独立変数と、独立変数とは無関係な値に分解した事になる。
つまり従属変数 $y$ は、独立変数 $x$ だけでは説明できない要素が関連しているという事になる。中学生の例にすると、試験点数は学習時間だけでは説明できない要素があるという事になる (例えば学習の方法の差など)。
残差の分散
予測の誤差分散とも呼ばれ、以下の式で表わされる。
\[
s_{e}^{2} = s_{y}^{2}(1-r^{2})
\]
この平方根
\[
s_{e} = s_{y}\sqrt{1-r^{2}}
\]
は予測の標準誤差と呼ばれる。この予測の標準誤差の大小で予測の精度を評価する事ができる。
対称性
相関係数と回帰係数は共に変数間の関係を表わす指標だが、相関係数はそれぞれの変数に関して対称性がある。つまり $x$ と $y$ の相関係数と、$y$ と $x$ の相関係数は同じになる。しかし回帰係数は非対称になる。$y$ の $x$ への回帰直線と、$x$ の $y$ への回帰直線の傾きは同じにならない。
選抜効果
ある変数の値 (例えば $y$) に基づいてデータの選抜を行なうと、それによって相関係数の値は一般に低下する。この事を選抜効果と呼ぶ。他方、選抜を行なっても回帰係数は殆ど変化しない。
== Sec6
妥当性
測定の妥当性とは、測定値が測定すべきものを正しく反映している程度の事。つまり測定の質。
妥当性の検証
測定が妥当だと仮定して、その場合どのような結果が満たされるか、をリストアップし実際に満たされているか確かめる。
信頼性
測定値の一貫性。同じ測定を繰り返した時、N 回目と N+1 回目で測定値が一貫しているかどうか。
0 件のコメント:
コメントを投稿