分布の特徴をあらわす記述的指標
最大値、最小値、平均値 (mean、算術平均) など
調整平均
極端な値の影響を排除する為に最大値、最小値を排除した平均
中央値 (median)
出現する値をソートした時の順位が真ん中になる値
代表値としての適切さ
分布に含まれるそれぞれの値との近さ
データ総数 N
i 番目の実測値 $x_{i}$
1 番目の実測値 $x_{1}$
2 番目の実測値 $x_{2}$
最適な代表値の候補 t
代表値 t とそれぞれ実測値の距離は $|x_{i} - t|$
これの総和を取る
\[
T_{1}=\sum_{i=1}^{N}|x_{i}-t|
\]
$T_{1} $を最小化する値 t が、分布に含まれるそれぞれの値に最も近い。このような基準 $T_{1}$ を最小化する値が中央値。
しかしこの「距離」だと、値の密度が高いあたりの数値影響力が高く、分布の両端にある疎な値の影響力が弱い。
分布の両端 (つまり距離が遠い) 値の影響力を大きくする為に、別の基準 $T_{2}$ を
\[
T_{2}=\sum_{i=1}^{N}(x_{i}-t)^{2}
\]
とすると。代表値 t と各値の二乗を取っているので、距離が遠い=差が大きいものの影響力がより強くなる。このような基準 $T_{2}$ を最小化する値が平均値。
外れ値に対する抵抗性
平均値は中央値に比べて分布の両端の外れた値の影響を強く受ける為、極端な最大値や最小値にひっぱられて平均値は大きく変動する。
一方中央値はこういう極値の影響を受けない。
合成変数
複数の変数に重みを付けた和や差。
変数 x,y、重み c,d の時、合成変数 v は
\[
v = cx + dy
\]
v の平均は
\[
\overline{v} = \frac{1}{N}\sum_{i=1}^{N}v_{i}\\
= \frac{1}{N}\sum_{i=1}^{N}(cx_{i} + dy_{i})\\
= \frac{1}{N}\sum_{i=1}^{N}cx_{i} + \frac{1}{N}\sum_{i=1}^{N}dy_{i}
\]
となる。つまり合成変数の平均は、各変数の平均の和に等しい。
散布度
分布の広がりの程度を表す。
平均偏差
中央値によって最小化される指標$T_{1}$をデータ総数で割った値。つまり
\[
MD = \frac{1}{N}\sum_{i=1}^{N}|x_{i} - Med|
\]
で表わされる。これは各値が中央値から平均してどれくらい離れているかを表わしている。
中央値の代わりに平均値を入れる事もある。
分散
平均値によって最小化される指標$T_{2}$をデータ総数で割った値。つまり
\[
s^{2} = \frac{1}{N}\sum_{i=1}^{N}(x_{i} - \overline{x})^{2}
\]
標準偏差
分散の平方根を取ったもの。つまり
\[
s = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_{i} - \overline{x})^{2}}
\]
平均偏差よりも、分散や標準偏差の方が統計的推測では頻繁に使われる。
不偏分散
$T_{2}$をデータ総数ではなく、データ総数-1 で割った値。つまり
\[
s^{2} = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i} - \overline{x})^{2}
\]
線形変換
元の変数 x に対して
\[
x' = cx + d
\]
として新しい変数 x'を得る手続き。
線形変換した x'からそれぞれの指標値を計算すると以下が導出できる。
\[
MD_{x'} = |c| \times MD_{x}\\
s_{x'} = |c| \times s_{x}\\
s^{2}_{x'} = c^{2} \times s_{x}^{2}
\]
上記の用に線形変換後の平均や標準偏差は完全に予測可能なので、変換後の変数が特定の平均と標準偏差を持つように変換する事が可能。
例えば学校で使われる偏差値は、平均 50、標準偏差 10 になるように点数を線形変換したもの。
z 得点
平均を 0、標準偏差を 1 とする線形変換
0 件のコメント:
コメントを投稿