四章は確率モデルと標本分布について。
## Sec1
母集団
標本 (サンプル)
標本抽出 (サンプリング)
単純無作為抽出
二段抽出 : 母集団から部分集団をランダムに選択して、部分集団から更にランダムで標本抽出。
統計的推測の前提
個々のデータ (標本) が互いに独立に同じ確率的振舞いをすること。
この前提を満たす為には単純無作為抽出が必要。
例えば中学生の試験点数の例で言うならば、部分集団として適当な中学校を選んだとしてその学校が進学校で平均的に学力が高い場合、その部分集団としての進学校から標本抽出するとデータに偏りが発生する。
標本統計量
標本から得られる平均値や相関係数などの記述的指標の事。
母集団から得られる値は「母数」と言う。
標本値と母数を区別する場合、標本平均、標本相関係数、母集団平均、母集団相関係数などと呼ぶ。
確率モデル
母集団を一種のデータ発生装置と見做して、標本抽出によって各データがどういう確率でどういう値を取るか、を模式化したもの。
確率変数
確率的に変動する変数。
確率分布
確率変数がどういう確率でどういう値を取るかの分布。
標本分布
標本統計量がどういう確率でどういう値を取るかを表わす分布。特定の標本におけるデータの度数分布ではない。度数分布というのは観測データから得られた具体的な値の集合で、標本分布 (確率分布) というのは理論的に導出された抽象的なもの。
二値変数
一般に yes/no で分類できるような値を 0/1 で表わす変数。
二項分布
成功確率 $p$ の試行を独立に $n$ 回繰り返した時の成功数 $k$ を与える分布。例えば d20 を 100 回 ($n=100$) 振って出目 20 ($p=0.05$) が 5 回出る ($k=5$) 確率などにあたる。以下の式で表わされる。
\[
f (w)={}_{n}C_{k}p^{k}(1-p)^{N-k}
\]
${}_{n}C_{k}$は以下の式で表わされる組み合わせ総数 ($n$ 種類のものから $k$ 個を選択する組み合せの数)。
\[
{}_{n}C_{k} = \frac{n!}{k! (n-k)!}
\]
従って前式は
\[
f (w) = \frac{n!}{k! (n-k)!}p^{k}(1-p)^{N-k}
\]
となる。$N=1$ の場合を特にベルヌーイ分布と言う。
確率分布に於ける確率変数 $x$ の分布の平均 $μ$ は
\[
μ=\sum_{k=1}^{m}x_{k}f (x_{k})
\]
不偏性
標本統計量の分布の平均が、母数の値に一する時その統計量は不偏性を持つ、と言う。不偏性を持った統計量は不偏推定量と呼ばれる。
確率分布の標準偏差
確率分布 $f (x)$ に従う確率変数 $x$ の標準偏差 $σ$ は度数分布の標準偏差と同じように以下の式で与えられる。
\[
σ=\sqrt{\sum_{k=1}^{m}(x_{k}-μ)^{2}f (x_{k})}
\]
上式の $f (x_{k})$ に二項分布の式を代入し式変形すると
\[
σ_{w}=\sqrt{Np (1-p)}
\]
が得られる。この式を N で割る事によって得られる
\[
σ_{p}=\frac{\sqrt{Np (1-p)}}{N}
\]
は比率の標本分布の標準偏差である。
標本統計量は、標準偏差が大きい程その統計量に基づく母数の推定の誤差が大きくなる可能性が高い。標本統計量の標準偏差は、標準誤差とも呼ばれる。標本数 N が大きくなる程、標準誤差は小さくなる。
逆に標準誤差を特定の値以下に抑えるのに必要な標本数を計算によって求める事が出きる。標準誤差の式を用いて、例えば比率 $p$ の標準誤差を 5%以下にしたいのであれば
\[
σ_{p}=\frac{\sqrt{Np (1-p)}}{N}\leq0.05
\]
という不等式を立ててこれ解く。
\[
N\geq400p (1-p)
\]
右辺は $p=0.5$の時に最大になるので
\[
N=400\times0.5\times0.5=100
\]
となって標本数を 100 以上にすれば比率 $p$ の標準誤差を 5%以下に抑えられる。
## Sec3
正規分布
確率密度関数
確率変数が、二項分布の様な離散値では無く連続値を取る場合の確率分布は、その変数が特定の値を取る確率では無く、ある範囲の値を取る確率を問題する。そのような確率は分布の確率密度関数を用いて計算される。
平均 $μ$、標準偏差 $σ$ の正規分布に従う変数 $x$ の確率密度関数は
\[
f (x)=\frac{1}{\sqrt{2p σ}}\exp [-\frac{(x-μ)^2}{2 σ^{2}}]
\]
と表わされる。この変数がある特定の範囲 (a<x<b) の値を取る確率 $Prob (a<x<b)$ は
\[
Prob (a<x<b)=\int_{a}^{b}f (x) dx
\]
によって与えられる。
標準正規分布
平均 0、標準偏差 1 の正規分布。
中心極限定理
標本数を大きくしていくと、母集団の分布の種類とは無関係に標本平均の分布が正規分布に近付いていくという定理。
## Sec4
二変数正規分布
連続値を持つ 2 つの独立した確率変数を要素としてもつ正規分布。一変数正規分布は平面で表わされるが、二変数の場合立体図になる。
二つの変数を $x$、$y$ とした時、それぞれの平均を $μ_{x}$、$μ_{y}$、標準偏差を $σ_{x}$、$σ_{y}$、$x$ と $y$ の相関係数を $ρ$ とした時の確率密度関数は
\[
f(x,y)=\frac{1}{2pσ_{x}σ_{y}\sqrt{1-ρ^{2}}} \times exp[-\frac{z_{x}^{2}-2ρz_{x}z_{y}+z_{y}^{2}}{2(1-ρ^{2})}]
\]
ただし $z_{x}$、$z_{y}$ は
\[
z_{x}=\frac{x-μ_{x}}{σ_{x}}\\
z_{y}=\frac{y-μ_{y}}{σ_{y}}\\
\]
相関係数の標本分布
データが二変数正規分布に従う時の相関係数 $r$ の標本分布は母集団相関係数 $ρ$ と標本数 $N$ のみによって規定される確率分布になる。
## Sec5
頑健性
仮定した確率モデルの分布が、母集団分布と異なる時に、モデルに基づく推定が妥当である程度の事。一般に標本数が大きくなれば母集団分布の違いの影響は小さくなり頑健性が増す。
ノンパラメトリック法
特定の分布形を仮定しない方法
0 件のコメント:
コメントを投稿