2017年12月7日木曜日

【今日の読書】心理統計学の基礎 統合的理解のために

書名: 心理統計学の基礎 統合的理解のために
著者: 南風原 朝和
出版: 有斐閣アルマ
ISBN: 978-4-641-12160-7

題名は心理統計学とあるが、例題が心理学に関連しているだけで内容自体は初級から中級程度の統計学。

ただ数学の苦手と思われる (例えば心理学専攻の) 文系学生を対象読者に据えているので、説明が丁寧だけれどもいたずらに詳細だったり、証明や式の導出ばかりになっていない。

手っ取り早く統計の実際的な部分を勉強がしたいけれども、特に重要な概念だけは丁寧に説明してほしいという我侭な社会人にも良い塩梅の本。

7 章の線形モデルの説明あたりから、ベクトルが登場するので先に行列 (線形代数) の基礎を抑えておくと良い (「キーポイント線形代数」がお勧め)。7 章にある自由度に関する説明は非常に分かりやすかった。

10 章の因子分析は、もろに機械学習やディープラーニングと関連していそうなので腰を据えて再読したい。

2017年12月1日金曜日

心理統計学の基礎 第六章 備忘録

第六章は平均値差と連関について。

といってもそもそも「連関」とか初耳用語。

この章は実際に検定の計算の流れを示しているので、概念的な説明は比較的少ない (のでメモが少ない)。

## Sec1

2 群 (つまり何らかの仕方で分かたれた 2 つのグループ) の比較を考える。1 つめの群を第 1 群、第 2 群と呼ぶ。例を出すとすると、ある中学校の試験の成績を評価する時に、男子だけで構成された群、女子だけで構成された群というのを比較する。

母集団に於ける従属変数を $y$ と表すとして、それぞれの群の母集団平均を $μ_{1}$、$μ_{2}$ として共通の分散 (それぞれの群の分散は等しいと仮定) を $σ^{2}$ とする。

独立な群 (independent groups)
 各群の標本抽出が独立に行なわれている群。

対応のある群
 独立な群と逆で、各群が一定の方法で抽出されている群。例えば、成績 1 位を 1 群、2 位を 2 群、3 位を 1 群、4 位を 2 群……というように弁別した場合は対応のある群となる。

平均値差の標本分布
 母集団に於ける従属変数 $y$ の平均値差 $μ_{1}-μ_{2}$ に関する検定や推定には、母集団の値自体は不明なので、当然 $y$ の標本である標本平均 $\overline{y_{1}}$、$\overline{y_{2}}$ の差が使われる。母集団の分散が等しく、独立した 2 群の場合、標本平均差の標本分布は正規分布となる。

## Sec5

質的変数
 ある・なし、はい・いいえ、男女のような値を取る変数。

連関 (association)
 質的変数同士の相関の事。

カテゴリ変数
 質的変数のうち、賛成・やや賛成・やや反対・反対のような順序性のあるカテゴリを持つ変数の事。

連関表 (contingency table)、クロス集計表 (cross tabulation)
 カテゴリ変数間の連関を示す表。

$χ$ (カイ) 二乗統計量 (chi-square statistic)
 カテゴリ変数間の連関を表す指標。

周辺度数
 変数 $x$、$y$ がそれぞれ $a$ 個と $b$ 個のカテゴリを持つとすると $a \times b$ の大きさの表にこれを纏められる。この表の各セルの度数を $n_{ij}$ とした時、各列、各行の合計の欄の度数の事を周辺度数と言う。

例えば、それぞれの変数を

x: マジックアイテムのレアリティ (コモン、アンコモン、レア、ヴェリィレア、レジェンダリィ)
y: マジックアイテムの種別 (リング、スタッフ、ワンド、ロッド、ウェポン、アーマー、ワンダラスアイテム、スクロール、ポーション)

とすれば、これの対応表を作る事が出来る。

あるセルの度数 $n_{ij}$ の期待値を $e_{ij}$ と表記する。例で言えば、レアのワンドの総数 (度数) が $n_{ij}$、マジックアイテム全数に対するレアのワンドの割合が期待値 $e_{ij}$ になる。

全体の度数 (マジックアイテム全数) を $N$ とした時、2 変数間に連関が全く無い場合の $(i,j)$ セルの度数の期待値は
\[
e_{ij} = n_{i} \times \frac{n_{j}}{N}\\
 = \frac{n_{i} \times n_{j}}{N}
\]
となる。これを連関が無い時の推定期待度数と呼ぶ。

カイ二乗統計量は、この推定期待度数 $e_{ij}$ と実際のセルの度数 $n_{ij}$ との際を次式で評価したものを言う。
\[
χ^{2} = \sum_{i=1}^{a} \sum_{j=1}^{b} \frac{(n_{ij} - e_{ij})^2}{e_{ij}}
\]

クラメルの連関係数 (Cramer's measure of association)
 カイ二乗統計量を次式の様に加工したもの。
\[
V = \sqrt{\frac{χ^{2}}{(min (a,b) - 11) N}}
\]
この連関係数は
\[
0 \leq V \leq 1
\]
の範囲を取る事が分かっている。

$χ$ 二乗検定
 母集団に於いて 2 つのカテゴリ変数間の連関が全く無いという帰無仮説を検定する方法。カイ二乗統計量が、その帰無仮説のもとでカイ二乗分布と呼ばれる確率分布に近似的に従う事を利用する。

心理統計学の基礎 第五章 備忘録

五章は推定と検定について。

僕にとってはこのあたりからが難関。

## Sec1

推定 (estimation)
 点推定: 1 つの値によって母数を推定する
 区間推定: 母数がある区間に含まれると推定する
検定 (statistical test)

推定量 (estimator)
 母数点推定のために用いられる標本統計量

推定値 (estimate)
 実際のデータから計算される推定量の値

不偏推定量
 推定量の期待値が母数の値に一致する場合、その推定量は不偏推定量と呼ばれる。

最尤推定法・最尤法 (maximum likelihood method)
 ある実際のデータが、母数がいくつの時に最も得られやすいかを調べ、実際に得られたデータの生起確率を最大とする母数の値を推定する方法

尤度関数
 データの生起確率を母数の関数として表現したもの

尤度
 特定の母数値に対する尤度関数の値

最尤推定量は常に不偏性を持つわけではない。

最尤法は、完全に母集団分布に異存した確率論的な方法。
回帰直線の推定に用いる最小二乗法は、特定の母集団分布に異存せずに推定量を導く方法。

標本誤差
 実際の推定値と母数の値の差

標本誤差を評価する為には母数の値が必須だが、母数の値は不明な事が殆ど。なので、標本抽出にともなって推定量が母数の周辺をどの程度変動するかを考える。

標準誤差
 推定量の標本分布の標準偏差の事。母集団比率 $π$の推定量としての標本比率 $p$ の標準誤差は以下の式
\[
σ_{p} = \sqrt{\frac{π (1-π)}{N}}
\]
になる。未知の値である $π$ をデータから得られる推定量 $p$ で置き換えれば、標準誤差の推定値
\[
\hat{σ_{p}} = \sqrt{\frac{p (1-p)}{N}}
\]
を得る。
母集団平均 $μ$ の推定量である標本平均 $\overline{x}$ の標準誤差は
\[
σ_{x} = \frac{σ}{\sqrt{N}}
\]
であるので、母集団標準偏差 $σ$ をデータから得られる不偏分散の平方根 $s'$ で置き換えれば
\[
\hat{σ_{x}} = \frac{s'}{\sqrt{N}}
\]
となり、標準誤差の推定値になる。
同様に母集団相関係数 $ρ$ の推定量 $r$ は、データから得られる相関係数 $r$ を利用して
\[
\hat{σ_{}} = \frac{1-r^{2}}{\sqrt{N}}
\]
となる。

## Sec2

無相関仮説
 母集団相関係数がゼロであるとという仮説

帰無仮説 (null hypothesis)
 検定用の仮説で、棄却される事を望まれる仮説の事。帰無仮説は $H_{0}$ と表記され、それが無相関仮説の場合 $H_{0}:ρ=0$ の様に表現する。

最も単純な検定として、無相関仮説を棄却可能な程度のデータが得られているかを確認する検定がある。

検定統計量
 帰無仮説の検定に用いられる統計量。例えば母集団相関係数がゼロの時に標本相関係数の標本分布がどういう確率でどういう値を取るか、など。

帰無分布
 帰無仮説のもとでの検定統計量の分布。

棄却域
 帰無仮説と整合的でないとされる検定統計量の値の範囲。棄却域の端点を棄却の限界値と言う。

統計的に有意 (statistically significicant)
 検定統計量の値が棄却域に入り、帰無仮説が棄却される時にその検定統計量は「有意である」と言う。

仮説検定
 検定の対象が仮説になる検定の手法。
 標本相関係数が有意かどうかテストする場合は、標本相関係数の有意性検定 (significance test) と言ったりする。

両側検定
 棄却域を分布の両側に設定する検定方式。分布の片側のみに設定する場合は片側検定と言う。

有意水準 (significance level)
 帰無仮説のもとではまれにしか生じない事象。よく 5% という基準値が利用される。

$p$ 値
 得られた結果が有意となる有意水準の事。限界水準や有意確率とも呼ばれる。

$t$ 分布
 データのモデルに正規分布を用いた場合にさまざまな統計量の標本分布と関係を持つ分布

 標本関係係数 $r$ を
\[
t = \frac{r}{\sqrt{1-r^2}} \times \sqrt{N-2}
\]
によって変換した変数 $t$ が、その帰無仮説のもとで自由度 $N-2$ の $t$ 分布に従う事が知られている。上式から標本数 $N$ が大きくなると 相関係数 $r$ が小さくても統計的に有意になる事が分かる (t が大きくなる)。

検定力 (power)
 母集団に於いてゼロで無い相関があるとき、サンプルに於いて有意な結果が得られる確率の事。検出力とも言われる。

第一種の誤り (type I error)
 帰無仮説が正しい時に、それを棄却してしまう誤り。

第二種の誤り (type II error)
 帰無仮説が正しく無い時に、そを採択してしまう誤り。

検定力分析 (power analysis)
 検定力計算を用いて一定の検定力を確保する標本数を決める手続き。

## Sec4

信頼水準 (confidence level)、信頼係数
 区間推定に於いてあらかじめ定められた確率で母数を含む区間を考えた時の、「あらかじめ定められた確率」の事。

信頼区間 (confidence interval)
 信頼水準で母数を含むと推定される区間。

MacOS GnuPG2 になって Emacs からパスフレーズが入力出来なくなった対処

各種バージョン

$ sw_vers
ProductName:    Mac OS X
ProductVersion: 10.13.1
BuildVersion:   17B1002

$ emacs --version
GNU Emacs 25.3.1

$ gpg --version
gpg (GnuPG) 2.2.3
libgcrypt 1.8.1

pinentry インストール

pinentry という補助プログラムを使えば良いみたいなので以下のようにした。 まず pinentry が入っているか確認。

$ brew list pinentry
/usr/local/Cellar/pinentry/1.0.0/bin/pinentry
/usr/local/Cellar/pinentry/1.0.0/bin/pinentry-curses
/usr/local/Cellar/pinentry/1.0.0/share/info/pinentry.info

インストーされていなかったら

$ brew install pinentry

で入れる。

GnuPG 設定

$HOME/.gnupg/gpg-agent.conf というファイルを作成する。内容は以下のようにしておく。既にファイルが存在する場合は、バックアップしてから修正。

$ cat ~/.gnupg/gpg-agent.conf
allow-emacs-pinentry
log-file /tmp/gpg-agent.log

gpg-agent を再起動する。

$ gpg-connect-agent killagent /bye
$ gpg-connect-agent /bye

(/bye ってオプションで起動するのが不思議)

テスト

Emacs を起動して適当に gpg で暗号化されたファイルを開く。ミニバッファでパスフレーズの入力を求められて、入力してファイルが開けたら成功。

2017年11月28日火曜日

心理統計学の基礎 第四章 備忘録

四章は確率モデルと標本分布について。




## Sec1

母集団
標本 (サンプル)

標本抽出 (サンプリング)
 単純無作為抽出
 二段抽出 : 母集団から部分集団をランダムに選択して、部分集団から更にランダムで標本抽出。

統計的推測の前提
 個々のデータ (標本) が互いに独立に同じ確率的振舞いをすること。
 この前提を満たす為には単純無作為抽出が必要。
 例えば中学生の試験点数の例で言うならば、部分集団として適当な中学校を選んだとしてその学校が進学校で平均的に学力が高い場合、その部分集団としての進学校から標本抽出するとデータに偏りが発生する。

標本統計量
 標本から得られる平均値や相関係数などの記述的指標の事。
 母集団から得られる値は「母数」と言う。
 標本値と母数を区別する場合、標本平均、標本相関係数、母集団平均、母集団相関係数などと呼ぶ。

確率モデル
 母集団を一種のデータ発生装置と見做して、標本抽出によって各データがどういう確率でどういう値を取るか、を模式化したもの。

確率変数
 確率的に変動する変数。

確率分布
 確率変数がどういう確率でどういう値を取るかの分布。

標本分布
 標本統計量がどういう確率でどういう値を取るかを表わす分布。特定の標本におけるデータの度数分布ではない。度数分布というのは観測データから得られた具体的な値の集合で、標本分布 (確率分布) というのは理論的に導出された抽象的なもの。

二値変数
 一般に yes/no で分類できるような値を 0/1 で表わす変数。

二項分布
 成功確率 $p$ の試行を独立に $n$ 回繰り返した時の成功数 $k$ を与える分布。例えば d20 を 100 回 ($n=100$) 振って出目 20 ($p=0.05$) が 5 回出る ($k=5$) 確率などにあたる。以下の式で表わされる。
\[
f (w)={}_{n}C_{k}p^{k}(1-p)^{N-k}
\]
${}_{n}C_{k}$は以下の式で表わされる組み合わせ総数 ($n$ 種類のものから $k$ 個を選択する組み合せの数)。
\[
{}_{n}C_{k} = \frac{n!}{k! (n-k)!}
\]
従って前式は
\[
f (w) = \frac{n!}{k! (n-k)!}p^{k}(1-p)^{N-k}
\]
となる。$N=1$ の場合を特にベルヌーイ分布と言う。

確率分布に於ける確率変数 $x$ の分布の平均 $μ$ は
\[
μ=\sum_{k=1}^{m}x_{k}f (x_{k})
\]

不偏性
 標本統計量の分布の平均が、母数の値に一する時その統計量は不偏性を持つ、と言う。不偏性を持った統計量は不偏推定量と呼ばれる。

確率分布の標準偏差
 確率分布 $f (x)$ に従う確率変数 $x$ の標準偏差 $σ$ は度数分布の標準偏差と同じように以下の式で与えられる。
\[
σ=\sqrt{\sum_{k=1}^{m}(x_{k}-μ)^{2}f (x_{k})}
\]
上式の $f (x_{k})$ に二項分布の式を代入し式変形すると
\[
σ_{w}=\sqrt{Np (1-p)}
\]
が得られる。この式を N で割る事によって得られる
\[
σ_{p}=\frac{\sqrt{Np (1-p)}}{N}
\]
は比率の標本分布の標準偏差である。 

標本統計量は、標準偏差が大きい程その統計量に基づく母数の推定の誤差が大きくなる可能性が高い。標本統計量の標準偏差は、標準誤差とも呼ばれる。標本数 N が大きくなる程、標準誤差は小さくなる。

逆に標準誤差を特定の値以下に抑えるのに必要な標本数を計算によって求める事が出きる。標準誤差の式を用いて、例えば比率 $p$ の標準誤差を 5%以下にしたいのであれば
\[
σ_{p}=\frac{\sqrt{Np (1-p)}}{N}\leq0.05
\]
という不等式を立ててこれ解く。
\[
N\geq400p (1-p)
\]
右辺は $p=0.5$の時に最大になるので
\[
N=400\times0.5\times0.5=100
\]
となって標本数を 100 以上にすれば比率 $p$ の標準誤差を 5%以下に抑えられる。

## Sec3

正規分布
確率密度関数
 確率変数が、二項分布の様な離散値では無く連続値を取る場合の確率分布は、その変数が特定の値を取る確率では無く、ある範囲の値を取る確率を問題する。そのような確率は分布の確率密度関数を用いて計算される。
 平均 $μ$、標準偏差 $σ$ の正規分布に従う変数 $x$ の確率密度関数は
\[
f (x)=\frac{1}{\sqrt{2p σ}}\exp [-\frac{(x-μ)^2}{2 σ^{2}}]
\]
と表わされる。この変数がある特定の範囲 (a<x<b) の値を取る確率 $Prob (a<x<b)$ は
\[
Prob (a<x<b)=\int_{a}^{b}f (x) dx
\]
によって与えられる。

標準正規分布
 平均 0、標準偏差 1 の正規分布。

中心極限定理
 標本数を大きくしていくと、母集団の分布の種類とは無関係に標本平均の分布が正規分布に近付いていくという定理。

## Sec4

二変数正規分布
 連続値を持つ 2 つの独立した確率変数を要素としてもつ正規分布。一変数正規分布は平面で表わされるが、二変数の場合立体図になる。
 二つの変数を $x$、$y$ とした時、それぞれの平均を $μ_{x}$、$μ_{y}$、標準偏差を $σ_{x}$、$σ_{y}$、$x$ と $y$ の相関係数を $ρ$ とした時の確率密度関数は
\[
f(x,y)=\frac{1}{2pσ_{x}σ_{y}\sqrt{1-ρ^{2}}} \times exp[-\frac{z_{x}^{2}-2ρz_{x}z_{y}+z_{y}^{2}}{2(1-ρ^{2})}]
\]
ただし $z_{x}$、$z_{y}$ は
\[
z_{x}=\frac{x-μ_{x}}{σ_{x}}\\
z_{y}=\frac{y-μ_{y}}{σ_{y}}\\
\]

相関係数の標本分布
 データが二変数正規分布に従う時の相関係数 $r$ の標本分布は母集団相関係数 $ρ$ と標本数 $N$ のみによって規定される確率分布になる。

## Sec5

頑健性
 仮定した確率モデルの分布が、母集団分布と異なる時に、モデルに基づく推定が妥当である程度の事。一般に標本数が大きくなれば母集団分布の違いの影響は小さくなり頑健性が増す。

ノンパラメトリック法
 特定の分布形を仮定しない方法

【今日の読書】CIAの秘密戦争 変貌する巨大情報機関

書名: CIAの秘密戦争 変貌する巨大情報機関
著者: マーク・マゼッティ
監訳: 小谷 賢
訳者: 池田 美紀
出版: 早川ノンフィクション文庫
ISBN: 978-4-15-050504-2

2017年11月26日日曜日

MacBookPro 13 インチ 2012 Mid の SSD 化

僕のメインの計算機は 2012 年に購入した MacBookPro (以後 MBP) の 13 インチ、2012 Mid モデルです。

既に 5 年使っているのですが、最近アプリケーションの起動速度が遅い事が気になってきました。また 1 年程前に、内蔵スロットイン DVD が、DVD を飲み込んで吐き出さなくなってしましました。

調べてみるとハードディスクを SSD に換装すれば速度の問題はかなり改善しそうです。また内蔵の DVD ドライブも簡単に交換出来そうなのでやってみる事にしました。

必要物品

まず準備。交換部品は以下の通りです。

SSD: Crucial 2.5 インチ MX300 275GB DVD: CrownTrade Macbook 対応用 パナソニック UJ-898 交換用 DVD ± R/RW ドライブ

この他に必要な物が 3 つ。MBP の底面のネジを外す為に必要な#0 の精密ドライバー、HDD に付いているネジを外す為に必要な T6 のトルクスドライバー、HDD から SSD にデータを移す為に必要な USB3.0-SATA 変換ケーブルです。

精密ドライバー #0

トルクスドライバー T6

このベッセルのトルクスドライバーは柄ではなく芯の途中に指のかかりが良くなるようにギザギザが付いていて、弱い力でネジを回したい時など便利です。

USB3.0-SATA 変換ケーブル

データ移行

USB3.0-SATA 変換ケーブルを使って SSD を外付けドライブとして接続して下さい。その状態で MBP をシャットダウンし、command+R を押しながら電源を入れます。 こうする事でディスクユーティリティが起動してきます。

Disk Utility

左ペインから移行先の SSD を選択し、上部メニューの復元をクリックすると以下のような画面になります。

restore

復元もととして、現在使っている HDD を選択して下さい。そして復元をクリックすると、データの移行が始まります。僕は 150GB 程度の使用容量でしたが、USB3.0 接続で 45 分程度で終わりました。

もし復元もとのパーティションが SSD の総容量より大きいとエラーが発生します。その時はディスクユーティリティを使って、復元もとのパーティションサイズと縮小して下さい (これはかなり時間がかかります。途中で MBP がスリープすると進まなくなるので要注意)。

部品交換

では MBP を裏返してネジを外します。外す対象のネジは 10 本あります。ネジの種類は 3 種類。長いネジが 1 種類、短いネジが 2 種類です。短いネジは全ネジが 3 本、段付きネジが 4 本あります。長いネジは 3 本です。これらのネジは比較的硬い素材みたいなので、舐めにくくはなっていますがネジ頭を舐めてしまうと悲惨なので注意して下さい。ネジを回す時の力の入れ具合いは、押す力が 7 割、回す力が 3 割の感覚で。

以下の写真の赤丸が段付きネジ、青丸が全ネジ、黄丸が長いネジです。

MBP bottom screws

これで底面の蓋が取れます。外すと中身は以下のようになっています (以下の写真は既に SSD 交換後)。

MBP internal

右下が HDD/SSD スロットです。右上が DVD スリムドライブです。

HDD/SSD スロット周辺を拡大してみます。

MBP HDD/SDD slot

黄丸で囲んだ 4 本のネジを外すと HDD を持ち上げる事が出来ますが、まだ SATA ケーブルが刺さったままなので気を付けて下さい。この 4 本のネジは樹脂のアダプタから完全には抜けません。どれだけ緩めてもアダプタに嵌ったままです。HDD の画面左端に付いている灰色の縦長の部品が SATA ケーブルのコネクタです。これはひっぱれば外れます。

画像を取り忘れましたが HDD 自体に 4 本のネジが付いています。これも外します。この時 T6 のトルクスドライバーが必要になります。

HDD から外した 4 本のネジを SSD に同じように付け、SATA コネクタを装着し、という感じで逆順に SSD を付ければ完了です。

NVRAM のリセット

MBP でハードウェアの交換を行なった後、NVRAM をリセットする必要があります。交換後の初回起動時に以下の手順で NVRAM をリセットして下さい。

Mac の NVRAM をリセットする方法