二項分布の総和と期待値と分散の話

昔やったと思っていた統計学も学部3年の頃とかなのではや8年近く前になり、久々に統計学の教科書(統計学入門東京大学出版会)を開いて勉強し直しています。

つまりなにしたの？

二項分布の確率の和が1であることの確認と期待値と分散を定義から手計算した。
f:id:ensekitt:20180507210242j:plain

二項分布ってなに？

コイントスした時の裏表のように必ず2種類どちらかの結果が出る実験を何回か(n回)する。
この実験で表がx回、裏がn-x回生じるとすれば、xが0,1,...,n-1,nになるそれぞれの確率を、
表が出る確率と裏が出る確率をそれぞれp, (1-p)、試行回数をnとすると

$P(X=x) = {_nC_x}p^x (1-p)^x,\qquad x=0, 1, ..., n-1, n$

で表すことができる。これが二項分布の確率密度関数。

ここで、二項分布で求められるのが確率であることを確かめる。
確率であれば分布の総和は1になるので次はこれを確認する。

二項分布の総和

二項分布は離散な分布なので二項分布の総和は以下の式で表される

$\sum^n_x {{_nC_x}p^x(1-p)^{n-x}}$

ここで、

$(a+b)^n = \sum_{i=0}^{n}{_nC_i}a^ib^{n-i}$

と置けるので、それぞれi=x, a=p, b=(1-p)とすると

$(p+(1-p))^n=1^n=1$

なので二項分布の総和は1になることが確認できた。

二項分布の期待値

そもそも、離散な確率密度関数の期待値は

$E(X)=\sum_x xP(X)$

で表せるのでq=(1-p)とおくと、

$E(X)=\sum_x x{_nC_x}p^xq^{n-x}$

となる。
なんか似て非なる形しているので、二項分布の総和を求めた時のような形式に落とし込んで
いい感じにΣを消したい。

$\begin{align} E(X)&=\sum_x x{_nC_x}p^xq^{n-x} \\ &=\sum_x n{_{n-1}C_{x-1}}pp^{x-1}q^{n-x} \\ &=np\sum_x {_{n-1}C_{x-1}}p^{x-1}q^{n-x} \\ &=np\sum_x {_{n-1}C_{x-1}}p^{x-1}q^{(n-1)-(x-1)}\\ &=np \end{align}$

というわけで二項分布の期待値はnpで表すことができる。

二項分布の分散

離散な確率密度関数の分散は期待値を用いて
$V(X) = E(X^2)-E(X)^2$
で表すことができる。
さっきE(X)は求めたので $E(X^2)$ を求める。

$\begin{align} E(X^2)&=\sum_x x^2 {_nC_x}p^xq^{n-x} \\ &=\sum_x x^2 \frac{n(n-1)}{x(x-1)}{_{n-2}C_{x-2}}p^xq^{n-x} \\ &=\sum_x (x^2-x) \frac{n(n-1)}{x(x-1)}{_{n-2}C_{x-2}}p^xq^{n-x} + \sum_x x {_{n}C_{x}}p^xq^{n-x} \\ &=\sum_x n(n-1){_{n-2}C_{x-2}}p^xq^{n-x} + np \\ &=\sum_x n(n-1){_{n-2}C_{x-2}}p^2 p^{x-2}q^{(n-2)-(x-2)} + np \\ &=p^2n(n-1) + np \\ \end{align}$