2024-05-03

【SAS】ランダムにyyyy-mm-dd形式の日付を20個作成

ChatGPTに書いてもらった。

ダミーデータを作成する際に便利。

/* ランダムにyyyy-mm-dd形式の日付を20個作成 */
data MakeRandomDate;
format year 4. month day 2.;
do i = 1 to 20;
　　/* ranuni:一様分布に従う0~1の乱数を生成 */
year = int(ranuni(12345)*75 + 1950); /* 75をかけている理由:生成される年を2024年までにする */
month = int(ranuni(12345)*12) + 1;
day = int(ranuni(12345)*28) + 1;
/* year、month、dayを-区切りで結合した文字変数を作成 */
date = put(year, 4.) || '-' || put(month, z2.) || '-' || put(day, z2.);
output;
end;
drop i;
run;

2024-05-03

【SAS】（検証）%if %then %doを先に書くか後で書くか

%if %then %doを使用して条件分岐させた際に想定と異なる結果になった気がしたので検証した。

/* データ作成 */

data input;
input usubjid $ flg1 flg2 flg3;
cards;
A 1 . .
B . 1 .
C . . 1
;
run;

/* ① if then doをdata stepの中に書いた場合 */

%macro makeds_(no_=);
data ds1_&no_.;
%if &no_.=1 %then %do;
set input(in=n1 where=(flg1=1))
input(in=n2 where=(flg2=1))
;
nflg=whichn(1, n1, n2);
%end;

%if &no_.=2 %then %do;
set input(in=n1 where=(flg1=1))
input(in=n2 where=(flg2=1))
input(in=n3 where=(flg3=1))
;
nflg=whichn(1, n1, n2, n3);
%end;
run;

%mend makeds_;

%makeds_(no_=1);
%makeds_(no_=2);

■ds1_1

■ds1_2

/* ② if then doをdata stepの外に書いた場合 */

%macro makeds2_(no_=);
%if &no_.=1 %then %do;
data ds2_1;
set input(in=n1 where=(flg1=1))
input(in=n2 where=(flg2=1))
;
nflg=whichn(1, n1, n2);
run;
%end;

%if &no_.=2 %then %do;
data ds2_2;
set input(in=n1 where=(flg1=1))
input(in=n2 where=(flg2=1))
input(in=n3 where=(flg3=1))
;
nflg=whichn(1, n1, n2, n3);
run;
%end;

%mend makeds2_;

%makeds2_(no_=1);
%makeds2_(no_=2);

■ds2_1

■ds2_2

/* 比較 */

proc compare base=ds1_1 compare=ds2_1; run; /* 一致する */

proc compare base=ds1_2 compare=ds2_2; run; /* 一致する */

■検証結果

どちらの書き方でも結果は変わらなかった。

①の書き方だと、一部nflgが欠測になる場合があったのだが、勘違いだったのかもしれない。

2022-07-08

【統計学】正規分布の期待値と分散

統計学を学習していて色々な確率分布の期待値、分散を導出したので備忘録として記載していきます。

誤りがあればお知らせいただけると助かります。

・正規分布

確率変数 $X$ が平均 $\mu$ 、分散 $\sigma^2$ の正規分布に従うとします。

このとき確率確率密度関数 $f(x)$ は

\begin{align}
f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp\{-\dfrac{(x-\mu)^2}{2\sigma^2}\} \qquad ({-\infty} < x < {\infty})
\end{align}
となる。

$f(x)$ が確率密度関数であることを確かめる

\begin{align}
\int^{\infty}_{-\infty} f(x)dx &= \int^{\infty}_{-\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp\{-\dfrac{(x-\mu)^2}{2\sigma^2}\}dx \tag{1} \\
\end{align}

ここで、 $t=\dfrac{x-\mu}{\sigma}$ とおくと、 $x=\sigma t + \mu$ より $dx=\sigma dt$ となる。積分範囲は変わらないので $(1)$ 式に代入して、

\begin{align}
\int^{\infty}_{-\infty} f(x)dx &= \int^{\infty}_{-\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp\{-\dfrac{t^2}{2}\}\cdot \sigma dt \\ &= \dfrac{1}{\sqrt{2\pi}} \int^{\infty}_{-\infty} \exp\{-\dfrac{t^2}{2}\}dt \\ &= \dfrac{1}{\sqrt{2\pi}} \cdot \sqrt{2\pi} \\ &= 1
\end{align}

となるので、 $f(x)$ は確率密度関数である。

※3行目は以下のガウス積分の公式を使用しました。

（証明は省略しますが極座標変換を使えば証明できます。）

\begin{align}
\int^{\infty}_{-\infty} \exp\{-\dfrac{x^2}{2}\}dx &= \sqrt{2\pi} \\
\end{align}

期待値 $E[X]$

冒頭の定義より結果は $\mu$ になることがわかっていますが、期待値の定義通り計算します。

\begin{align}
E[X] &= \int^{\infty}_{-\infty} x\cdot f(x)dx \\ &= \int^{\infty}_{-\infty} x \cdot \dfrac{1}{\sqrt{2\pi}\sigma} \exp\{-\dfrac{(x-\mu)^2}{2\sigma^2}\}dx \tag{2} \\
\end{align}

ここで、先ほどと同様 $t=\dfrac{x-\mu}{\sigma}$ とおくと、 $x=\sigma t + \mu$ より $dx=\sigma dt$ となる。積分範囲は変わらないので $(2)$ 式に代入して、

\begin{align}
E[X] &= \dfrac{1}{\sqrt{2\pi}\sigma} \int^{\infty}_{-\infty} (\sigma t + \mu) \cdot \exp\{-\dfrac{t^2}{2}\}\sigma \cdot dt \\ &= \dfrac{1}{\sqrt{2\pi}} \left( \sigma \int^{\infty}_{-\infty} t \exp\{-\dfrac{t^2}{2}\} dt + \mu \int^{\infty}_{-\infty} \exp\{-\dfrac{t^2}{2}\} dt\right) \\ &= \dfrac{1}{\sqrt{2\pi}} \left( \sigma \left[\exp\{-\dfrac{t^2}{2}\}\right]^{\infty}_{-\infty} + \mu \cdot \sqrt{2\pi}\right) \\ &= \dfrac{1}{\sqrt{2\pi}} \cdot \mu \cdot \sqrt{2\pi} \\ &= \mu \\
\end{align}

となる。

分散 $V[X]$

まず、 $E[X^2]$ を求めます。

\begin{align}
E[X^2] &= \int^{\infty}_{-\infty} x^2 \cdot f(x)dx \\ &= \int^{\infty}_{-\infty} x^2 \cdot \dfrac{1}{\sqrt{2\pi}\sigma} \exp\{-\dfrac{(x-\mu)^2}{2\sigma^2}\}dx \tag{3} \\
\end{align}

ここで、先ほどと同様 $t=\dfrac{x-\mu}{\sigma}$ とおくと、 $x=\sigma t + \mu$ より $dx=\sigma dt$ となる。積分範囲は変わらないので $(3)$ 式に代入して、

\begin{align}
E[X^2] &= \dfrac{1}{\sqrt{2\pi}\sigma} \int^{\infty}_{-\infty} (\sigma t + \mu)^2 \cdot \exp\{-\dfrac{t^2}{2}\}\sigma \cdot dt \\ &= \dfrac{1}{\sqrt{2\pi}} \int^{\infty}_{-\infty} (\sigma^2 t^2 + 2\sigma\mu t + \mu^2) \exp\{-\dfrac{t^2}{2}\} dt \\ &= \dfrac{1}{\sqrt{2\pi}} \left( \sigma^2 \int^{\infty}_{-\infty} t^2 \exp\{-\dfrac{t^2}{2}\} dt + 2\sigma \mu \int^{\infty}_{-\infty} t\exp\{-\dfrac{t^2}{2}\} dt + \mu^2 \int^{\infty}_{-\infty} \exp\{-\dfrac{t^2}{2}\}dt\right) \\ &= \dfrac{1}{\sqrt{2\pi}} \left( \sigma^2 \int^{\infty}_{-\infty} t \cdot \left(-\exp\{-\dfrac{t^2}{2}\}\right)^{\prime} dt + 2 \sigma \mu \left[-\exp\{-\dfrac{t^2}{2}\}\right]^{\infty}_{-\infty}+ \mu^2 \cdot {\sqrt{2\pi}} \right) \\ &= \dfrac{\sigma^2}{\sqrt{2\pi}} \left(\left[-t\exp\{-\dfrac{t^2}{2}\}\right]^{\infty}_{-\infty} + \int^{\infty}_{-\infty} \exp\{-\dfrac{t^2}{2}\} dt \right) + \mu^2 \\ &= \dfrac{\sigma^2}{\sqrt{2\pi}} (0 + {\sqrt{2\pi}}) + \mu^2 \\ &= \sigma^2 +\mu^2 \\
\end{align}

となる。

よって、分散 $V[X]$ は

\begin{align}
V[X] &= E[X^2] - {(E[X])}^2 \\
&= \sigma^2 + \mu^2 - \mu^2 \\
&= \sigma^2 \end{align}

となる。

参考文献：

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
共立出版

Amazon

2022-07-08

【統計学】（連続）一様分布の期待値と分散

統計学を学習していて色々な確率分布の期待値、分散を導出したので備忘録として記載していきます。

誤りがあればお知らせいただけると助かります。

・（連続）一様分布

確率変数 $X$ の確率密度関数 $f(x)$ は

\begin{align}
f(x) = \left\{
\begin{array}{ll}
\dfrac{1}{b-a} & (a \leq x \leq b)\\
0 & (その他)
\end{array}
\right.
\end{align}
となる。

$f(x)$ が確率密度関数であることを確かめる

\begin{align}
\int^{\infty}_{-\infty} f(x)dx &= \int^a_{-\infty} f(x)dx + \int^b_a f(x)dx + \int^{\infty}_b f(x)dx \\ &= \int^a_{-\infty} 0 \cdot dx + \int^b_a \dfrac{1}{b-a}dx + \int^{\infty}_b 0 \cdot dx \\ &= \dfrac{1}{b-a} \left[x\right]^b_a \\ &= \dfrac{1}{b-a} \cdot (b-a) \\ &= 1\\
\end{align}

となるので、 $f(x)$ は確率密度関数である。

期待値 $E[X]$

期待値の定義通り計算します。

\begin{align}
E[X] &= \int^{\infty}_{-\infty} x\cdot f(x)dx \\ &= \int^a_{-\infty} x \cdot f(x)dx + \int^b_a x \cdot f(x)dx + \int^{\infty}_b x \cdot f(x)dx \\ &= \int^a_{-\infty} x \cdot 0dx + \int^b_a x \cdot \dfrac{1}{b-a}dx + \int^{\infty}_b x \cdot 0 dx \\ &= \dfrac{1}{b-a} \left[\dfrac{1}{2}x^2\right]^b_a \\ &= \dfrac{1}{b-a} \cdot \dfrac{(b^2-a^2)}{2} \\ &= \dfrac{1}{b-a} \cdot \dfrac{(b+a)(b-a)}{2} \\ &= \dfrac{a+b}{2} \\
\end{align}

となります。

分散 $V[X]$

まず、 $E[X^2]$ を求めます。

\begin{align}
E[X^2] &= \int^{\infty}_{-\infty} x^2\cdot f(x)dx \\ &= \int^a_{-\infty} x^2 \cdot f(x)dx + \int^b_a x^2 \cdot f(x)dx + \int^{\infty}_b x^2 \cdot f(x)dx \\ &= \int^a_{-\infty} x^2 \cdot 0dx + \int^b_a x^2 \cdot \dfrac{1}{b-a}dx + \int^{\infty}_b x^2 \cdot 0 dx \\ &= \dfrac{1}{b-a} \left[\dfrac{1}{3}x^3\right]^b_a \\ &= \dfrac{1}{b-a} \cdot \dfrac{(b^3-a^3)}{3} \\ &= \dfrac{1}{b-a} \cdot \dfrac{(b-a)(b^2+ba+a^2)}{3} \\ &= \dfrac{a^2+ab+b^2}{3} \\
\end{align}

となります。

よって、分散 $V[X]$ は

\begin{align}
V[X] &= E[X^2] - {(E[X])}^2 \\
&= \dfrac{a^2+ab+b^2}{3} - \dfrac{(a+b)^2}{4} \\
&= \dfrac{4a^2+4ab+4b^2-3a^2-6ab-3b^2}{12} \\
&= \dfrac{(b-a)^2}{12} \\ \end{align}

となる。

参考文献：

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
共立出版

Amazon

2022-07-06

【統計学】超幾何分布の期待値と分散

統計学を学習していて色々な確率分布の期待値、分散を導出したので備忘録として記載していきます。

誤りがあればお知らせいただけると助かります。

・超幾何分布

$N$ 個の球が入っている箱から $K$ 個の球を取り出す試行を考えます。一度取り出した球は元に戻さないでおきます。（非復元抽出）

$N$ 個の内、 $M$ 個が赤球、 $N-M$ 個が白球とします。 $K$ 個の球を取り出したときに $X$ 個が赤玉だったとすると、 $X$ の確率分布は超幾何分布に従います。

取り出し方の総数： ${}_{N} \mathrm{C}_K$ 通り

赤玉の取り出し方： ${}_{M} \mathrm{C}_x$ 通り $(x=0,1,2,...,K)$

白玉の取り出し方： ${}_{N-M} \mathrm{C}_{M-x}$ 通り

となるので、超幾何分布の確率関数 $P$ は

$P = \dfrac{{}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K-x}}{{}_{N} \mathrm{C}_K} \quad (x = 0,1,2,...,K) \tag{1}$

となる。

$P$ が確率関数であることを確かめる

まず、以下の式について考えます。

\begin{align}
(a+b)^N &= (a+b)^{M} \cdot (a+b)^{N-M} \tag{2}\\
\end{align}

これは二項定理より、以下のように表すことができます。

\begin{align}
\sum_{K=0}^{N} {}_{N} \mathrm{C}_K a^Kb^{N-K} &= \sum_{l=0}^{M} {}_{M} \mathrm{C}_l a^lb^{M-l} \cdot \sum_{m=0}^{N-M} {}_{N-M} \mathrm{C}_m a^mb^{N-M-m} \\
\end{align}

ここから、具体例を書いて考えたいと思います。

$N=5, M=2$ とします。

\begin{align}
左辺 = \sum_{K=0}^{5} {}_{5} \mathrm{C}_K a^Kb^{5-K} = {}_{5} \mathrm{C}_0 a^0b^{5-0} + {}_{5} \mathrm{C}_1 a^1b^{5-1} + {}_{5} \mathrm{C}_2 a^2b^{5-2} + {}_{5} \mathrm{C}_3 a^3b^{5-3} + {}_{5} \mathrm{C}_4 a^4b^{5-4} + {}_{5} \mathrm{C}_5 a^5b^{5-5} \\
\end{align}

\begin{align}
右辺 &= \sum_{l=0}^{2} {}_{2} \mathrm{C}_l a^lb^{2-l} \cdot \sum_{m=0}^{5-2} {}_{5-2} \mathrm{C}_m a^mb^{5-2-m} \\ &= ({}_{2} \mathrm{C}_0 a^0b^{2-0} + {}_{2} \mathrm{C}_1 a^1b^{2-1} + {}_{2} \mathrm{C}_2 a^2b^{2-2}) \times ({}_{5-2} \mathrm{C}_0 a^0b^{5-2-0} + {}_{5-2} \mathrm{C}_1 a^1b^{5-2-1} + {}_{5-2} \mathrm{C}_2 a^2b^{5-2-2} + {}_{5-2} \mathrm{C}_3 a^3b^{5-2-3} \\
\end{align}

ここで、左辺と右辺の $a^2b^3$ の項を比較します。

\begin{align}
左辺 \Rightarrow {}_{5} \mathrm{C}_2 a^2b^3 \\
\end{align}

\begin{align}
右辺 \Rightarrow 1つ目 &= {}_{2} \mathrm{C}_0 a^0b^{2-0} \times {}_{5-2} \mathrm{C}_2 a^2b^{5-2-2} \\
\end{align}

\begin{align}
右辺 \Rightarrow 2つ目 &= {}_{2} \mathrm{C}_1 a^1b^{2-1} \times {}_{5-2} \mathrm{C}_1 a^1b^{5-2-1} \\
\end{align}

\begin{align}
右辺 \Rightarrow 3つ目 &= {}_{2} \mathrm{C}_2 a^2b^{2-2} \times {}_{5-2} \mathrm{C}_0 a^0b^{5-2-0} \\
\end{align}

例えば2つ目について $x=1, K=2$ とおくと、

右辺 $\Rightarrow$ 2つ目 $= {}_{M} \mathrm{C}_x a^xb^{M-x} \cdot {}_{N-M} \mathrm{C}_{K-x} a^{K-x}b^{N-M-(K-x)} = {}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K-x} a^Kb^{N-K}$

と表すことができる。

1つ目、3つ目も同じなので、 $a^Kb^{N-K}$ の項を考えると、 ${}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K-x}$ は $x=0 \sim K$ 通りあるので、

$\begin{align}{}_{N} \mathrm{C}_K = \sum_{x=0}^{K} {}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K－x}\end{align}$
となる。

よって、

\begin{align}
\sum_{x=0}^{K} P &= \sum_{x=0}^{K} \dfrac{{}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K－x}}{{}_{N} \mathrm{C}_{K}} \\ &= \dfrac {\sum_{x=0}^{K} {}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K－x}}{\sum_{x=0}^{K} {}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K－x}} \\ &= 1
\end{align}

となるので、 $P$ は確率関数である。

期待値 $E[X]$

期待値の定義通り計算します。

\begin{align}
E[X] &= \sum_{x=0}^{K} x \cdot P \\ &= \sum_{x=0}^{K} x \cdot \dfrac{{}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K－x}}{{}_{N} \mathrm{C}_{K}} \\ &= \sum_{x=1}^{K} x \cdot \dfrac{\dfrac{M!}{x!(M-x)!} \cdot {}_{N-M} \mathrm{C}_{K－x}}{\dfrac{N!}{K!(N-K)!}} \\ &= \sum_{x=1}^{K} x \cdot \dfrac{\dfrac{M(M－1)!}{x(x-1)!\{(M－1)-(x-1)\}!} \cdot {}_{N-M} \mathrm{C}_{K－x}}{\dfrac{N(N－1)!}{K(K－1)!\{(N－1)-(K－1)\}!}} \\ &= \dfrac{KM}{N} \sum_{x=1}^{K} \cdot \dfrac{\dfrac{(M－1)!}{(x-1)!\{(M－1)-(x-1)\}!} \cdot {}_{N-1-(M－1)} \mathrm{C}_{K－1-(x-1)}}{\dfrac{(N－1)!}{(K－1)!\{(N－1)-(K－1)\}!}} \\ &= \dfrac{KM}{N} \sum_{x=1}^{K} \dfrac{{}_{M－1} \mathrm{C}_{x-1} \cdot {}_{N-1-(M－1)} \mathrm{C}_{K－1-(x-1)}}{{}_{N-1} \mathrm{C}_{K－1}} \\
\end{align}

和の中身は超幾何分布の確率関数なのでその総和は1になります。

よって、期待値は

\begin{align}
E[X] &= \dfrac{KM}{N} \\
\end{align}

となります。

※冒頭の例について、球の総数を $N-1$ 、その内、赤球の数を $M-1$ 、白球の数を $N-M = N-1-(M-1)$ とし、そこから $K-1$ 回球を取り出す場合を考えればよい。

分散 $V[X]$

まず、 $E[X(X-1)]$ を求めます。

\begin{align}
E[X(X-1)] &= \sum_{x=0}^{K} x(x-1) \cdot P \\ &= \sum_{x=2}^{K} x(x-1) \cdot \dfrac{{}_{M} \mathrm{C}_x \cdot {}_{N-M} \mathrm{C}_{K－x}}{{}_{N} \mathrm{C}_{K}} \\ &= \sum_{x=2}^{K} x(x-1) \cdot \dfrac{\dfrac{M!}{x!(M-x)!} \cdot {}_{N-M} \mathrm{C}_{K－x}}{\dfrac{N!}{K!(N-K)!}} \\ &= \sum_{x=2}^{K} x(x-1) \cdot \dfrac{\dfrac{M(M－1)(M-2)!}{x(x-1)(x-2)!\{(M-2)-(x-2)\}!} \cdot {}_{N-M} \mathrm{C}_{K－x}}{\dfrac{N(N－1)(N-2)!}{K(K－1)(K-2)!\{(N－2)-(K－2)\}!}} \\ &= K(K－1)\dfrac{M(M－1)}{N(N-1)} \sum_{x=2}^{K} \dfrac{\dfrac{(M－2)!}{(x-2)!\{(M-2)-(x-2)\}!} \cdot {}_{N-2-(M－2)} \mathrm{C}_{K－2-(x-2)}}{\dfrac{(N－2)!}{(K－2)!\{(N－2)-(K－2)\}!}} \\ &= K(K－1)\dfrac{M(M－1)}{N(N-1)} \sum_{x=2}^{K} \dfrac{{}_{M－2} \mathrm{C}_{x-2} \cdot {}_{N-2-(M－2)} \mathrm{C}_{K－2-(x-2)}}{{}_{N-2} \mathrm{C}_{K－2}} \\
\end{align}

和の中身は超幾何分布の確率関数なのでその総和は1になります。

よって、 $E[X(X-1)]$ は

\begin{align}
E[X(X-1)] &= K(K－1)\dfrac{M(M－1)}{N(N-1)} \\
\end{align}

となる。

よって、分散 $V[X]$ は

\begin{align}
V[X] &= E[X(X-1)] + E[X]- {(E[X])}^2 \\
&= K(K－1)\dfrac{M(M－1)}{N(N-1)} + \dfrac{KM}{N} - \dfrac{K^2M^2}{N^2} \\
&= \dfrac{NKM(K－1)(M－1) + NKM(N-1) - K^2M^2(N-1)}{N^2(N-1)} \\
&= \dfrac{KM\{N(K－1)(M－1) + N(N-1) - KM(N-1)\}}{N^2(N-1)} \\
&= \dfrac{KM\{N(KM-K-M+1) + N^2-N - NKM+KM)\}}{N^2(N-1)} \\ &= \dfrac{KM(NKM-NK-NM+N + N^2-N - NKM+KM)}{N^2(N-1)} \\ &= \dfrac{KM(N^2-NK - NM+KM)}{N^2(N-1)} \\ &= \dfrac{KM(N^2-(K+M)N+KM)}{N^2(N-1)} \\ &= \dfrac{KM(N-K)(N-M)}{N^2(N-1)} \\ &= \dfrac{N-K}{N-1} \cdot \dfrac{KM}{N^2} \cdot (N-M) \\ &= \dfrac{N-K}{N-1} \cdot K \cdot \dfrac{M}{N}(1-\dfrac{M}{N})\\ \end{align}

となる。

参考文献：

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
共立出版

Amazon

2022-07-05

【統計学】負の二項分布の期待値と分散

統計学を学習していて色々な確率分布の期待値、分散を導出したので備忘録として記載していきます。

誤りがあればお知らせいただけると助かります。

・負の二項分布

成功確率 $p$ のベルヌーイ試行について、 $r$ 回成功するまでに要した失敗回数 $X$ の確率分布が負の二項分布になります。

合計 $r+x$ 回の試行のうち、成功が $r$ 回で失敗が $x$ 回とする。最後は成功で終わるので $r+x-1$ 回中 $x$ 回の失敗を取り出せばよい。

よって、確率関数 $P$ は

$P = {}_{r+x-1} \mathrm{C}_x p^r q^x \quad (x = 0,1,2,...,) \tag{1}$

となる。 $1-p=q$ と置いています。

$P$ が確率関数であることを確かめる

まず $f(q) = \dfrac{1}{1-q}$ のマクローリン展開を考えます。

マクローリン展開の定義式は以下です。

\begin{align}
f(q) &= \sum_{x=0}^{\infty} f^{(x)}(0) \dfrac{q^x}{x!} \tag{2}\\
\end{align}

$f(q)$ の両辺を $q$ で微分していくと、

\begin{align}
f^{\prime}(q) &= \dfrac{1}{(1-q)^2} \\
\end{align}

\begin{align}
f^{\prime\prime}(q) &= \dfrac{2}{(1-q)^3} \\
\end{align}

\begin{align}
f^{\prime\prime\prime}(q) &= \dfrac{6}{(1-q)^4} \\ \vdots
\end{align}

となるので、それぞれ $q=0$ を代入すると $(2)$ 式は

\begin{align}
f(q) &= f(0) + f^{\prime}(0)\dfrac{q^1}{1!} + f^{\prime\prime}(0)\dfrac{q^2}{2!} + f^{\prime\prime\prime}(0)\dfrac{q^3}{3!} + \cdots \\ &= 1 + q + q^2 + q^3 + \cdots \\ &=\sum_{x=0}^{\infty}q^x\\
\end{align}

よって、

\begin{align}
\dfrac{1}{1-q} &=\sum_{x=0}^{\infty}q^x \tag{3} \\
\end{align}

と書ける。

$(3)$ 式を両辺 $q$ で微分する。

\begin{align}
\dfrac{1}{(1-q)^2} &=\sum_{x=0}^{\infty} xq^{x-1} \\ &= \sum_{x=1}^{\infty} xq^{x-1} \\ &=\sum_{x=0}^{\infty} (x+1)q^{x} \\
\end{align}

※後のことを考えて $q^x$ の形にしておく。

もう一回両辺 $q$ で微分する。

\begin{align}
\dfrac{2}{(1-q)^3} &=\sum_{x=0}^{\infty} (x+1)\cdot xq^{x-1} \\ &= \sum_{x=1}^{\infty} x(x+1)q^{x-1} \\ &=\sum_{x=0}^{\infty} (x+2)(x+1)q^{x} \\
\end{align}

よって、左辺をあえて書き換えると

\begin{align}
\dfrac{2!}{(1-q)^{(2+1)}} &=\sum_{x=0}^{\infty} (x+2)(x+1)q^{x} \\
\end{align}

となる。

更にもう一回両辺 $q$ で微分すると、（途中式は省略）

\begin{align}
\dfrac{6}{(1-q)^4} &=\sum_{x=0}^{\infty} (x+3)(x+2)(x+1)q^{x} \\
\end{align}

となる。

これも左辺を書き換えると

\begin{align}
\dfrac{3!}{(1-q)^{3+1}} &=\sum_{x=0}^{\infty} (x+3)(x+2)(x+1)q^{x} \\
\end{align}

となる。

よって、両辺を $q$ で微分し続けると、r-1回微分したときは以下のようになる。

\begin{align}
\dfrac{(r-1)!}{(1-q)^{(r-1)+1}} &=\sum_{x=0}^{\infty} (x+r-1) \cdots (x+1)q^{x} \\　
\end{align}

左辺を1にするために整理すると、

\begin{align}
1 &=\sum_{x=0}^{\infty}\dfrac{(x+r-1) \cdots (x+1)}{(r-1)!} (1-q)^r q^{x} \\ &= \sum_{x=0}^{\infty}\dfrac{(x+r-1) \cdots (x+1) \cdot x \cdot (x-1) \cdot (x-2) \cdots}{x \cdot (x-1) \cdot (x-2) \cdots (r-1)!} p^r q^{x} \\ &= \sum_{x=0}^{\infty}\dfrac{(x+r-1)!}{x! (r-1)!} p^r q^{x} \\ &= \sum_{x=0}^{\infty} {}_{r+x-1} \mathrm{C}_x p^r q^x \\ &= \sum_{x=0}^{\infty} P \\
\end{align}

となるので、 $P$ は確率関数である。

※2行目から $1-q = p$ と置いています。

期待値 $E[X]$

確率母関数 $G(s)$ を使って計算します。

$X$ ：確率変数。その実現値 $x$ は整数 $x=0,1,2...$ とします。

$p(x)$ ： $X=x$ となる確率 $P(X=x)$

とします。

\begin{align}
G(s) &= E[s^X] \\
&= \sum_{x=0}^{\infty} s^x p(x) \\ &= \sum_{x=0}^{\infty} s^{x} {}_{r+x-1} \mathrm{C}_x p^r q^x \\ &= \sum_{x=0}^{\infty} {}_{r+x-1} \mathrm{C}_x p^r (sq)^{x}
\\ &= \dfrac{p^r}{(1-sq)^r} \sum_{x=0}^{\infty} {}_{r+x-1} \mathrm{C}_x (1-sq)^r (sq)^x \\ \end{align}

$1-sq = p_a$ 、 $sq = 1-p_a = q_a$ とおくと、右辺の和記号の中身は負の二項分布の確率関数となり、その和は1になるので

\begin{align}
G(s) &= \dfrac{p^r}{(1-sq)^r} \\ \tag{4} \end{align}

となる。

両辺を $s$ で微分すると、

\begin{align}
G^{\prime}(s) &= \dfrac{p^r \cdot r(1-sq)^{r-1} \cdot q}{(1-sq)^{2r}} \\ &= \dfrac{rqp^r}{(1-sq)^{r+1}} \\ \end{align}

となるので、期待値は $s=1$ を代入して、

\begin{align}
E[X] &= G^{\prime}(1)\\ &= \dfrac{rqp^r}{(1-q)^{r+1}} \\ &= \dfrac{rqp^r}{p^{r+1}} \\ &= \dfrac{rq}{p} \\
\end{align}

となる。

分散 $V[X]$

まず、 $(4)$ 式の両辺を $s$ で二階微分すると、

\begin{align}
G^{\prime\prime}(s) &= \dfrac{rqp^r \cdot (r+1)(1-qs)^r \cdot q}{(1-sq)^{2(r+1)}} \\ &= \dfrac{r(r+1)q^2p^r}{(1-qs)^{r+2}}
\end{align}

となるので、

\begin{align}
E[X(X-1)] &= G^{\prime\prime}(1) \\ &= \dfrac{r(r+1)q^2p^r}{(1-q)^{r+2}} \\ &= \dfrac{r(r+1)q^2p^r}{(p^{r+2}} \\ &= \dfrac{r(r+1)q^2}{p^2}
\end{align}

となる。

よって、分散 $V[X]$ は

\begin{align}
V[X] &= E[X(X-1)] + E[X]- {(E[X])}^2 \\
&= \dfrac{r(r+1)q^2}{p^2} + \dfrac{rq}{p} - \dfrac{r^2q^2}{p^2} \\
&= \dfrac{r^2q^2+rq^2+rpq-r^2q^2}{p^2} \\
&= \dfrac{rq(p+q)}{p^2} \\
&= \dfrac{rq}{p^2} \\
\end{align}

となる。

参考文献：

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
共立出版

Amazon

2022-07-05

【統計学】幾何分布の期待値と分散

統計学を学習していて色々な確率分布の期待値、分散を導出したので備忘録として記載していきます。

誤りがあればお知らせいただけると助かります。

・幾何分布

成功確率 $p$ のベルヌーイ試行について、初めて成功するまでに要した失敗回数 $X$ の確率分布が幾何分布になります。

初めて成功するまで $x + 1$ 回かかったとすると、失敗回数は $X = x$ なので確率関数Pは

$P = p(1-p)^x$ $(x = 0,1,2,...,)$

となる。

$P$ が確率関数であることを確かめる

$x$ について総和をとると

\begin{align}
\sum_{x=0}^{\infty} P &= p \sum_{x=0}^{\infty} (1-p)^x \\
&= p \times \dfrac{1}{1-(1-p)} \\
&= 1 \\
\end{align}

となるので、 $P$ は確率関数である。

二行目の変形は $0＜1-p＜ 1$ なので、以下の初項 $a \neq 0$ 、公比 $-1＜ r ＜1$ の無限等比級数の和の公式を利用しました。

\begin{align}
\sum_{x=0}^{\infty} ar^x &= \dfrac{a}{1-r} \\
\end{align}

※初項 $a=1$ 、公比 $1-p$ と置いて計算しました。

期待値 $E[X]$

以下の確率母関数 $G(s)$ を使って計算します。

$X$ ：確率変数でその実現値 $x$ は整数 $x=0,1,2...$ とします。

$p(t)$ ： $X=t$ となる確率 $P(X=t)$

として、 $|s|\leq1$ とします。このとき、以下で表される確率母関数を使って期待値、分散を導出します。

\begin{align}
G(s) &= E[s^X] \\
&= \sum_{t=0}^{\infty} s^t p(t)　\tag{1}
\end{align}

$(1)$ 式を両辺sで微分すると、

\begin{align}
G^{\prime}(s) &= \dfrac{d}{ds} \sum_{t=0}^{\infty} s^t p(t) \\ &= \sum_{t=0}^{\infty} \dfrac{d}{ds}s^t p(t)\\ &= \sum_{t=0}^{\infty} ts^{t-1} p(t)\\ \end{align}

となり、 $s=1$ を代入すると、

\begin{align}
G^{\prime}(1) &= \sum_{t=0}^{\infty} t\times1^{t-1}\times p(t)\\ &= \sum_{t=0}^{\infty} tp(t)\\ \end{align}

となりますが、これは期待値の定義そのものなので結局

\begin{align}
G^{\prime}(1) &= E[X] \tag{2} \\ \end{align}

となります。また、 $(1)$ 式の両辺を $s$ で二階微分して $s=1$ を代入すると以下の関係式も導けます。

\begin{align}
G^{\prime\prime}(1) &= E[X(X-1)] \tag{3} \\ \end{align}

$(2)$ 式と $(3)$ 式を使って期待値、分散を導出します。

まず、 $(1)$ 式に幾何分布の確率関数Pを代入すると、

\begin{align}
G(s) &= E[s^X] \\
&= \sum_{t=0}^{\infty} s^t P\\ &= \sum_{t=0}^{\infty} s^t p(1-p)^t \\
\end{align}

ここで、 $1-p = q$ とおきます。

\begin{align}
G(s) &= p \sum_{t=0}^{\infty} (sq)^t \\
&= \dfrac{p}{1-qs} (ただし、s ＜ \dfrac{1}{q}　とする。) \tag{4} \\
\end{align}

$(4)$ 式を両辺sで微分すると、

\begin{align}
G^{\prime}(s) &= \dfrac{pq}{(1-qs)^2} \tag{5} \\
\end{align}

よって、期待値 $E[X]$ は

\begin{align}
E[X] &= G^{\prime}(1)\\ &= \dfrac{pq}{(1-q)^2} \\ &= \dfrac{pq}{p^2}\\ &= \dfrac{1-p}{p} \\
\end{align}

となる。

分散 $V[X]$

まず、 $(5)$ 式の両辺を $s$ で微分すると、

\begin{align}
G^{\prime\prime}(s) &= \dfrac{-pq \cdot 2(1-qs) \cdot (-q)}{(1-qs)^4} \\ &= \dfrac{2pq^2}{(1-qs)^3}
\end{align}

となるので、

\begin{align}
E[X(X-1)] &= G^{\prime\prime}(1) \\ &= \dfrac{2pq^2}{(1-q)^3} \\ &= \dfrac{2q^2}{p^2} \\ &= \dfrac{2(1-p)^2}{p^2} \\
\end{align}

となる。

よって、分散 $V[X]$ は

\begin{align}
V[X] &= E[X(X-1)] + E[X]- {(E[X])}^2 \\
&= \dfrac{2(1-p)^2}{p^2} + \dfrac{1-p}{p} - \dfrac{(1-p)^2}{p^2} \\
&= \dfrac{(1-p)^2}{p^2} + \dfrac{p(1-p)}{p^2} \\
&= \dfrac{(1-p)\{(1-p)+p\}}{p^2} \\
&= \dfrac{1-p}{p^2} \\
\end{align}

となる。

参考文献：

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
共立出版

Amazon

学習メモ（主に統計学とSAS）

学習したことのメモを記載しています。

【SAS】ランダムにyyyy-mm-dd形式の日付を20個作成

【SAS】（検証）%if %then %doを先に書くか後で書くか

【統計学】正規分布の期待値と分散

【統計学】（連続）一様分布の期待値と分散

【統計学】超幾何分布の期待値と分散

【統計学】負の二項分布の期待値と分散

【統計学】幾何分布の期待値と分散