特定の特性Aを持つ母比率が [math]p[/math]の集団から、大きさnの標本を無作為に抽出すると,その特性Aを持つ個体の数 X は二項分布 [math]B(n,\ p)[/math]に従う.さらに,nが大きくなるとXは正規分布 [math]N\left(np,\ np(1-p)\right)[/math]に近づく.[br] ここで母集団から抽出した大きさ n の標本比率 [math]R[/math] は [math]R=\frac{X}{n}[/math] であるから,期待値は [math]E[R]=\frac{E[X]}{n}=p [/math] ,分散は [math]V[R])=\frac{V[X]}{n^2}=\frac{p(1-p)}{n}[/math] から、[math]R[/math]は近似的に正規分布 [math]N\left(p,\frac{p(1-p)}{n}\right)[/math][br]に近づく.[br][br]次は母集団から抽出された大きさ400の標本の比率 [math]R [/math]が 0.398 であるとする.[br]次のアプレットで母比率 [math]p[/math]に対する信頼度95%の信頼区間を求めてみよう.[br]スライダーを操作し母比率を変えて,色を塗った95%信頼区間に標本比率が入るように,最大値と最小値のところでボタンを押してみよう.[br]何回か操作をした後,下の質問に答えよう.
「母比率を調整して,ちょうど標本比率 [math]R[/math] に一致するように分布曲線を移動させてみよう.[br][list=1][*]先ほどは母比率を変えて信頼区間を求めましたが,母比率が標本比率に一致するこの状態での信頼区間と考えて良いようである.その理由は何だと考えられるだろうか?[/*][br][*]母比率が標本比率に一致するこの状態で,左の方のすそが少し長く見える.これはなぜだろうか?[br]以下の式を使って考えてみよう:[math]R−1.96\sqrt{\frac{R(1−R)}{n}\leqq p\leqq R+1.96\sqrt{\frac{R(1−R)}{n}[/math][/*][/list]
[br][list=1][*]大数の法則で,標本の大きさが大きくなれば標本比率は母比率に近づく.[br]実際に,母比率の推定をする場合,母比率が未知であることを前提にしている.[/*][br][*]標本の大きさ n が大きいとき,標本平均の分布は[math]N\left(p,\ \frac{p(1−p)}{n}\right) [/math]に従うことから,[br] [math]p -1.96\sqrt{\frac{p(1-p)}{n} }\leqq R \leqq {p} +1.96\sqrt{\frac{{p}(1-{p})}{n} }[/math] [br]これが,アプレットで母平均を動かした状態. 一番左の項のpは最大値のもの,一番右の項のpは最小値のもの.これを式変形した[br] [math]R -1.96\sqrt{\frac{p(1-p)}{n} }\leqq p \leqq R +1.96\sqrt{\frac{{p}(1-{p})}{n} }[/math] …(1)[br]であるが, この状態では一番左の項のpは最小値(0.351)のもの,一番右の項のpは最大値(0.447)のもので, [math]1.96\sqrt{\frac{{p}(1-{p})}{n} }[/math]の値はそれぞれ,0.0468と0.0487と右側の項の方が大きいから,左にずれる. ただし,標本の大きさnが大きくなるとこの差は小さくなる.[br]実際には,母比率を推定する際は,母比率が未知であるから.(1)式で,nが十分大きいとき,大数の法則より [math]R\rightarrow p[/math] であるから, ルートの中を [math]R[/math]でおき換えたものが問題文の式[br] [math]R−1.96\sqrt{\frac{R(1−R)}{n}\leqq p\leqq R+1.96\sqrt{\frac{R(1−R)}{n}[/math][br][br]になる.[/*][/list]
GeoGebraには母比率を推定するコマンドがある.[br][url=https://geogebra.github.io/docs/manual/ja/commands/ZProportionEstimate/][b]ZProportionEstimate[/b] ( <標本比率>, <標本の大きさ>, <信頼水準> )[/url]