2013年2月15日金曜日

意味のあるデータかどうかを誤差から判定するには

例えばECサイトでA/Bテストを行った結果、顧客の購入率の差がBのパターンの方が0.1%大きかった場合、果たしてこれはBのパターンの方がよいと言えるのだろうか?
それとも自然に生じる誤差の範囲に含まれるのだろうか??


大学で研究を行っていた方には当たり前かも知れないが、なかなかなじみがない方もいると思うので簡単にまとめ。


まず誤差とは、wikipediaによると一般に期待される値に対するずれの大きさのこととある。

誤差にもいくつかあるが、今回は平均値を測定した場合の誤差を考える。

例えば大学に男女が5000人づついた場合、”1000人を調べた結果(男:520人、女:480人)となったので、このクラスの男性の割合は52%である” と決定づけると、実際には50%なので、これは2%の誤差を含んでいる。

直感で分かると思うがこの誤差は測定の数を増やせば増やすほど小さくなり、学生全員を調べた場合には誤差は生じない。

この場合どの程度の誤差が生じうるのかについては、統計学で証明されており、これを標準誤差という。


上式でサンプルから計算した分散(標準偏差σの2乗)というのは、


                 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^2
と表され、今回のような男か女かの2択の場合には男=1, 女=0とすると、

                                     分散 = s ( 1 - s )    s:サンプルから求めた割合

と書けるので、結局標準誤差は、

 となり、上の例の場合ではs = 60 %を代入して
となる。これをどう用いるのかというと、この標準誤差のプラスマイナス2倍(正確には1.96倍)の範囲で誤差が生じるということになる。
つまり上の例では、 52%±2.94%の範囲に真の男女比が含まれていることを示している。
(正確には95%の信頼度でとなる、99%の信頼度であれば±4.41)
式をみれば分かるが、単純に考えてサンプル数が4倍になれば誤差は2分の1の割合で小さくなっていく。

続く。。


参考:http://www.rikkyo.ne.jp/~ssakata/class/academy/materials/05.htm





0 件のコメント:

コメントを投稿