
我們總是希望能夠從一些樣本數據中去探究數據總體的表現特征,在網站數據分析中也是如此,我們試圖從最近幾天的數據表現來推測目前網站的整體形勢是怎么樣的,有沒有變好或者變差的信號,但當前幾天的數據無法完全代表總體,所以這里只能使用“估計”。同時,網站的數據始終存在波動,將最近時間段的數據作為抽樣樣本很可能數據正好處于較低或者較高水平,所以我們用樣本得到的估計值不可能是無偏差的,我們同時需要去評估這個估計值可能的變化區間。
參數估計(Parameter Estimation)是指用樣本的統計量去估計總體參數的方法,包括點估計和區間估計。
點估計
點估計(Point Estimation)是用抽樣得到的樣本統計指標作為總體某個未知參數特征值的估計,是一種統計推斷方法。
一般對總體參數的估計會包括兩類:一種是用樣本均值去估計總體均值,對應到網站數據中的數值型指標,比如網站每天的UV,我們可以用近一周的日均UV去估計目前網站每天唯一訪客數量的大體情況;另外一種是用樣本概率去估計總體概率,對應到網站數據中的比率型指標,比如網站的目標轉化率,我們可以用近3天的轉化率去預估網站當天目標轉化的水平;同時我們會計算樣本的標準差來說明樣本均值或者概率的波動幅度的大小,從而估計總體數據的波動情況。
點估計還包括了使用最小二乘法對線性回歸做曲線參數的擬合,以及最大似然估計的方法計算樣本集分布的概率密度函數的參數。
區間估計
區間估計(Interval Estimation)是依據抽取的樣本,根據一定的正確度與精確度的要求,估算總體的未知參數可能的取值區間。區間估計一般是在一個既定的置信水平下計算得到總體均值或者總體概率的置信區間(Confidence Interval),一般會根據樣本的個數和標準差計算得到總體的標準誤差,根據點估計中用樣本均值或樣本概率估計總體均值或總體概率,進而得出一個取值的上下臨界點。
我們可以將樣本標準差記作S,如果我們抽樣獲取的有n個樣本,那么總體的標準差σ就可以用樣本標準差估算得到:

從這個公式中我們可以看到大數定理的作用,當樣本個數n越大時,總體指標差σ越小,樣本估計值越接近總體的真實值。Excel的圖表里面也提供了添加“誤差線”的功能:

有了總體的標準差σ,我們就可以使用區間估計的方法計算總體參數在一定置信水平下的置信區間,置信區間(Confidence Interval)給出了一個總體參數的真實值在一定的概率下會落在怎么樣的取值區間,而總體參數落在這個區間的可信程度的這個概率就是置信水平(Confidence Level)。
根據Z統計量的計算公式:

假如在1-α的置信水平下,則總體均值μ的置信區間為:

這里樣本均值和標準差都可以根據抽樣的結果計算得到,所以在既定置信水平的條件下,我們只要查Z值表(Z-Score)得到相應的Z值就可以計算得到總體均值的置信區間。對于置信水平或者叫置信度的選擇,在統計學中一般認為95%的置信度的結果具有統計學意義,但其實在互聯網領域數據的分析中不需要這么高的置信度,我們有時也會選擇80%或者90%的置信度,相應的Z值見下表:
置信水平1-α | 對應Z值Zα/2 |
95% | 1.96 |
90% | 1.65 |
80% | 1.28 |
對于總體概率的估計,在具備足夠樣本數量的條件下,我們用樣本概率p預估總體概率,而總體概率的標準差則是sqrt(p(1-p)/n),同樣可以計算得到置信區間。
其實這篇文章的內容大部分都可以在統計學書籍或者網上Wiki里面找到,當然寫到博客里面不是為了做科普,這里的每篇“數據分析方法”類目下的文章都是跟相應的網站數據分析的應用文章結合,這篇也不例外,如果你對相關內容感興趣,請關注后續發布的文章,或者訂閱我的博客吧。
本文采用 BY-NC-SA 協議,轉載請注明來源:網站數據分析 » 《參數估計與置信區間》