《《生物統(tǒng)計學復習》PPT課件》由會員分享,可在線閱讀,更多相關《《生物統(tǒng)計學復習》PPT課件(48頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、生物統(tǒng)計學總復習,2015-06-29,一、什么是統(tǒng)計學Statistics?,統(tǒng)計學是收集、分析、表述和解釋統(tǒng)計數(shù)據(jù)的科學。統(tǒng)計學是關于數(shù)據(jù)的科學。 資料的收集就是取得統(tǒng)計數(shù)據(jù)。 數(shù)據(jù)整理是將數(shù)據(jù)分組、歸納和匯總并將其用圖表的形式表達出來。 數(shù)據(jù)分析是通過統(tǒng)計方法研究數(shù)據(jù),并結(jié)合實際背景闡述實際問題的特征的過程。 數(shù)據(jù)解釋是對分析結(jié)果進行說明。 統(tǒng)計學分為描述統(tǒng)計學和推斷統(tǒng)計學。,,描述統(tǒng)計與推斷統(tǒng)計的關系,幾個基本概念,總體(population)、個體(individual)與樣本(sample) 總體(N):一個統(tǒng)計問題所研究對象的全體 有限總體:一個班級學生的身高 無限總體:臨床試驗
2、中來推斷某一藥品療效高、某一棉田棉鈴蟲的頭數(shù) 個體:組成總體的每一基本單元 樣本(n):從總體中抽取的部分個體,用于對總體進行推斷(n30,小樣本;n30,大樣本),通過某事物的一部分(樣本),來估計事物的全部(總體)特征,幾個基本概念(續(xù)),幾個基本概念(續(xù)),變量(variable)與觀測值(observation) 變量(變數(shù)):相同性質(zhì)的事物表現(xiàn)差異性的某種特征,其表現(xiàn)隨個體而異 身高、體重、葉綠素含量、葉片形狀 隨機變量:變量取值的變化是不可預測的 變量通常記為:x,y,z, 觀測值:對變量進行測量或觀察所獲得的數(shù)值 觀測值也稱為:變量值(value of variables)、資料
3、/數(shù)據(jù)(data),二、均值和方差,,:第i個觀察值或變數(shù) n:觀察值或變數(shù)的個數(shù) :求和符號(sigma),計算公式:,標準差和方差,總體方差和總體標準差,樣本方差和樣本標準差,三、概率與概率分布,概率分布-幾個概念,概率函數(shù)(probability function) 隨機變量取某一特定值的概率函數(shù)(離散型隨機變量) 二項分布(對立事件)和泊松分布(出現(xiàn)概率較小,樣本容量大) 概率密度函數(shù)(probability density function) 隨機變量取某一特定值的密度函數(shù)(連續(xù)型隨機變量) 概率分布函數(shù)(probability distribution function) 隨機變量
4、取值小于或等于某特定值的概率,離散型隨機變量的概率分布,概率分布圖,概率分布函數(shù) 累積函數(shù),密度函數(shù),連續(xù)型隨機變量的密度函數(shù)及概率分布函數(shù),x=某一特定值時,P=0,13,若n,二項分布連接線表現(xiàn)為一個光滑的曲線。 這一曲線稱之為正態(tài)分布曲線或正態(tài)概率曲線。其概率密度函數(shù)為:,記做:N( , 2),,,14,由于正態(tài)曲線受和的制約,曲線隨這兩個參數(shù)的變化而改變。 構(gòu)造一個新變數(shù),這個變數(shù)要消去和的影響。假定新變數(shù)用u來表示,則:,標準正態(tài)分布的概率密度函數(shù),u變換,標準正態(tài)分布,u服從均數(shù)為0、標準差為1的正態(tài)分布,16,如果從容量為N的總體抽樣(放回),若每次抽取容量為n的樣本,那么一共可
5、以得到Nn個樣本。 每個樣本可以計算一個平均數(shù),如果將這些平均數(shù)集合起來便構(gòu)成一個新總體。 由于每次隨機抽樣所得的平均數(shù)可能會存在差異,所以由平均數(shù)構(gòu)成的新總體也應該有其分布,這種分布稱為平均數(shù)的抽樣分布。,樣本均值的抽樣分布,1、樣本平均數(shù)的期望值 由于不同的樣本可得到不同的樣本均值,因此,考察樣本均值的期望就顯得非常重要。 用 表示樣本均值的期望值, 表示總體均值,可證明在簡單隨機抽樣中。,2.樣本平均數(shù)的標準差,稱為標準誤。,,t分布,當總體標準差未知時,且樣本數(shù)小于30時, 以樣本標準差S代替所得到的統(tǒng)計量 記為t。在計算時,由于采用S來代替,使得t 變量不再服從標
6、準正態(tài)分布,而是服從t分布,服從自由度為n-1的t分布,2、t分布密度曲線以縱軸為對稱軸,左右對稱,且在t0時,分布密度函數(shù)取得最大值 3、與標準正態(tài)分布曲線相比,t分布曲線頂部略低,兩尾部稍高而平.df越小這種趨勢越明顯.df越大,t分布越趨近于標準正態(tài)分布.當n 30時,t分布與標準正態(tài)分布的區(qū)別很小;n 100時,t分布基本與標準正態(tài)分布相同;n時,t分布與標準正態(tài)分布完全一致,正態(tài)分布曲線與t分布曲線的比較,t分布的特征 1、t分布受自由度df=n-1的制約,每一個自由度都有一條t分布密度曲線,分布,設從一正態(tài)總體 中隨機抽取樣本容量為n,m的兩個獨立樣本,其樣本的方差為 ,
7、則定義 兩者的比值為F :,服從自由度為n-1,m-1的F分布,F分布特征 1)F分布的平均數(shù)1,F(xiàn)的取值區(qū)間為0,+) 2)F分布曲線的形狀僅決定于df1和df2.在df1l或2時,F分布曲線呈嚴重傾斜的反向J型,當df1=3時轉(zhuǎn)為左偏曲線(在平均值的左邊),不同自由度下的F分布曲線,四、統(tǒng)計推斷,統(tǒng) 計 推 斷,,由一個樣 本或一糸 列樣本所 得的結(jié)果 來推斷總 體的特征,假設檢驗,參數(shù)估計,原理:概率很小的事件在一次抽樣試驗 中實際是幾乎不可能發(fā)生的。, =0.05/0.01,假設檢驗(Hypothesis),如何進行檢驗:,樣本 平均數(shù),,總體 均數(shù),推斷,樣本,隨機抽樣,總體,,,1
8、 、提出假設,對 立,無效假設 /零假設 /檢驗假設,備擇假設 /對應假設,0 ,0 ,誤差 效應,處理 效應,,,,,H0,HA,2 、 確定顯著水平,0.05,,,顯著水平*,極顯著水平**,,能否定H0的人為規(guī)定的概率標準稱為顯著水平,記作。,統(tǒng)計學中,一般認為概率小于0.05或0.01的事件為小概率事件,所以在小概率原理基礎上建立的假設檢驗也常取=0.05和=0.01兩個顯著水平 。,P< ,0.01,0.05,3 、選定檢驗方法,計算檢驗統(tǒng)計量,確定概率值,P( u 1.581)=20.0571=0.1142,,,,根據(jù)研究設計的類型和統(tǒng)計推斷的目的選擇使用不同的檢驗方法。 本例:服
9、從N(x, x2)分布。,例:,4、作出推斷結(jié)論:是否接受假設,P,P< ,,小 概 率 原 理,接受H0 否定HA,否定H0 接受HA,可能正確,可能錯誤,,,,,,u 0.05=1.64 u 0.01=2.33,單尾 檢驗 分位數(shù),雙尾 檢驗 分位數(shù),u 0.05=1.96 u 0.01=2.58,查表時,單尾概率乘以2等于雙尾概率,,,大樣本平均數(shù)的假設檢驗 u檢驗,小樣本平均數(shù)的假設檢驗 t檢驗,單樣本,雙樣本,,樣本平均數(shù)的假設檢驗,1、總體方差2已知,無論n是否大于30都可采用u檢驗法。,2、總體方差2未知,但n30時,可用樣本方差s2來代替 總體方差2
10、,仍用u檢驗法。,3、總體方差2未知,且n<30時,可用樣本方差s2來代替 總體方差2 ,采用df=n-1的t檢驗法。,應用情景:,試 驗 設 計,,成組數(shù)據(jù)平均數(shù)的比較,成對數(shù)據(jù)平均數(shù)的比較,分到兩個組中的數(shù)據(jù),沒有關系,相互獨立。,兩個樣本平均數(shù)的假設檢驗,將性質(zhì)相同的兩個樣本(供試單位)配偶成對,每一對除隨機地給予不同處理外,其他試驗條件應盡量一致,排除實驗單位不一致對實驗結(jié)果的影響。,1、兩個總體方差12 和22已知,或12 和22未知,但兩個樣本都是大樣本,即n130且n230時,用u檢驗法。,2、兩個總體方差12 和22未知,且兩個樣本都是小樣本,即n1<30且n2<30時,用t
11、檢驗法。,成組數(shù)據(jù)平均數(shù)的比較-應用情景,成對數(shù)據(jù)平均數(shù)的比較,略,所謂方差的同質(zhì)性,就是指各個總體的方差是相同的。,方差的同質(zhì)性檢驗就是要從各樣本的方差來推斷其總體方差是否相同,方差的同質(zhì)性檢驗,五、方差分析,t 檢驗可以判斷兩組數(shù)據(jù)平均數(shù)間的差異顯著性,對多個處理進行平均數(shù)差異顯著性檢驗時,采用t檢驗法的缺點:,方差:又叫均方,是標準差的平方,是表示變異的量。,確定各種原因在總變異中所占的重要程度。,,處理效應,試驗誤差,相差不大,說明試驗處理對指標影響不大。,相差較大,即處理效應比試驗誤差大得多,說明試驗處理影響是很大的,不可忽視。,xij = + i +ij,(i=1,2,3,k;j=
12、1,2,3,n), 總體平均數(shù),i 處理效應,ij 試驗誤差,xij 是在第 i 次處理下的第 j 次觀測值,多重比較(multiple comparisons),要明確不同處理平均數(shù)兩兩間差異的顯著性,每個處理的平均數(shù)都要與其他的處理進行比較,這種差異顯著性的檢驗就叫多重比較。,即:統(tǒng)計上把多個平均數(shù)兩兩間的相互比較稱為多重比較。,概念,五、多重比較,,多重比較方法較多(multiple comparisons),,,,不同離子對木聚糖酶活性的影響(mg/ml),0.00 0.25 0.50 0.75 1.00 1.25,0.00 0.06 0.12 0.18 0.24 0.30,0.00
13、0.40 0.80 1.20 1.60 2.00,0.00 0.40 0.60 0.80 1.00 1.20,Na+,K+,Cu2+,Mn2+,,,,,實驗指標,因素,***對多因素試驗而言,處理就是指水平與水平的組合,定義:是指對試驗指標同時受到兩個試驗因素作用的試驗資料的方差分析。,二因素都是固定因素,二因素均為隨機因素,一個因素是固定因素,一個因素是隨機因素,二因素方差分析,三種模型在計算上類似,但在對待檢驗及結(jié)果解釋時有所不同。,主效應和互作,主效應(main effect): 各試驗因素的相對獨立作用(不同飼料的增重差異,不同品種玉米產(chǎn)量不同),互作、交互(interaction):
14、 某一因素在另一因素的不同水平上所產(chǎn)生的效應不同。,方差分析的基本假定,正態(tài)性,可加性,方差同質(zhì)性,,二因素方差分析,相 關 變 量,因果關系,平行關系,回歸分析(regression analysis),相關分析(correlation analysis),,,一個變量的變化受到另一個變量或幾個變量的制約,兩個以上變量之間共同受到另外因素的影響,,,,,(x,y),,,,實際值與估計值之差,剩余或殘差。,估計值與均值之差,它與回歸系數(shù)的大小有關。,,,,,,因變量 y的平方和,總平方和,SST或SS總,回歸平方和 U/SSR,離回歸平方和 Q/SSE,,,,變異分解,兩個變量是否存在線性關系
15、,采用F檢驗法進行。也以采用t檢驗法進行(需分別檢驗a、b值)。,若x與y間不存在直線關系,則總體回歸系數(shù)=0; 若x與y間存在直線關系,則總體回歸系數(shù)0.,F值較大時,說明方程的變異主要有回歸平方和(U)造成,方程成立。,t檢驗法,F檢驗法,直線回歸的適應范圍一般以自變量的取值為限。,直線回歸注意問題,在自變量范圍內(nèi)求出的估計值,一般稱為內(nèi)插(interpolation);超過自變量取值范圍所計算出的估計值,稱為外延(extrapolation)。,若無充分理由證明超過自變量取值范圍還是直線,應該避免外延。,決定系數(shù) coefficient of determination,變量x引起y變異的回歸平方和占y總變異平方和的比率,