博文谷

位置:首頁 > 實用範文 > 論文

統計學論文問題分析

論文1.68W

一、常用的統計術語

統計學論文問題分析

統計學中常用的概念有總體與樣本、隨機化與概率、計量與計數、等級資料及正態與偏態分佈資料、標準差與標準誤等。如某研究採用經會陰途徑測定宮頸長度,以探討不同宮頸長度與臨產時間的關係。結果顯示35例宮頸長度爲25~34mm者與32例宮頸長爲15~24mm者臨產時間的均值±標準差(x±s)各爲57.6±58.1與47.3±49.1小時。該計量資料,經t檢驗顯示t=0.780,P>0.05,並未提示不同宮頸長度的臨產時間差異有顯著意義;從標準差大於均值,顯示各變量值離散程度大,呈偏態分佈,故不能採用x±s這一算術均數法計算均數。經偏態轉換成近似正態分佈資料後結果是:35例與32例的臨產時間各爲34.5±4.1與26.7±4.1小時,(t=7.778,P<0.001),兩組差異有極顯著意義。可認爲隨着宮頸長度的縮短、臨產時間也縮短。此外,當兩組資料單位不同時,其S單位也不同;即使兩組單位相同的變量值,若其均數差異較大,也都應以變異係數替代s來比較兩組值的離散度的大小。

二、正常值範圍及異常閾值的確定

如何選擇研究對象,至少需多少例,正確統計處理和參考一定數量的病例數據,是確定正常值範圍及異常閾值的四個重要因素。

1.研究對象:應爲“完全健康者”,可包括患有不影響待測指標疾病的患者。如“正常妊娠”的條件:孕前月經週期規則、單胎、妊娠過程順利、無產科併發症及其它有關合並症,分娩孕周爲37~41周+6,新生兒出生體重爲2500~4000g和Apgar評分≥7分。

2.觀察數量:觀察數量應儘可能多於100例;需分組者,各組人數也是如此(標本來源困難時酌情減少)。有些指標值如雌三醇(E3)、甲胎蛋白(AFP)、胎盤泌乳素(HPL)等隨孕周進展而變化,應按孕周分組;鄰近孕周均數相近者,可合併幾周計算。若爲偏態分佈,應以百分位數計算,則例數應≥120例。取各孕周對象時,應考慮到所取各孕週中的例數分佈大致均衡。顯然,文稿中往往以少量例數求得正常值是欠可靠的。

3.統計處理:應根據所得數據分佈特徵採用不同的統計處理方法。屬正態或近似正態分佈的數據,可採用x±s法計算;這也適用於以一定方法能將非正態分佈轉換成正態或近似正態分佈的資料。對無法轉換的偏態資料,應採用百分位數計算法。具體計算(包括上下限初步制定)見文獻。

4.對照數量:相應觀察的病例數(包括分組)應不少於30例,這對制定某指標有臨牀意義的異常閾值尤其重要,這一點往往易被忽視。如在參考較多病例數據後,唾液遊離E3的下限異常閾值應爲第2.5百分位數,而非通常採用的5百分位數。否則,將會導致該指標產前監護的假陽性率增加。

三、t檢驗與校正t檢驗(t′檢驗)

這是文稿中極易混淆的一類計量資料統計問題。

(一)檢驗的注意事項

1.t檢驗的意義:t檢驗與所有統計分析相同,其結果提示現有差別不僅僅是抽樣誤差所致,且提示犯第一類錯誤的可能性大小,即t0.05與t0.01犯第一類錯誤的可能性各爲5%與1%。

2.統計意義與臨牀意義的關係:統計學有顯著意義,而在臨牀上可能是無意義的,提示該研究應繼續深入,以明確該差異是否真有顯著意義;相反,統計無顯著意義,而臨牀上卻是有意義的,不能貿然輕易地下結論。應複查實驗設計、方法、試劑及儀器性能、質控措施和實驗數據等是否有問題,或尚需再進一步增加樣本量進行復測等。

3.t檢驗適用範圍:t檢驗僅適用於正態或近似正態分佈(包括偏態轉換)和其方差是齊性資料的檢驗;t檢驗適用於可比性資料,即除了欲比較的因素外,其它所有可影響的因素應相似。

4.t檢驗的結果判斷:判斷結果不應絕對化,P<或>0.05,分別表示可拒絕或接受原定的假設,但兩者都有5%的可能性犯第一類錯誤;而P值越小,只能是更有理由拒絕原定的假設。

5.單側與雙側檢驗:應預先制定本研究的結果是需行雙側還是單側檢驗。對有把握確知某治療措施或某指標是不會劣於現有的,才作單側檢驗;若不知何者爲優,應行雙側檢驗。因爲在同一t值的界限上,單側檢驗的概率(P)僅爲後者的一半,也就是說單側檢驗較雙側檢驗更易得出差別有統計意義的結論,不可隨意制定。一般講,絕大多數研究以採用雙側檢驗爲妥。

(二)t′檢驗與t檢驗的區別

當兩樣本均數的方差非齊性時,應以t′替代t檢驗。例如:甲組32例血清某指標值爲53.9±49.6(μmol/L);乙組6例的結果爲26.6±7.2(μmol/L),若不考慮兩樣本方差大小,t檢驗示t=1.331,P>0.05,提示兩組血清該指標的平均含量差異無顯著意義。但先作方差齊性檢驗,F=47.4,P<0.01,示這兩樣本方差差異有極顯著意義。據此應採用t′檢驗,t′=2.952>t′0.012.875,P<0.01。顯然,與上述結論恰恰相反。

四、卡方(χ2)、校正χ2與直接概率法(或精確法)檢驗

這三種檢驗方法爲一類用途較廣、但也易混淆的、適用於計數資料檢驗的方法。應注意,鑑於總數與理論值的不同,應採用相適合的檢驗方法。

例1.192例出生體重≥4000g的新生兒發生難產與窒息數分別爲151例與22例;3475例出生體重≥3500~4000g的新生兒發生難產與窒息數分別爲185與265例;2451例出生體重≥2500~3500g的新生兒發生難產與窒息數分別爲122與169例。3組的構成比:難產與新生兒窒息率分別爲:78.6%、5.3%、5.0%與11.4%、7.6%、6.9%。據此貿然認爲出生體重≥2500~3500g爲最佳新生兒分娩體重的結論是不可靠的。經χ2分析,後兩組的難產與窒息率間和前兩組窒息率間差異均無顯著意義(P均>0.05)。故可認爲,單據本研究結果是難以得出上述臨牀上認可的結論的`。這涉及到上述“統計無顯著意義,而臨牀卻是有意義”的問題,應進一步複查或增加樣本測試。杜絕單純根據百分率的大小貿然下結論。

例2.某藥治療感染衣原體(CT)的中、晚期孕婦各11例和36例,她們的新生兒感染CT數各爲3例和23例。χ2檢驗得χ2=4.570,P<0.05。據此誤認爲,某藥治療中孕期感染CT孕婦的新生兒感染CT數少於晚孕期纔開始治療的新生兒感染數。根據統計原則,其中一個數的理論值爲4.9(<5)時,應採用校正χ2計算,得χ2=3.209,p>0.05。顯然,正確結論恰與上述相異。

例3.以精確法替代χ2檢驗。某新技術測試8例卵巢內胚竇瘤患者,5例呈陽性反應;測試25例卵巢顆粒細胞瘤患者中6例陽性。χ2檢驗得χ2=4.042,P<0.05。誤認爲該新技術測前組的陽性率高於後組。但鑑於總例數33例(<40),且其中一個數的理論值爲2.7(<5),故應改用精確法檢驗,結果首次計算p值,已達0.102,>雙側檢驗的有顯著性意義的界限0.025,故P>0.05。結論也恰相反。

五、相關與迴歸分析

相關分析只是以相關係數(r)來表示兩個變量間直線關係的密切程度和相關方面的統計指標。無論是正相關(r爲正值)或負相關(r爲負值),只是經相關係數的統計意義檢驗(如t檢驗)後,當P<0.05時,即示差異有顯著意義時,才能依據|r|值的大小來說明兩變量間相關的密切程度。因此,表示相關性,除寫出r值外,應註明P值;切不可將相關的顯著性誤解爲相關程度;也應注意:相關分析是不能單純用於闡明兩事物或現象間存在着本質的聯繫,即使兩變量間存在高度相關關係(即有一定的統計聯繫),也不能證明它們間存在着因果關係。如欲證明兩事物間的內在聯繫,必需憑藉專業知識從理論上加以闡明。

“相關”是表示兩個變量間相互關係的密切程度,而回歸分析是提示兩個變量間的從屬關係。在迴歸分析中,應注意由X變量值推算Y,與以Y變量值推算X的迴歸線是不一樣的;直線迴歸方程的適用範圍,一般僅適合於自變量X原測數據的範圍,故繪製迴歸線時,X值切不能超越實測值的範圍而任意延長。

可見,這兩種分析,說明的問題是不同的,但相互又有聯繫。在作迴歸分析時,一般先作相關分析,只有在相關分析有統計意義(即迴歸有統計意義)的前提下,求迴歸方程和迴歸線纔有實際意義。決不能把毫無實際意義的兩個事物或兩種現象進行相關與迴歸分析。

六、數據的正確書寫

1.文稿內各數據的書寫必須前後一致;總數應等於各分組的數據之和。

2.對不同指標,有其不同數據精度的要求,這應結合專業知識加以判斷。如新生兒出生體重是以公斤爲單位,記錄測定數據精確到小數點後的第二位數字即可。

3.測定數據的書寫,不能超越其測量儀器測試的精確度範圍。

4.同一指標的前後數據應保持同一精確度。

5.經計算,出現比預定小數點後兩位數多的數字,應採取“≤4舍、≥6入”與“5‘奇’進‘偶’出”方法,以決定小數點後第三位數字是“舍”還是“入”,即5前爲單數則入,雙數則舍。

6.未經統計檢驗,文稿內不宜出現推斷性的比較結果的結論。如“××結果的百分率高或低於××結果的百分率”、“本文結果較××報道的多或少或類似”等結論。這在綜述類文章撰寫過程中也需注意;欲予以比較,也應注意兩者的可比性。

上述是統計學中較爲基礎的概念,但又是文稿中常見的、較易出現差錯的內容。因此可以認爲,統計學是醫護人員必需掌握並能熟練應用的一門重要知識;藉此,可不斷地從自身和他人的研究中獲取更多、更新和更可靠的專業資訊。關鍵詞:統計學問題

標籤:統計學 論文