两水平logistic回归模型在高血压患病影响因素分析中的应用
2024-03-25
来源:乌哈旅游
中国卫生统计2013年l0月第3O卷第5期 两水平logistic回归模型在高血压患病影响 因素分析中的应用 兰州大学公共卫生学院(7300o0) 刘小宁 秦林元 杨冬华 晁丽丽 李娟生 【提要】 目的应用两水平logistic回归模型分析人群高血压的患病因素。方法通过多阶段随机抽样,抽取兰 州市某区3个农业乡镇6个村的l8岁以上人群为调查对象,采用两水平logistic回归模型分析高血压患病影响因素,并与 传统logistic回归模型比较模型拟合效果。结果调查人群年龄、BMI、一级亲属高血压病史及疾病史与高血压患病呈正 相关;而家庭经济收人、锻炼和水果摄入与高血压患病呈负相关。人群高血压患病率在村级水平上呈现聚集性,各调查村 间高血压患病率有差异。与传统logistic回归模型比较,两水平logistic回归模型拟合效果较好,对数似然值最小。结论 两水平logistic回归模型可以有效地处理具有层次结构数据,并可分解出调查村问患病率的变异。 【关键词】两水平logistic回归高血压 医学流行病学横断面调查人群调查中,通常用多 随机选取2个村,每个村随机抽取18岁以上常驻居民 为调查对象。调查时间为2012年3月。 2.调查方法 阶段抽样设计。例如样本按照地区和个人,或者地区、 观察纵队和个人进行整群或分层随机抽取,这样的数 据具有地区、个人两个层次结构或者是地区、观察纵队 和个人三个层次。此类数据的主要特征是反应变量的 采用自行设计的调查问卷,搜集调查对象社会人 口学特征信息、生活行为信息、疾病史、高血压健康知 识、高血压疾病史及用药情况等。 3.血压及身高体重测量 采用标准汞柱血压计,被调查者安静状态至少5 分布在个体间不具备独立性,存在地理距离内、某行政 区内或特定空间范围内的聚集性 卜引。在以慢性病的 相关影响因素为调查目的的横断面研究中,由于慢性 病与个体的生活行为习惯、居住地区文化背景及地理 环境密切相关,相同地区的经济文化背景和人群的长 期生活习惯可能导致影响疾病发生的相关因素相似, 这使得某些变量特征在某一地区或空间范围内呈现聚 集性。 分钟以上,取坐位,手臂置于桌面,与心脏水平位一致。 每位调查者测量两次血压。按照(《中国高血压防治 指南》,2005年修订版)的诊断标准,收缩压≥140ram Hg和(或)舒张压 ̄>90mm Hg或者近两周内服用降压 药及医生已诊断为高血压的居民列为高血压患者。调 查者着薄衣,脱鞋,站姿进行身高体重测量。 4.调查质量控制 传统回归分析要求个体独立,对分层数据,由于层 次之间存在比较明显的差异性或异质性,传统的最小 二乘估计往往不能有效地进行统计建模或精确估计, 多水平模型正是基于此发展起来的,是一种适宜于处 理层次结构数据的方法。此方法充分考虑了数据的层 次结构性,把传统的线性模型不仅分解成固定部分和 随机部分,而且把随机部分分解到数据的不同层次上, 从而能得到每个层次上的解释信息,使得分析更完善 和更准确…。近年来,多水平回归分析在医学及流行 病学断面研究中有了较多的应用 J。本研究以兰州 市农村地区人群高血压流行病学调查数据为基础,探 讨两水平logistic回归模型在二分类变量中的应用。 对象与方法 调查人员由兰州大学公共卫生学院卫生统计学专 业教师、硕士研究生及本科生组成。调查前进行统一 的调查培训,统一对问卷调查项目的认识。调查现场 由教师负责调查表的回收,对每份调查问卷进行完整 性核查和逻辑核查,核对问卷填写是否完整无缺,对问 卷中的漏项进行现场补填。 5.统计分析方法和原理 本次调查数据具有“乡镇一村一个体”的层次结 构。在同一乡镇、村的调查居民在经济水平、生活方 式、饮食习惯上可能存在在某种相似性或聚集性,即个 体数据并不独立,不满足传统方法假定的误差独立分 布。多水平模型的应用将不同层次的变异分解出来, 使得参数估计更趋于保守,减少I类错误。本研究的 结果变量为二分类,故选择多水平logistic回归模型进 1.调查对象 以兰州市某区随机选择3个农业乡镇,每个乡镇 基金项目:中央高校基本业务科研业务专项资金自由探索项目(编 号:lzujbky一2011—90) 行分析。以最基本的两水平logistic回归模型为例,其 基本形式如下: log/t(Pi| :Bo|+ ixi}七e △通信作者:李娟生,E—mail:lijsh@lzu.edu.cn 卢Qf= +Uo ,U0,~N(0, 2加) 在该模型中,研究对象总的变异分解为两个水平 的变异,即水平2的变异 ,和1水平的变异 通 过对2水平及1水平残差的估计,可以检验出各水平 有无差异,从而推断该水平引入模型是否有意义。通 过对水平2残差及其95%可信区间的估计,可以分析 2水平间研究变量是否有差异,在本研究中,即各调查 村中高血压患病率是否有差异。分析用软件为Stata 9.2。 结 果 1.调查人群一般情况 3 9 ∞ ∞ ;1 5 6 1 本次共调查3个乡镇6个行政村的18岁以上居 {民723人,调查人群社会人口学特征如表1。 表1调查人群社会人口学特征 项目 例数(%) 性别(女) 民族(汉) 年龄(岁) 18~34 35~54 55~64 >65 文化程度 小学及以下 初中 高中及以上 家庭年收入 {采片j四分位数间距表不法,p5O(p25,p75)。 2.两水平logistic回归模型的建立 考虑到数据的层次结构,首先拟合“乡镇一村一 个体”三水平logistic回归零模型,结果显示,乡镇水平 的残差估计值无统计学意义(P=0.065),而村级水平 的残差估计有统计学意义(P=0.012),提示数据在村 级水平间有聚集性,计算村级水平方差成分系数VPC 为7.07%,由调查村之间的差异占总变异的7.07%。 因此选择“村一个体”两水平logistic回归模型分析高 血压患病影响因素。 在模型中引入个体水平变量,拟合两水平logistic 回归模型,结果显示,村级水平有统计学意义(P= 0.0313,VPC=8.48%);个体水平因素如调查人群年 龄、BMI、一级亲属高血压病史及疾病史与高血压患病 呈正相关;而家庭经济收入、锻炼和水果摄人与高血压 患病呈负相关。与零模型相比较,似然比统计量(一 2LL)较小,模型拟合好。与传统的logistic回归模型 比较,两水平logistic回归模型的一2LL值更小,模型 优于传统模型。见表2。 Chinese Journal of Health Statistics.Oct 2013.Vo1.30.No.5 表2高血压患病影响因素分析的不同模型参数估计比较 3 6 7 6 5 8 3 2 :1 7 6 6 2 vvv 8 9 鼹 v vl3 2 2 1 仍 m ( O 帅 1 ^^^ ) ) .卜 ) O :P<n05;№:随机效应方差估计值及其标准误;VPC..方差成分系 数;一2LL:一2倍对数似然值,表示模型拟合优度,越小表明模型拟合越好。 3.调查村高血压患病率差异分析 通过两水平模型中对2水平残差及其95%可信 区间的估计,残差值提供了每一个该水平下的单个估 计值,当残差值95%可信区间包含了残差为0的直线 时,说明这个估计值在平均范围内。在本研究的6个 调查村中,有4个村的高血压患病率包含了0直线,表 明这4个村的高血压患病率无差异;1个调查村在0 直线以下,表明该调查村高血压患病率低于平均水平; 1个调查村在0直线之上,表明该调查村高血压患病 率高于平均水平。见图l。 5 3 l 一1 —3 —5 1 2 3 4 5 6 村患病率排序 图1各调查村高血压患病率的残差估计值及其95%可信区间 中国卫生统计2013年10月第3O卷第5期 ・675・ stage sampling method was used to collect a smplae aged 18 years older in— 讨 论 dividuals from 6 villages of 3 rural townships of Lanzhou city.A two—level logisic regrtession model was used to examine the data and the results were 本研究数据呈现层次结构,研究结果显示,调查人 群的高血压患病率在调查村间存在聚集性,即同一调 查村内调查人群的高血压患病率接近,不同调查村间 的人群患病率有差异。由此提示了高血压患病影响因 素受到居住环境、人群文化背景及生活行为习惯的影 compared to the logistic regression mode1.Results Age,BMI,first-de— gree relative of hypertension and history of diseases had a positive relmion to hypertension,and income,excises and ate fruits had a negative elatrion to hypertension.The prevalence diferences of hypeaension among villages, nd ahe datta clustered within villages.Compared to logistic regression mod— e1.the two-level logistic regression model was better and the-2LL was 响。因此,在高血压患病影响因素的分析中,应用多水 平分析模型将地区因素的变异分离,模型参数的估计 更加准确,在慢性病流行病学调查在更具有现实意义 smaller.Conclusion Two—level logistic regression model can examine the structured data effectively and the variation of villages was disitnguished rom tfhe whole variation. 和科学性。而个体水平的影响因素分析,与传统回归 模型比较,相关因素对患病的影响没有太大的差异。 通过对村级水平的残差估计,对于高血压患病率最高 的调查村还可以进一步的定性分析,探讨该村高血压 患病的相关因素,为人群高血压的防治提供有效的信 息。 本研究存在的缺陷是:高水平单位即调查村的数 量较少,总样本量可能偏小。模型假定在2水平下的 【Key words】Two—level logistic regression model;hyper- tension 参考文献 1.Harvey Goldstein.Muliltevel sattistical mode1.3rd ed.Oxford University Press Inc,2003. 2.杨珉,李晓松.医学和公共卫生研究常用多水平统计模型.北京:北京 大学医学出版社,2007. 3.高俊岭,傅华.多水平发展模型在社区干预性研究中的应用.中国卫 生统计,2009,26(5):459-461. 4.衡明莉,王泓午,马茂林,等.多水平模型在分层抽样研究中的优越 个体的患病率是相同的,模型的截距项是随机的,而斜 率是固定的,拟合模型为方差成分模型。在2水平中, 未引入调查村的特征变量,这可能使得对调查村的变 异估计偏小 Application of Two-level Logistic Regression Model on Factors 性.首都医科大学学报,2010,31(3):373.376 5.高俊岭,傅华.上海市社区老年高血压患者血压水平影响因素的多水 平分析.中华流行病学杂志,2009,30(4):318.321 6.Hoang Van Minh,Peter Byass,Stig Wal1.Multilevel analysis of effects of individual charactefistics and household factors on self-rated health a- mong older adults in rurl Viaetnam.GeriatrGerontollnt,2010,10:209— 215. Associated th Hypertension Liu Xiaoning,Qin Linyuan, 增 DonghIda,et a1.School of public health,Lanzhou university (730000),Lanzhou 7.Liu XN,Zhou XY,Yan H,et a1.Use of maternal healthcare services in 10 pmvinces of mml western China.International Journal of Gynecology 【Abstract】Objective To apply the two—level logisitc regres— sion model on factors associated wih hyperttension.Methods A mulit. nd Obsatetrics,114(2011):260.264. (责任编辑:郭海强) (上接第672页) 4.Rosell R,Carcereny E,Gervais R,et a1.Erlotinib versus standard chem— homogeneity of survival curves.Biometrical Journal,2004,46(5):489— 496. otherapy as first—line treatment for European patients wih tadvanced EG— 8.Qiu PH,Sheng J.A two—stage procedure for comparing hazard rate functions.Journal of the Royal Statisicatl Society Series B,2008,70 FIR mutation-posiitve non—small—cell lung cancer(EURTAC):a multi. een ̄e,open—label,randomised phase 3 tri1.The Lancet Oncolaogy, (1):191-208. 9.Burton A,Altman DG,Royston P,et a1.The design of simulation stud— 2012,13(3):239-246. 5.Samandari T,Agizew TB,Nyienda S,etr a1.6-month versus 36-month isoniazid preventive treatment for tuberculosis in adults with HIV infec— tion in Botswana:a randomised,double—blind,placebo—controlled tri1.a ies in medical sattistics.Statistics in Medicine,2006,25(24):4279- 4292. 10.Hosmer DW,Lemeshow S,May S.Applid survieval analysis:'regression modeling of time to event data.Second Ediiton.New York:John Wiley &Sons.2008. The Lancet,2011,377(9777):1588—1598. 6.Gill RD.Censoring and stochastic integrals.Mathematical Centre Tracts.Amsterdam:Mathematisch Centrum。1980:124. 7.Lin X,Wang HK.A new testing approach for comparing the overall (责任编辑:郭海强)