删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

运用广义线性混合模型分析随机区组重复测量的试验资料

本站小编 Free考研考试/2021-12-26

张久权,1,*, 闫慧峰1, 褚继登1, 李彩斌21中国农业科学院烟草研究所 / 农业农村部烟草生物学与加工重点实验室, 山东青岛 266101
2贵州省烟草公司毕节市公司, 贵州毕节 551700

Statistical analysis of randomized complete block design with repeated measure data using Generalized Linear Mixed Models (GLIMMIX)

ZHANG Jiu-Quan,1,*, YAN Hui-Feng1, CHU Ji-Deng1, LI Cai-Bin21Tobacco Research Institute, Chinese Academy of Agriculture Sciences / Key Laboratory of Tobacco Biology and Processing, Ministry of Agriculture and Rural Affairs, Qingdao 266101, Shandong, China
2Bijie Tobacco Company of Guizhou Province, Bijie 551700, Guizhou, China

通讯作者: * 张久权, E-mail: zhangjiuquan@caas.cn

收稿日期:2020-04-1接受日期:2020-07-2网络出版日期:2020-07-15
基金资助:国家重点研发计划项目.2018YFD201104
四川省烟草公司重点项目.SCYC201702
四川省烟草公司凉山州公司项目.LSYC201601
贵州省烟草公司毕节市公司项目.2018520500240059


Received:2020-04-1Accepted:2020-07-2Online:2020-07-15
Fund supported: National Key Research and Development Program of China.2018YFD201104
Sichuan Provincial Tobacco Company.SCYC201702
Liangshan Tobacco Company of Sichuan Province.LSYC201601
Bijie Tobacco Company of Guizhou Province.2018520500240059


摘要
重复测量试验对同一受试对象进行多次测量, 各时间点数据间存在自相关性, 进行方差分析和均值比较时需要进行特殊处理。虽然此方法在农业等研究领域运用十分广泛, 但目前有效地相关统计方法鲜见。为了建立操作简单、实用性强、结果可靠的统计分析方法, 本研究采用SAS的广义线性混合模型(Generalized Linear Mixed Models, GLIMMIX), 以随机区组重复测量试验资料为例, 说明了协方差结构筛选、方差分析和均值比较的具体方法。结果表明, 用传统的裂区设计、多变量统计等方法会造成资料信息浪费, 统计功效降低, 缺区无法处理等问题, 甚至会导致错误的结论。GLIMMIX能很好地处理自相关问题, 功能强大, 结果可靠, 使用简单, 允许缺区, 是进行重复测量试验资料方差分析和均值比较的理想方法。目前在国内将其运用到农学类试验数据的统计分析的相关报道鲜见, 该文在本领域具有很强的实用性和创新性。
关键词: 重复测量;随机区组;广义线性混合模型;方差分析;均值比较;SAS

Abstract
Multiple measurements of the same subject are conducted, and there is autocorrelations among the data at each time point. Some special treatment is required for statistical analysis of repeated measure data. Although the repeated measure is widely used in agricultural and other research fields, the relevant and effective statistical methods are rare. In order to establish a simple, easy to use, and reliable statistical method, generalized linear mixed models (GLIMMIX) of SAS was adapted. Selection of covariance structure, variance analysis, and means comparison processes were showed by using RCB data. Traditional split plot and MANOVA methods wasted large amounts of information, reduced the power of the test, and could not handle missing data effectively, even resulting in incorrect conclusions. GLIMMIX was the best choice for variance analysis and means comparison of repeated measure data, because it was easy to use, and had powerful function, high reliability, and ability to handle missing data. At present, there was few relevant report in China, and this method would be very practical and innovative in this field.
Keywords:repeated measure;randomized complete block;GLIMMIX;analysis of variance;mean comparison;SAS


PDF (340KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
张久权, 闫慧峰, 褚继登, 李彩斌. 运用广义线性混合模型分析随机区组重复测量的试验资料[J]. 作物学报, 2021, 47(2): 294-304. doi:10.3724/SP.J.1006.2021.04085
ZHANG Jiu-Quan, YAN Hui-Feng, CHU Ji-Deng, LI Cai-Bin. Statistical analysis of randomized complete block design with repeated measure data using Generalized Linear Mixed Models (GLIMMIX)[J]. Acta Agronomica Sinica, 2021, 47(2): 294-304. doi:10.3724/SP.J.1006.2021.04085


农业科研常常需要进行长期定位试验和多点试验, 需要对同一对象(小区、某株作物等)进行重复测量, 例如, 为了探明烤烟移栽后的生长速度, 需要定点定株对烤烟的株高进行连续测量。这种对同一受试对象(subject)进行多次测量的试验即为重复测量试验[1,2,3]。在农业试验中, 主要包括3种类型的重复测量: (1)不同时间点对同一对象测量; (2)对同一对象不同部位的测量, 如烤烟上、中、下3个部位; (3)不同地点的测量, 如作物品种区试。时间、部位、地点均可以视为重复测量因子。由于个体间的差异, 观测值开始就高的个体, 后面也高, 反之一样, 例如, 定点测量烟株的高度, 第1次测量较高的烟株, 后面测量时也会高。因此, 同一对象不同观察值间往往存在时间或空间上的自相关性, 观测点间隔越近, 往往相关性越大[3,4,5,6], 自相关是重复测量数据最大的特点。由于存在自相关性, 数据间相互独立的基本要求不能满足, 不能采用常规的统计方法进行统计分析[4-5,7-8]

重复测量试验在医学领域十分普遍, 在农业研究领域也越来越受到人们的重视, 特别是长期定位试验。过去, 主要采用裂区设计或多变量统计方法分析这类数据[2,6,9], 不仅忽视了分析的前提条件[10], 可能得出错误的结论, 也大大浪费了重复测量因素的时间或空间信息, 降低了统计分析的效能, 导致高层次、高效率的试验得出低质量、低水平的研究结论, 造成不必要的浪费与损失[4,11-12]。国外期刊从2004年开始就已经对重复测量数据的分析进行了严格要求[1]。目前, 我国农业领域, 有关对重复测量试验数据进行科学统计分析方法的报道鲜见。

近年来, SAS等统计软件进行了创新和发展。运用混合模型(mixed)和广义线性混合模型(Generalized Linear Mixed Models, GLIMMIX)能很好地进行重复测量的数据分析[13]。重复测量试验可以与许多试验设计结合, 如完全随机、随机区组、裂区、拉丁方等等。随机区组试验是农业试验中普通采用的试验设计, 尤其是田间试验。因此, 本文以两因素随机区组试验数据为例, 系统介绍应用GLIMMIX进行重复测量数据方差分析和均值比较的方法, 并阐明传统统计方法的不足, 供广大农业科研工作者参考。

1 材料与方法

1.1 试验设计

1.1.1 土柱试验 该试验为室内模拟试验二因子(降水强度、N肥水平)三重复全因子设计, 小区排列方式为随机区组。土壤为中国农业科学院西南试验基地(四川西昌市)收集的紫色土。降水强度分别为0.44、0.68、1.20 mm min-1, 降水量均为50 mm 次-1。设N1 (常规施肥, CK)、N2 (减量30%)、N3 (减量30%+生物炭)共3个氮肥水平。对土柱进行了12次模拟降雨, 第6次开始收集到下渗淋洗液, 一直到第12次降雨完成, 每个土柱收集到7次淋洗液, 时间间隔相等。采用碱性过硫酸钾消解紫外分光光度法测定淋洗液中的全氮[14]。7次淋洗被当作重复测量因素。采用SAS 9.4的GLIMMIX进行统计分析, 数据输入示例见表1

Table 1
表1
表1数据Microsoft Excel输入表示例
Table 1Data entry example for Microsoft Excel
RainNBlockCoreTimesY
1111620.20
111177.37
111185.75
111194.25
1111102.42
1111114.69
1111125.13
1122620.45
1122712.33
33327126.16
Rain、N、Block、Core、Times、Y分别代表降水强度、N肥施肥方式、区组、土柱、淋洗次数和N淋失量。
Rain, N, Block, Core, Times, and Y represent rainfall density, N fertilizer application treatment, block, soil core as a plot, leaching times, and total loss by leaching, respectively.

新窗口打开|下载CSV

1.1.2 田间试验 2018年4月开始, 在贵州毕节威宁县黑石镇开展烟田生物炭长期定位试验, 采用单因子(生物炭用量)三水平(0、15、40 t hm-2)三重复随机区组设计, 小区面积67 m2, 供试作物为烤烟, 分别于2018年的6月13日、7月17日、9月20日, 2019年的6月11日、7月24日、9月26日采集0~20 cm耕层土壤测定土壤速效钾含量。为了进行说明, 设置2018年7月17日取样的处理15 t hm-2重复1数据缺失, 按缺区处理。

1.2 分析比较

图1显示了土柱试验3种不同施肥方式下总N淋失量随淋次数的变化, 淋洗次数为重复测量的时间因素。我们可能需要确定如下处理组合间的差异是否显著: (1)特定时间两处理水平间的差异, 如第6次淋洗时, 全氮淋失量N1与N2处理的差异; (2)特定处理随时间的变化, 如N2处理, 全氮淋失量第6次与第8次淋洗的差异; (3)两处理水平在各特定时间点的差异, 以便确定最优处理组合, 如N1第7次淋洗与N2第9次淋洗全氮淋失量的差异显著性; (4)随时间的变化(所有处理平均), 如3种氮处理平均, 全氮淋失量第8次与第10次淋洗的差异; (5)处理间差异(所有时间点平均), 如N1与N2处理在所有时间点平均, 全氮淋失量的差异; (6)其他差异比较。

图1

新窗口打开|下载原图ZIP|生成PPT
图13种施肥处理总氮淋失量随淋洗次数的变化

误差线为标准误。
Fig. 1Total N loss varied with leaching times at three N fertilizer treatments

The error lines are standard errors (SEs).


田间试验与土柱试验类似, 我们可以比较2018年6月13日取样时, 不同生物炭用量间土壤速效钾含量的差异; 施用生物炭15 t hm-2后, 2018年6月与2019年6月土壤速效钾含量的差异等。

1.3 方差分析模型

对于三因素(2个处理因素和1个时间因素)随机区组设计(土柱试验), 其线性可加效应模型如下:

Yabij = μ + αa + βb + (αβ)ab + Bk +δi(ab) + rj + (αr)aj + (βr)bj + (αβr)abj + eabij
式中, Yabij为某小区的观察值, 如全N淋失量; μ为总体均值; αa为因素A第a水平的效应; βb 为因素B第b水平的效应; (αβ)ab为因素A与因素B在ab水平上的交互作用效应; Bk为第k个区组效应; δi(ab)为第i个对象(小区)在ab水平上的效应, 即对象间误差, 满足i.i.d. N (0, σ2主间); rj为重复测量因素在时间点j的效应; (αr)aj、(βr)bj分别为因素A、B与时间点的交互作用; (αβr)abj为三因素交互作用; eabij为误差项, 满足i.i.d. N (0, σe2)。Bkδi(ab)eabij为随机效应, 其余各项为固定效应。δi(ab)eabij相互独立。

对于一因素三水平随机区组设计(田间试验), 其线性可加效应模型如下:

Yaij = μ + αa + Bk + δia + rj + (αr)aj + eaij
式中, αa为处理因素A第a水平的效应; Bk为第k个区组效应; δia为对象间误差, 满足i.i.d. N (0, σ2主间); rj为重复测量因素在时间点j的效应; (αr)aj为因素A与时间点的交互作用; eaij为误差项, 满足i.i.d. N (0, σe2)。

1.4 协方差结构的筛选

在重复测量试验中, 某一测量时间点上测定值变异的大小构成方差, 2个不同时间点上测定值相互变异的大小用协方差来度量。如果时间点I上的取值不影响时间点II上的取值, 则协方差为0, 反之则大于0。运用GLIMMIX程序分析重复测量的数据主要分两步, 首先是挑选协方差结构, 其次是进行方差分析和均值比较。对于土柱试验, 土柱(core)为受试对象(subject)。运用GLIMMIX挑选最恰当的协方差结构的参考SAS程序如下。

SAS程序I SAS program I

PROC IMPORT /*(1)*/

OUT= totalN

DATAFILE= "E:\数据\N.xls"

DBMS=EXCEL REPLACE;

SHEET="Sheet1$";

GETNAMES=YES;

SCANTEXT=YES;

RUN;

ODS RTF;

proc glimmix data=totalN; /*(2)*/

class Rain N Block Core Times;

model y=Rain|N|times /ddfm = kr;

random _residual_/type=VC sub=Core(Rain N);

ods output fitstatistics=fVC;

run;

proc glimmix data=totalN; /*(3)*/

class Rain N Block Core Times;

model y=Rain|N|times /ddfm = kr;

random _residual_/type=CS sub=Core(Rain N);

ods output fitstatistics=fCS;

run;

proc glimmix data=totalN; /*(4)*/

class Rain N Block Core Times;

model y=Rain|N|times /ddfm = kr;

random _residual_/type=UN sub=Core(Rain N);

ods output fitstatistics=fUN;

run;

proc glimmix data=totalN; /*(5)*/

class Rain N Block Core Times;

model y=Rain|N|times /ddfm = kr;

random _residual_/type=SP(POW)(Times) sub=Core(Rain N);

ods output fitstatistics=fSP;

run;

proc glimmix data=totalN; /*(6)*/

class Rain N Block Core Times;

model y=Block Rain|N|times /ddfm = kr;

random Block Core(Rain N);

random _residual_/type=AR(1) sub=Core(Rain N);

ods output fitstatistics=fAR;

run;

proc glimmix data=totalN; /*(7)*/

class Rain N Block Core Times;

model y=Block Rain|N|times /ddfm = kr;

random Block Core(Rain N);

random _residual_/type=TOEP sub=Core(Rain N);

ods output fitstatistics=fTOEP;

run;

proc glimmix data=totalN; /*(8)*/

class Rain N Block Core Times;

model y=Block Rain|N|times /ddfm = kr;

random Block Core(Rain N);

random _residual_/type=ANTE(1) sub=Core(Rain N);

ods output fitstatistics=fANTE;

run;

%macro rename(fit,a); /*(9)*/

data &fit;

set &fit;

rename value=&a;

run;

%mend rename;

%rename(fVC,VC)

%rename(fCS,CS)

%rename(fUN,UN)

%rename(fSP,SP)

%rename(fAR,AR1)

%rename(fTOEP,TOEP)

%rename(fANTE,ANTE1)

data merge_table; /*(10)*/

merge fVC fCS fUN fSP fAR fTOEP fANTE;

run;

proc print data=merge_table; /*(11)*/

format _numeric_ 5.1;

run;

ODS RTF close;

程序说明: 输入代码时注意分号为英文字符。数据存放在E:\数据\N.xls sheet1里, 格式见表1。程序(1)读取Excel文件的数据。程序(2)~(8)内容基本相同, 仅在“type =”后的协方差结构选项不同。对某些协方差结构, 包括一阶自回归[autoregressive(1), AR(1)]、循环相关(toeplitz, TOEP)、一阶前依赖[antedependence, ANTE(1)]等协方差结构, 需要考虑对象间误差, 因此需要增加random block core(Rain N)语句[15]。程序(2)~(8)调用GLIMMIX过程, 分别采用方差分量结构(variance components, VC)、复合对称结构(compound symmetry, CS)、不规则结构(unstructured, UN)、空间幂相关结构[space power, SP(POW)]、一阶自回归[AR(1)]、循环相关结构(TOEP)、一阶前依赖结构[ANTE(1)]模型进行方差分析。Class语句列出所有的分类变量。Model语句根据上文(1)式编写, Model语句后仅需要列出固定效应[4], 注意此与mixed的不同。Rain|N|times表示3个因素的主效应、2级和3级交互作用效应的线性组合。采用KR法对标准误和自由度进行修正[16]。random_residual_语句相当于mixed模型中的repeated语句[5]。选项type指定协方差结构类型。选项sub指定数据集中的受试对象(subject), 本例中为土柱(core), 即小区, 若为单因素试验, 直接指定对象名称; 若为多因素试验, 则在对象名称后加因素名称, 并加“()”。ods output语句输出模型拟合信息fitstatistics。程序(9)建立宏rename, 对数据集中已有变量名value更名, 否则原有数据列value的数据会被覆盖[17]。程序(10)对不同协方差结构拟合参数进行合并, 以便程序(11)输出拟合结果, 为挑选最佳协方差结构提供依据。

对于田间试验, SAS代码与上述类似, 现就VC结构的代码列出如右上:

proc glimmix data=bijie; /*(12)*/

class rate block plot time;

model y=rate|time /ddfm = kr;

random _residual_/type=VC sub=plot;

run;

这里, rate为生物炭用量, block为区组, plot为小区, 即试验对象, time为取样时间。由于本田间试验取样时间间隔不相等, 对于SP(POW)协方差结构, 需要计算时间间隔变量, 本列以天数days表示, 并增加语句 “random _residual_/type=SP(POW)(days) sub=plot;”。对于需要增加random语句的协方差结构, 包括SP(POW)、ANTE(1)、AR(1)+RE、TOEP, random语句写法为“random plot block block*time;”。

1.5 方差分析和均值比较

挑选出最恰当的协方差结构后, 就可以运用GLIMMIX进行方差分析和均值比较了。土柱试验以一阶前依赖结构ANTE(1)模型为例进行说明, 参考SAS程序如下。

SAS程序II SAS program II

同SAS程序I(1) /* (1) */

ods RTF;

ods graphics on;

proc glimmix data=totalN; /* (2) */

class Rain N Block Core Times;

model y=Rain|N|times /ddfm = kr;

random Block Core(Rain N);

random _residual_/type=ANTE(1) sub=Core(Rain N);

lsmeans Rain N Times Rain*N Rain*Times N*times Rain*N*times/diff; /*(3) */

lsmestimate N*times "N1 vs N2 at times6" 1 0 0 0 0 0 0 -1; /* (4a) */

lsmestimate N*times "N1 vs N2 at times6" [1,1 1] [-1,2 1]; /* (4b) */

lsmestimate N*times "N2 in times6 vs times8" [1,2 1] [-1,2 3]; /* (5) */

lsmestimate N*times "N1 at times7 vs N2 at times9" [1,1 2] [-1,2 4]; /* (6) */

lsmestimate times "times8 vs times10" [1,3] [-1,5]; /* (7) */

lsmestimate N "N1 vs N2 " [1,1] [-1,2] ; /* (8) */

lsmeans N*times/plot=meanplot(sliceby=N join cl);/* (9) */

nloptions tech=nrridg;

run;

ods graphics off;

ods RTF close;

程序说明: 程序的开始部分读入数据, 代码同上文的程序I (1), 读者可拷贝粘贴。程序(2)以一阶前依赖协方差结构ANTE(1)模型进行F检验, 代码基本上同程序I (8)。输出结果主要包括拟合情况和F检验结果(表4)。语句(3)输出所有因子主效应及交互作用最小二乘均值及其差值的t检验结果, 由于输出内容庞大, 本例为83页文档, 许多内容我们不用关注。为了减少篇幅, 突出重点, 建议将该语句注释掉。利用特定的lsmestimate语句进行均值比较。用法可参阅文献[5]、文献[18]和查阅SAS帮助文档和文献[4]。

Table 4
表4
表4F检验结果(III型, ANTE1, 土柱试验)
Table 4Output of F test (type III, ANTE1, soil column experiment)
效应
Effect
分子自由度
Numerator DF
分母自由度
Denominator DF
F
F-value
P
P-value
Rain228.6230.49<0.0001
N228.6222.89<0.0001
Rain*N428.621.340.2806
Times629.4036.54<0.0001
Rain*Times1239.270.900.5509
N*Times1239.274.210.0003
Rain*N*Times2447.730.480.9725

新窗口打开|下载CSV

语句(4)检验第6次淋洗N1与N2处理全N淋失量差异显著性, 即进行特定时间两处理水平间的比较。语句(4a)和(4b)作用完全相同, 前者采用传统的定位式(positional)写法, 较为复杂; 后者采用新式的非定位式(non-positional)写法[18], 更为简单, 读者可以任选其一。语句(5)检验N2处理第6次淋洗与第8次淋洗全N淋失量差异显著性, 即特定处理随时间的变化差异; 语句(6)检验N1处理第7次淋洗与N2处理第9次淋洗全氮淋失量差异显著性, 即两处理水平在各特定时间点的差异, 由此可以找出最优处理组合; 语句(7)检验3种氮水平处理平均全氮淋失量, 第8次淋洗与第10次淋洗的差异显著性, 即所有处理平均随时间的变化差异是否显著; 语句(8)检验N1与N2在所有时间点平均, 全氮淋失量的差异显著性, 即两处理水平在所有时间点平均的差异, 输出结果见表5。读者可以根据需要, 进行其他处理组合间的差异显著性检验。

Table 5
表5
表5处理均值两两比较示例
Table 5Examples of mean comparisons between treatment means
语句#
Code #
处理组合
Treatment
差值
Difference
标准误
SE
自由度
DF
t
t-value
Pr > |t|
(4a)(1)定位法Positional8.054.3217.851.870.0786
(4b)(1)非定位法Non-positional8.054.3217.851.870.0786
(5)(2)10.943.1920.363.430.0026
(6)(3)6.381.7333.373.700.0008
(7)(4)0.940.6031.511.580.1248
(8)(5)1.780.7728.622.310.0285
#见SAS程序II; 处理组合见前“1.2 分析比较”。
# Refer to SAS program II; Refer to “1.2 analysis and comparison” previously for the treatments.

新窗口打开|下载CSV

语句(9)以淋洗次数times为横坐标, 总氮淋失量为纵坐标, 输出类似图1的折线图。“sliceby=N”表示按N水平进行分类。Join将各点连成线。cl表示输出95%的置信区间(confident interval)。图1中误差线为标准误, 该语句输出的误差线为95%置信区间。NLOPTIONS语句是为了将 PROC GLIMMIX 的优化技术设置为与mixed 程序(Newton-Raphson算法)相同的技术[5]

田间试验由于处理组合较少, 我们可以所有处理组合均值的差异输出, 不需要lsmestimate, 以VC结构为例, 仅需要在代码(12)的run之前增加如下语句:

lsmeans rate Time rate*Time/diff;

lsmeans rate*time/plot=meanplot(sliceby=rate join);

nloptions tech=nrridg;

由于采用极大似然分析, 缺区时自动按不等重复进行, 如本例中的缺区处理按2个重复进行计算, 代码不需要改动。

2 结果与分析

2.1 不同协方差结构模型引起的F检验结果差异

SAS程序I输出了F检验结果, 表2是对土柱试验数据7种协方差结构模型F检验结果的汇总。可以看出, 协方差结构模型对F检验的结果影响较大。降雨强度与施肥方式之间的交互作用(Rain*N)虽然P值都大于0.05, 但差异较大, 最低的为0.2375, 最高的为0.3161, 相差33.09%。降雨强度与淋洗次数之间的交互作用效应(Rain*Times) UN和ANTE(1)不显著, 而其余4种模型显示极显著。因此, 选用恰当的协方差结构模型进行F检验很关键, 否则有可能得出错误的结论。

Table 2
表2
表2采用不同协方差结构模型时F检验P值(III型检验)
Table 2P-value for F test with various covariance structures (III)
效应
Effect
方差分量
VC
复合对称
CS
不规则
UN
空间幂相关
SP
一阶自回归AR(1)循环相关
TOEP
一阶前依赖ANTE(1)
Rain<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001
N<0.0001<0.0001<0.0001<0.0001<0.00010.0001<0.0001
Rain*N0.23750.26090.28090.30230.30230.31610.2822
Times<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001
Rain*Times0.00330.00380.61670.00590.00590.01720.5533
N*Times<0.0001<0.00010.0017<0.0001<0.0001<0.00010.0003
Rain*N*Times0.85260.85370.94570.85840.85840.92250.9727
VC: variance components; CS: compound symmetry; UN: unstructured; SP: space power; AR(1): autoregressive(1); TOEP: toeplitz; ANTE(1): ante-dependence.

新窗口打开|下载CSV

2.2 协方差结构模型的优选

根据统计学理论, 选用协方差结构模型时, 可参考赤池信息准则(akaike information criterion, AIC)、为小样本修正的赤池信息准则(akaike information corrected criterion, AICC)、修正的赤池信息准则(corrected akaike information criterion, CAIC)、贝叶斯信息准则(bayesian information criterion, BIC)、汉南-奎因信息准则(hannan-quinn information criterion, HQIC)、-2残差对数似然值准则(-2 res log likelihood, -2logL)[1,4-5,15,17]等, 值越小表示拟合性越好, 如果相近, 可通过χ2检验[17]并结合试验本身的特点进行判断。另外, 协方差结构模型需要估算的参数个数越少越好。从表3可以看出, 土柱试验UN和ANTE(1)模型各准则值明显低于其余5种协方差模型的值, 应优先考虑。UN模型协方差矩阵中需要估算的参数个数在所有模型中最多, 为n(n-1)/2, n为重复测量次数, 计算时可能无法收敛, 估算无法完成[5]。本例中n=7, 参数个数为21个; ANTE(1)模型需要估算的参数为2n-1, 本例中为15。综合考虑, 选用ANTE(1)模型进行F检验和均值比较。

Table 3
表3
表3不同协方差结构模型拟合性(土柱试验)
Table 3Model fit statistics with various covariance structures (soil column experiment)
准则
Criteria
方差分量
VC
复合对称
CS
不规则
UN
空间幂相关
SP
一阶自回归AR(1)循环相关
TOEP
一阶前依赖ANTE(1)
-2logL790.7790.7638.5790.4790.4677.0790.7
AIC792.7794.7694.5794.4794.4703.0792.7
AICC792.7794.8711.3794.5794.5706.3792.7
BIC794.0797.2730.8797.0792.6691.3794.0
CAIC795.0799.2758.8799.0794.6704.3795.0
HQIC793.0795.4705.3795.2790.8679.5793.0
-2logL: -2残差对数似然; AIC: 赤池信息准则; AICC: 小样本修正的赤池信息准则; CAIC: 修正的赤池信息准则; BIC: 贝叶斯信息准则; HQIC: 汉南-奎因信息准则。
VC: variance components; CS: compound symmetry; UN: unstructured; SP: space power; AR(1): autoregressive(1); TOEP: toeplitz; ANTE(1): ante-dependence; -2logL: -2 res log likelihood; AIC: akaike information criterion; AICC: akaike information corrected criterion; CAIC: corrected akaike information criterion; BIC: bayesian information criterion; HQIC: hannan-quinn information criterion.

新窗口打开|下载CSV

田间试验结果显示, UN结构无法收敛, 无法计算拟合参数, 其余6种协方差结构模型均收敛。综合比较, VC结构模型最合适。

2.3 F检验结果

选用ANTE(1)模型并运用GLIMMIX对土柱试验数据进行F检验(SAS程序II), 结果见表4。可以看出, 区组间无显著差异。降雨强度(Rain)、施肥方式(N)和淋洗次数(Times) 3级交互作用(Rain*N* Times)效果不显著。二级交互作用效果降雨强度与施肥方式、降雨强度与淋洗次数不显著。施肥方式与淋洗次数之间的交互作用效果极显著(P<0.001), 主效应降雨强度、施肥方式、淋洗次数不同水平间差异达极显著水平(P<0.001), 因此有必须进一步分析。

田间试验的F检验结果显示, 生物炭用量、取样时间以及他们的交互作用均达到极其显著水准(P<0.01)。

2.4 处理组合均值比较结果

根据F检验结果, 土柱试验数据仅仅需要对效应显著的均值进行显著性检验, 但为了让读者全面掌握重复测量数据均值比较的方法, 下面针对“1.2 分析比较”所提出的5种情况进行说明。表5是SAS程序II输出的结果汇总。可以看出, 5种比较都能进行。语句(4a)和(4b)所得结果完全一致, 说明采用传统的定位句法和新式的非定位句法[18]能达到同样的效果, 但后者不需要用“0”占位, 更直观简洁, 书写更方便, 尤其是一些比较复杂的比较[18], 因此建议使用新式的非定位句法。

表2可以看出, 第6次淋洗时, N2比N1的总氮淋失量低8.05 g (图1), 接近5%差异显著水准(P = 0.078), 此为特定时间(第6次淋洗)两处理水平(N1 vs. N2)间的比较; 语句(5)输出的结果表明, N2处理总N淋失量第6次比第8次淋洗高10.94 g, 差异达1%极显著水平(P = 0.0025), 我们还可以检验第6次与第8、9、10、11、12次淋洗的差异显著性, 也可以对其他时间进行差异显著性比较, 确定总N淋失量随时间的变化规律。语句(6)输出的结果表明, N1第7次淋洗比N2处理第9次淋洗全氮淋失量多6.38 g氮(表5图1), 差异极显著(P = 0.0008)。可以继续进行两处理水平在各特定时间点的差异比较, 找出最优处理组合。

语句(7)输出结果表明, 3种氮水平平均全氮淋失量第8次与第10次淋洗相差0.94 g, 未达到5%差异显著水平。由于N*Times交互作用效果显著, 这种比较并不合适, 此处仅仅用来说明方法。语句(8)输出的结果表明, 所有淋洗平均全氮淋失量N2比N1处理低1.78 g, 差异达5%显著水平。同样原因, 这种比较在此例中不合适, 仅用于方法说明。田间试验均值间比较思路类似, 不再赘述。

3 讨论

3.1 混合效应模型

固定效应是研究几个样本是否来自于同一个总体的推断。随机效应是由2个或多个总体分别抽出的几个样本, 用这些样本去研究总体是不是相同的推断。如果一个模型中既包括固定效应, 又包括随机效应, 为混合效应模型[5]。本研究中, 3种降雨强度、3种施肥处理、不同测定时间以及它们的交互作用均为固定效应。区组为随机效应。重复测量中的受试对象(小区)是总体中的样本, 拟通过比较这些样本经过不同处理后重复测量的效应, 以便推论到其所代表的总体中去, 因此重复测量中受试对象效应为随机效应。

对象变异包括对象内变异和对象间变异, 重复测量试验不同对象间一般是相互独立的, 但对同一对象不同时间点的测定几乎总存在相关性, 间隔越近相关性越强, 因此, 重复测量不满足一般线性模型方差分析对变量独立性的要求。混合模型既考虑了固定效应, 也考虑了随机效应, 对于重复测量数据, 通过预先指定协方差结构模型, 能够很好地进行重复测量数据的统计分析[3-5,15], 此在本例中也得到了验证。

除了用GLIMMIX进行重复测量的数据分析外, 也可以用mixed程序进行。前者是SAS公司后来开发的程序, 比mixed功能更强大, 例如, 能直接输出类似图1的图; 进行均值比较时, 编写代码更简单[5]

3.2 用于重复测量方差分析的协方差结构模型

选用适当的协方差结构模型对于重复测量数据的统计分析至关重要。忽视重复测量数据间的相关性而采用过于简单的协方差模型, 会导致标准误偏低, 处理效应会犯I型错误; 而模型过于复杂, 检验效能会受到严重影响[1,3,19]。早已有研究表明, 重复测量分析结果会因协方差模型选择不当而严重受损[19]。尽管特定数据集的真实协方差结构鲜为人知, 但必须指定接近的协方差模型才能获得可靠的结果。Guerin等[20]的研究表明, 只要选择合适的协方差结构, 采用混合模型进行重复测量的统计分析总能得到正确的结果。

SAS软件提供了30多种协方差结构模型[4], 读者可以根据需要选用。本例通过方差分量结构(VC)等7种结构进行模拟。VC又称简单方差结构, 他假定同一对象各时间点重复测量值相互独立, 在协方差矩阵中主对角线元素均为σ2, 其他为0 (图2), 该结构仅有一个参数σ需要估算[5]。然而, 这种情况在重复测量试验中极少出现。

图2

新窗口打开|下载原图ZIP|生成PPT
图2方差分量结构

Fig. 2Variance components



复合对称结构(compound symmetry, CS)主对角线元素为σd2+σe2, 其他为σd, 这里σd为对象间方差, σe为对象内方差, 需要对这2个参数进行估计。对于重复测量数据, 这是最简单的方差结构。它假定不同重复测量点数据之间具有恒定的相关性, 与重复测量点之间的距离无关。过去, 我们对重复测量试验数据进行球型检验(H-F检验), 如果满足就可以把重复测量因素当成裂区设计来进行方差分析[9,21-22], 实际上就是检验协方差是否与测量距离有关。如果检验未通过, 为了减少犯I类错误的几率, 常常采用校正的方法, 但这些方法的可靠性仍然不高, 更可靠的办法是采用恰当的协方差结构, 按照一般线性混合模型的方法进行分析。在重复测量农业试验中, 能满足复合对称结构条件的情况不多, 除非重复测量之间的时间距离特别长, 影响可以忽略不计。

一阶前依赖结构[ANTE(1)]允许不同重复测量点间的方差不同, 以及不同测量点对之间相关性和协方差不等。此很符合本研究的实际情况, 在所有协方差结构模型中, 该模型最优(表3), 进一步证实了该模型的实用性。使用ANTE(1)时, 测量点必需要按先后顺序正确排列, 但各测量点之间时间间隔不必相等。这也很符合一般作物类试验的实际情况。本研究中对不规则(UN)、空间幂相关[SP(POW)]、一阶自回归[AR(1)]、循环相关(TOEP)等协方差结构模型进行了尝试, 限于篇幅, 此处不进行深入讨论。有兴趣的读者请参阅文献[1]、[5]、[15]和[19]。

选择协方差结构模型时, 首先应排除明显无意义的协方差结构。如田间试验中, 同一小区不同时间重复测量数据一般具有相关性, VC模型不合适, 应排除。对于时间间隔不等的情况, AR(1)结构肯定不合适[1]。下一步, 可以以时间间隔为横坐标, 以对象内协方差为纵坐标作图, 考察协方差的变化规律, 初步判定合适的协方差结构。最后, 查看如表3所示的拟合性信息, 必要时进行卡方检验, 确定最合适的协方差结构。

3.3 与裂区设计方差分析或多变量方差分析的比较

在进行重复测量数据的统计分析时, 许多教材和学术论文中主要采用以下4种方法。(1)在各时间点分别进行F检验和均值比较, 该方法孤立地看待各时点的数据, 完全忽视了时间因素, 没有充分利用观察对象在不同观察时点间的内在联系, 无法发现随时间变化的趋势。在农业类等已发表的论文中非常普遍[11,23-25], 是对信息资源的极大浪费[26]。(2)裂区设计分析法, 把重复测量因子作为副区因子, 把不同时间点视为副处理水平进行分析[3,9,12], 该方法需要满足球对称条件[21,22], 即满足复合对称协方差结构的条件。在农业试验中, 协方差会随时间间隔的大小发生变化, 条件很难满足, 采用此方法会增大犯 I 类错误的概率[1,4-5,12,27]。虽然可以进行校正, 但结果往往不理想, 甚至会得出错误的结论[13], 且该方法没有触及协方差不等的实质, 而是对问题进行了回避, 没有从根本上解决问题[3,15]。(3)多变量统计分析法, 该方法对重复测定各时间点的相关性要求不高, 仅要求每对时点间的相关性唯一, 但采用该方法分析重复测量数据会浪费大量信息, 损失统计功效。另外, 如果受试对象即使只有一个时间点的数据缺失(此在农学类试验中常常出现), 也必须删除该对象的全部数据, 造成信息的不完整[8,15], 该方法也是回避了不同时间点数据有相关性的问题, 不是一个理想的方法[13]。(4)混合模型(mixed)分析法, 该方法直接处理重复测量中数据的相关性问题[5], 允许不同时间点数据存在相关性, 不必对自由度进行校正, 可以处理缺值问题, 允许时间点不等距[4,11,28], 完全符合重复测量试验的特点, 是一种理想的方法。通过事先指定一个恰当的协方差结构, 根据此结构计算各处理水平的最小二乘均值及其差值。协方差结构不同, 均值和标准误计算结果也不同, 尤其是对非平衡设计[29]

广义线性混合模型(GLIMMIX)是近年来SAS在mixed模型的基础上开发的程序模块, 是对mixed的扩展和改善, 均值间比较的句法更简单, 能很方便的输出图形等[5], 正如本例所示, 是目前进行重复测量数据统计分析的有力工具, 为重复测量数据分析提供了极大方便。

4 结论

重复测量试验对同一对象进行多次观测, 各数据点之间存在自相关性。用传统的裂区设计、多变量方差分析会造成数据的信息浪费、统计功效降低、缺区无法处理等问题, 甚至会导致错误的结论。广义线性混合模型GLIMMIX能很好地处理相关性问题, 功能强大, 结构可靠性高, 使用简单, 允许缺区, 是进行重复测量试验数据方差分析和均值比较理想的方法, 值得推广运用。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

Wang Z, Goonewardene L A. The use of MIXED models in the analysis of animal experiments with repeated measures data
Can J Animal Sci, 2004,84:1-11.

[本文引用: 7]

Kaps M, Lamberson W. Biostatistics for Animal Science, 3rd edn
Wallingford: CABI Publishing, 2017. pp 365-380.

[本文引用: 2]

Littell R C, Henry P R, Ammerman C B. Statistical analysis of repeated measures data using sas procedures
J Animal Sci, 1998,76:1216-1231.

[本文引用: 6]

SAS Institute. SAS Technique Support
Cary, NC, USA: SAS Institute Inc., 2020. [2020-05-02]. http://support.sas.com/techsup/.

URL [本文引用: 9]

Littell R C, Milliken G A, Stroup W W, Wolfinger R D, Schabenberger O. SAS for Mixed Models, 2nd edn
Cary, NC, USA: SAS Institute Inc., 2006. pp 159-202.

[本文引用: 15]

Yossa R, Verdegem M. Misuse of multiple comparison tests and underuse of contrast procedures in aquaculture publications
Aquaculture, 2015,437:344-350.

[本文引用: 2]

王琪, 胡良平, 高辉. 如何用SAS软件正确分析生物医学科研资料: XV. 用SAS软件实现具有一个重复测量的两因素和具有两个重复测量的两因素设计定量资料的统计分析
中国医药生物技术, 2012,7(1):74-77.

[本文引用: 1]

Wang Q, Hu L P, Gao H. How to use SAS software to correctly analyze data of biomedical study: XV. Statistical analysis of quantitative data with one or two factors of repeated measure
Chin Med Biotechnol, 2012,7(1):74-77 (in Chinese).

[本文引用: 1]

周倩, 张晋昕. 含缺失值的重复测量资料分析在SPSS和SAS中的实现
循证医学, 2013,13(2):120-123.

[本文引用: 2]

Zhou Q, Zhang J X. Data analysis for repeated measurements with missing values in SPSS and SAS.
[J] Evidence-Based Med, 2013,13(2):120-123 (in Chinese with English abstract).

[本文引用: 2]

冯跃华, 韩钢钢, 赵田径, 董爱玲, 邹应斌, 敖和军. 单因素随机区组试验中重复测量数据分析及其SAS实现方法
安徽农业科学, 2007,35:11730-11732.

[本文引用: 3]

Feng Y H, Han G G, Zhao T J, Dong A L, Zou Y B, Ao H J. Analysis of repeated measure data and its implementations of SAS in single-factor randomized complete block design
J Anhui Agric Sci, 2007,35:11730-11732 (in Chinese with English abstract).

[本文引用: 3]

张军锋, 董海原. 医学论文审稿中常见的统计学错误: 重复测量方法的误用分析
中国药物与临床, 2017,17:1875-1876.

[本文引用: 1]

Zhang J F, Dong H Y. Common statistical errors in medical papers: Mis-use of repeated measure method
Chin Remedies Clinics, 2017,17:1875-1876 (in Chinese).

[本文引用: 1]

施红英, 沈毅. 混合模型在临床试验重复测量资料中的应用
中国卫生统计, 2007,24(2):140-142.

[本文引用: 3]

Shi H Y, Shen Y. Mixed model applications to the analysis of repeated measures data in clinical trials
Chin Health Statistics, 2007,24(2):140-142 (in Chinese).

[本文引用: 3]

余松林, 向慧云. 重复测量资料分析方法与SAS程序. 北京: 科学出版社, 2004. pp 1-252.
[本文引用: 3]

Yu S L, Xiang H Y. The Analyse Method and SAS Procudures for Repeated Measure. Beijing: Science Press, 2004. pp 1-252(in Chinese).
[本文引用: 3]

SAS Institute. SAS Course Notes on Mixed Model Analysis Using SAS System
Cary, NC, USA: SAS Institute Inc., 2002. pp 120-155.

[本文引用: 3]

HJ 636-2012水质总氮的测定——碱性过硫酸钾消解紫外分光光度法
国家环境保护标准, 2012.

[本文引用: 1]

HJ 636-2012 Water quality—Determination of total nitrogen-Alkaline potassium persulfate digestion UV spectrophotometric method
National Standard for Environmental Protection, 2012 (in Chinese).

[本文引用: 1]

Littell R C, Stroup W W, Freund R J. SAS System for Linear Models, 4th edn
Cary, North Carolina, USA: SAS Institute Inc., 2002. pp 265-304.

[本文引用: 6]

Kenward M G, Roger J H. Small sample inference for fixed effects from restricted maximum likelihood
Biometrics, 1997,53:983-997.

[本文引用: 1]

胡良平, 郭辰仪. 用SAS软件实现具有一个重复测量的单因素设计定量资料的统计分析
药学服务与研究, 2011,11:409-411.

[本文引用: 3]

Hu L P, Guo C Y. Statistical analysis and SAS solutions for quantitative data in single-factor repeated-measurement design
Pharm Care Res, 2011,11:409-411 (in Chinese).

[本文引用: 3]

Kiernan K, Tobias R, Gibbs P, Tao J. Contrast and Estimate Statements Made Easy: The LSMESTIMATE Statement. SAS Global Forum
Cary, North Caroina, USA: SAS Institute Inc., 2011. pp 1-19.

[本文引用: 4]

Wolfinger R D. Heterogeneous variance covariance structures for repeated measures
J Agric Biol Environ Statistics, 1996,1:205-230.

[本文引用: 3]

Guerin L, Stroup W W. A simulation study to evaluate PROC MIXED analysis of repeated measures data
In: Stroup W W eds. Proceedings of the 12th Annual Conference on Applied Statistics in Agriculture. Manhattan, KS: Kansas State University, 2000. pp 170-203.

[本文引用: 1]

Huynh H, Feldt L S. Conditions under which mean square ratios in repeated measurements designs have exact F-distributions
J Am Statistical Assoc, 1970,65:1582-1589.

[本文引用: 2]

Huynh H, Feldt L S. Estimation of the Box correction for degrees of freedom from sample data in the randomized block and split plot designs
J Education Statistics, 1976,1:15-51.

[本文引用: 2]

樊俊, 谭军, 邓建强, 彭五星, 赵秀云, 郑海洲, 朱宗第. 不同地膜的降解性能及对烟株生长和土壤环境的影响
中国烟草科学, 2019,40(4):22-29.

[本文引用: 1]

Fan J, Tan J, Deng J Q, Peng W X, Zhao X Y, Zheng H Z, Zhu Z D. Degradation property of degradable films and their effects on flue-cured tobacco development and soil ecological environment
Chin Tob Sci, 2019,40(4):22-29 (in Chinese with English abstract).

[本文引用: 1]

侯红乾, 林洪鑫, 刘秀梅, 冀建华, 刘益仁, 蓝贤瑾, 吕真真, 周卫军. 长期施肥处理对双季晚稻叶绿素荧光特征及籽粒产量的影响
作物学报, 2020,46:280-289.



Hou H Q, Lin H X, Liu X M, Ji J H, Liu Y R, Lan X J, Lyu Z Z, Zhou W J. Influence of long-term fertilizer application on chlorophyll fluorescence characteristics and grain yield of double cropping late rice
Acta Agron Sin, 2020,46:280-289 (in Chinese with English abstract).



贾国涛, 杨永锋, 杨欣玲, 王宝林, 刘超, 王根发, 申洪涛, 张书伟, 刘向真, 赵森森. 腐熟秸秆对植烟土壤理化性质和酶活性的影响
中国农业科技导报, 2018,20(9):138-145.

[本文引用: 1]

Jia G T, Yang Y F, Yang X L, Wang B L, Liu C, Wang G F, Shen H T, Zhang S W, Liu X Z, Zhao S S. Influence of rotten straw on physical and chemical properties and enzyme activity of soil
J Agric Sci Technol, 2018,20(9):138-145 (in Chinese with English abstract).

[本文引用: 1]

陈峰, 姚晨, 孙高, 任仕泉, 何清波, 苏炳华, 陆守曾. 新药临床试验中重复测量资料的混合效应模型
中国卫生统计, 2000,17(6):373-376.

[本文引用: 1]

Chen F, Yao C, Sun G, Ren S Q, He Q B, Su B H, Lu S Z. Mixed effect model of repeated measurement data in clinical trials of new drugs
Chin J Health Statistics, 2000,17(6):373-376 (in Chinese with English abstract).

[本文引用: 1]

王琪, 胡良平 . 如何用 SAS 软件正确分析生物医学科研资料: XIV. 用SAS软件实现具有一个重复测量的单因素设计定量资料的统计分析
中国医药生物技术, 2011,6(4):313-320.

[本文引用: 1]

Wang Q, Hu L P. How to correctly analyze biomedical research data with SAS software: XIV. Statistical analysis for quantitative data with single factor design and repeated measure by using SAS software
Chin Med Biotechnol, 2011,6(4):313-320 (in Chinese with English abstract).

[本文引用: 1]

王超, 王汝芬, 张淑娴. 混合效应线性模型与单因素方差分析在重复测量数据中的应用比较
数理医药学杂志, 2006,19(4):355-357.

[本文引用: 1]

Wang C, Wang R F, Zhang S X. The application and comparison of mixed effects linear model with single effects of variance in repeated measures data
J Mathematical Med, 2006,19(4):355-357 (in Chinese with English abstract).

[本文引用: 1]

Littell R C, Pendergast J, Natarajan R. Modelling covariance strucutre in the analysis of repeated measures data
Statistics Med, 2000,19:1793-1819.

[本文引用: 1]

相关话题/测量 结构 数据 检验 程序