vue-cli-subapp

【协和医学杂志】实施性研究利益相关方偏好评估——优劣尺度法的应用

14小时前 协和医学杂志 协和医学杂志 发表于陕西省

本文以“糖尿病共享门诊优化试验研究(“SMART”项目)为例,介绍BWS的技术路线、数据采集方式、统计分析方法选择和分析结果的解读及注意事项,以供相关研究者参考。

在实施性研究过程中,评估利益相关者对即将或已经实施的循证实践(EBP)的偏好,可为决策者改进和调整EBP内容[1]、探索实施影响因素[2]、优化实施策略[2],调整研究设计[3]等提供决策依据,进而缩小研究与实践之间的差距、促进EBP的采纳与应用、提高健康服务质量[4]

常用的偏好评估方法包括焦点小组访谈和问卷调查等定性和定量方法[3]。前者因样本量相对较小,使得结果的代表性不足。而过度依赖问卷调查和电子健康记录等定量方法,可能无法充分反映利益相关者在决策时所处的复杂背景,从而无法真实反映其偏好[3]。陈述性偏好(SP)研究可弥补上述方法的不足。SP起源于卫生经济学,具有丰富的理论基础和实证案例[5-6],目前常被用于医疗卫生领域探索利益相关者的偏好[3]。优劣尺度法(BWS)是一种新兴的SP评估方法,具有独特优势。

首先,BWS基于随机效用理论,通过分析利益相关者选择最重要(最喜欢)和最不重要(最不喜欢)的选项获取其偏好[5],从而有效避免了传统评分法常见的中间响应(即选择中立或中间选项)问题[3],提高了响应的区分度和质量。

其次,BWS可在相同尺度上评估其他组分和/或水平受利益相关者的重视程度[5]

再次,BWS分析结果中变量系数的正负和大小反应了利益相关者的偏好及强度,这些信息为决策者提供详细的偏好结构,有助于制订更为合适的干预策略。

最后,与相对成熟且应用广泛的离散选择试验(DCE)相比,BWS的偏好评估结果与其相当,且能够获取更丰富的偏好信息[5]

尽管目前两种方法在受访者负担方面存在争议,但BWS在信息丰富程度、基于相同尺度上评估偏好以及更清晰地比较各组分和/或水平受利益相关者的重视程度等方面具有明显优势[7]

为帮助研究者在实施性研究中有效应用BWS,本文以“糖尿病共享门诊优化试验研究(“SMART”项目)为例,介绍BWS的技术路线、数据采集方式、统计分析方法选择和分析结果的解读及注意事项,以供相关研究者参考。

1 BWS中常用偏好评估术语

对于首次接触BWS的研究者而言,相关术语可能较为陌生。为此,笔者总结其相关概念并提供相应示例,以帮助研究者理解并掌握此方法。BWS分为三种类型:BWS-1(对象型:object case)、BWS-2(组合型:profile case)和BWS-3(多重组合型:multi-profile case),不同类型的BWS在研究特征的深度上有所不同。

BWS-1仅关注组分(研究对象的不同特征),不涉及其水平(组分的具体取值);BWS-2和BWS-3涉及组分及其水平的组合,且BWS-3进一步将各组合形成更为复杂的选择集供受访者选择,详见表1。

表1 BWS常用术语及应用示例

图片

图片

图片

图片

在研究设计方面,3种类型均可采用“全因子设计”和“部分因子设计”的“正交设计”等方法构建选择集,但BWS-1独有“平衡不完全区组设计(BIBD)”,从而保证问卷中组分的平衡性。此外,不同类型BWS选择集的情景数量不同,BWS-1和BWS-2的1个选择集仅包含1个情景,而BWS-3的1个选择集至少包含3个情景。

在数据分析方面,BWS特有“计数分析”“配对模型”“边际模型”和“边际序列模型”,其中“计数分析”可直接计算各组分和/或水平受利益相关者的重视程度,但不涉及统计推断内容。其他3种方法均为相对复杂的模型分析,需根据利益相关者填写问卷的方式选择对应的模型。此外,当纳入的组分中包含连续性变量(如收入),研究者可通过计算“支付意愿以衡量利益相关者愿意为某个组分支付或放弃的金额,从而反映其对各组分的货币价值评估。

2 基于BWS的偏好评估案例

2.1 案例背景

糖尿病患者数量在全球呈不断上涨趋势[16]。大多数2型糖尿病(T2DM)患者通过基层医疗卫生服务机构获取临床诊疗与健康管理服务[17],但其防治一直面临医防断链的问题。SMART项目是基于慢性病护理模式(CCM)提出的医防融合诊疗模式[18]。该模式改善T2DM患者的健康结局已在发达国家和地区得到验证[19]。既往开展的共享门诊(SMA)服务是1个包含多个组分的复杂干预包,大多由多学科医疗团队同时为1组病情相似的患者提供诊疗、健康管理、健康教育和心理调适服务。此模式的人力资源需求较高,当应用至资源匮乏地区时,还需对其服务包进行适应性优化[20]

研究者于2023年6月至2024年1月在贵州省遵义和铜仁两地随机选取12家基层医疗卫生服务机构开展SMART项目,探索参加SMART项目的服务提供方对SMA组成要素的偏好,为后续优化试验SMA组分的选取提供依据。该研究已通过贵州医科大学伦理委员会审批[批件号2023伦审第 (4) 号],对受访者进行问卷调查前,征得其知情同意。

2.2 技术路线

BWS的应用包含6个步骤(图1):确定组分和水平;确定BWS类型;确定试验设计;生成问卷并开展预实验;现场调查;数据整理与分析。

图片

图1 采用BWS开展偏好评估的步骤

BWS:同表1;SMA:共享门诊

2.2.1 确定组分和水平

在BWS研究中,确定组分和水平是关键步骤。研究者可通过文献回顾、专家咨询、利益相关者访谈等方式,获取受访者关心、与研究主题紧密相关且符合实际情况的组分及水平信息清单[21]。对于组分数量,一般10个左右,以平衡信度和操作难度[22]。水平数通常为2~4个,且应合理设置间距[23]。本研究通过文献回顾和专家咨询确定6个组分,每个组分包含2个水平,详见表2。

表2 SMA组分及其水平设置

图片

2.2.2 确定BWS类型

不同类型的BWS适用研究场景不同[24]。本研究关注的组分均具有不同的水平,因此可采用BWS-2和BWS-3进行偏好评估,前者对于受访者的认知负担相对较小,且分析方法相对简单,故本研究采用BWS-2作为偏好评估方法。

2.2.3 确定设计类型

因组分数量>3个,若使用全因子设计可生成大量选择集(26=64),给受访者带来较大的问卷填写负担[25]。为减少选择集数量,本研究使用R语言‘support. BWS2’包提供的部分因子设计——正交设计构建了BWS-2的8个选择集[15],其中1个选择集示例见图2。

图片

图2 SMART项目中BWS-2调查问卷示例

2.2.4 生成问卷并开展预实验

通过对与目标研究人群特征相似的对象进行预调查,研究者可获得反馈信息,并据此优化调查问卷[26]。本研究对5名医务人员进行问卷调查,以优化问卷中虚拟情景的描述方式,突出情景中的关键信息,确保问卷更加清晰,以供受访者快速了解情景内容,提高数据收集质量。

2.2.5 问卷发放与收集

目前尚缺乏BWS调查所需样本量的一般依据,根据既往文献综述结果,不同类型的BWS样本量不同,采用BWS-1时,常见样本量为15~803,中位数为175;BWS-2为16~1296,中位数为162;BWS-3为53~898,中位数为326[27]。在SMART项目试点机构中,33名提供SMA服务的医疗服务人员均被纳入BWS-2调查,该调查人数不低于现有研究的最小样本量。本研究采用“研究电子数据捕获(REDcap)”[28]设计电子调查问卷并采集数据,受访者需在电子调查问卷展示的8个选择集中完成8次自己最喜欢和最不喜欢的选择。

2.2.6 数据整理和分析

首先,本研究参照R包‘support. BWS2’对数据进行整理,采用计数分析计算BWi=Bi-Wi和standardized BWi=BWi/Nr,初步获取受访者对各组分和水平的偏好情况,为后续条件Logistic模型分析的参照组分和水平提供选择依据[29]。其次,基于受访者的问卷填写方式和其他学者的数据分析方法,选择配对模型作为统计模型[15],则从选择集中选出水平为最佳和水平j为最差(ij)的概率用条件Logistic模型表示为:

公式1:

图片

基于条件Logistic模型,具有两种分析方法(模型1和模型2),具体如下:

(1) 模型1为基于组分和水平的条件Logistic模型,本研究以各组分的2个水平被选为最不喜欢次数合计最多者和6个组分的水平2为参照(即参照组分和参照水平),分别计算受访者对各组分和水平的相对偏好(即效用值,β值)。效用函数(v)(公式2)中 βx 表示某一组分的效用值,Dx 表示组分Xβxi 表示组分X中水平i的效用值,Dxi表示X组分的i水平。

公式2:

图片

(2) 模型2为基于水平的条件Logistic模型,以参照组分中受访者最不喜欢的水平为参照,计算其他水平被受访者重视的程度[15],效用函数(v)如公式3所示。

公式 3:

图片

目前尚无研究对BWS-2的两种数据分析方法进行比较,为更全面地向研究者展示BWS的分析方法,本研究将进一步展示两种分析所得结果,以供后续开展相关研究的人员参考。

2.3 结果及其解读

2.3.1 计数分析结果

计数分析结果如表3和图3所示,通过standardized BWi展示医疗服务提供者对SMA服务内容和方式的偏好:医防共同提供服务(0.288)>线下健康教育课程(0.265)>医防服务同时开展(0.152)>无固定医防服务频率(0.083)>无固定健康教育课程频率(-0.015)>医防分开提供服务(-0.030)>患者独自1人就诊(-0.053)>线上健康教育课程(-0.068)>1次/月的医防服务(-0.076)>有亲友陪同(-0.106)=患者以小组就诊(-0.106)>无亲友陪同(-0.333)。

表3 SMART项目服务提供方选择最佳和最差的计数分析结果

图片

图片

图3 SMART组分水平的标准化差值图

组分“是否有亲友陪同就诊”的2个水平被选为最不重要的次数合计最多(68),水平“无亲友陪同”被选为最不重要的次数最多(46)。因此,将“是否有亲友陪同”作为参照组分,“无亲友陪同”作为参照水平,进而采用条件Logistic模型估计其他组分和/或水平的相对效用值。

2.3.2 条件Logistic模型分析结果

2.3.2.1 基于组分和水平的条件Logistic模型

组分和水平的数据分析结果(表 4)采用两级解读方法。第一步,先评估各组分相对于参照组分的受关注程度;第二步,在每个组分内部,分析不同水平相对于参照水平的偏好程度。这两步分析逐步揭示了受访者对研究不同特征及其具体取值的偏好。

表4 组分和水平配对的条件 Logistic 回归结果

图片

将组分“是否有亲友陪同就诊”作为参照,医疗服务提供者对不同组分的偏好(效用值 β)排序为:医防服务方式(0.941)>健康教育课程形式(0.862)>健康教育课程频率(0.788)>医防服务频率(0.603)>患者就诊方式(0.360)>是否有亲友陪同就诊(参照),相对于参照组分,其他组分的 β 值差异均具有统计学意义(P<0.05)。

将各组分的水平2作为参照后,各组分的水平1被受访者重视的程度分别为:医疗服务提供者更倾向于临床和公卫医生共同提供服务(βA1=0.519),采用面对面形式进行健康教育(βC1=-0.551),在就诊当天对患者进行健康教育(即医防服务同频)(βD1=0.284),患者根据自身意愿或时间安排就诊(βB1=-0.270),患者独自1人就诊(βE1=-0.079),且更倾向于患者有亲友陪同(βF1=0.367),除患者以小组形式就诊外,其余水平的 β 值差异均具有统计学意义(P<0.05)。

在医疗服务提供者看来,理想的SMA方式体现了临床与公共卫生人员的紧密合作,并倾向于以面对面的方式同时提供诊疗和健康宣教,鼓励患者根据自身健康状况和时间安排,自主选择就诊频率和方式,且整个过程可有家属陪同。

2.3.2.2 基于水平的条件Logistic模型

以“无亲友陪同”作为参照水平,估计其他水平的效用值(表5)。

表5 水平配对的条件Logistic回归结果

图片

根据β值排序,医疗服务提供者偏好的SMA服务内容和方式为:医防共同提供服务(1.828)>线下健康教育课程(1.781)>医防服务同时开展(1.440)>无固定医防频率(1.240)>无固定健康教育课程频率(0.871)>患者独自1人就诊(0.807)>医防分开提供服务(0.789)>有亲友陪同(0.734)>1次/月的医防服务(0.700)>线上健康教育课程(0.678)>患者以小组就诊(0.648)>无亲友陪同(参照),相对于参照水平,其他水平的β值差异均具有统计学意义(P<0.05)。

因此,医疗服务提供者最为偏好的SMA服务为:临床与公共卫生人员紧密合作,倾向于以面对面的方式同时为1例或1组患者提供诊疗和健康宣教,鼓励患者根据自身健康状况和时间安排,自主安排就诊频率和方式,且整个过程可有家属陪同。此外,也接受医防分开提供服务,固定医防服务频率及线上健康教育课程。因这些替代方式的效用值>0,对其自身工作产生的影响不大,且仍能够满足患者需求。

2.3.2.3 BWS-2数据分析模型的比较

尽管BWS-2的2种数据分析模型结果在β值上存在差异,但依据分析结果构建的SMA服务包的组成形式是一致的,这与Aizaki等[15]的研究结果相符。原因可能在于该研究旨在构建有效的干预包,而干预包是从研究特征要素(组分)中选取适宜的水平组合而成。

在基于组分和水平配对的条件Logistic模型中,首先要考虑组分间的偏好,然后分析组分内2个水平的相对偏好,使得研究者可根据受访者对组分的偏好确定干预包的框架,并根据组分内各水平的偏好选择具体层次。而在基于水平配对的条件Logistic模型中,研究者将所有组分的水平展开,选择1个水平作为参照,评估其他水平的相对偏好,这使得研究者可根据最先出现的水平为干预包的组分赋值具体水平,从而制订合适的干预包[30]。因此,两种方法的分析结果可制订出1个相同的适宜干预包。

3 关于BWS需注意的其他问题

3.1 BWi与standardized BWi值的解读

在计数分析结果中,BWi=Bi-Wi与standardized BWi=BWi/Nr 的偏好排序结果一致。但后者通过标准化处理将原始差值(BWi)从绝对数转化为相对数,消除了因不同组分和/或水平出现次数不同而导致的偏差,从而能够在相同尺度上评估不同组分/水平的受欢迎程度。

3.2 亚组分析与潜在类别分析

为更精准地评估不同群体的需求和偏好,可考虑进行亚组分析[31]或潜在类别分析(LCA)[32]。如根据受访者的性别、年龄、教育水平和经济状况等特征进行分组,可评估不同特征人群的偏好,从而设计更具针对性的服务方案。LCA可用于识别和分析样本中潜在的类别或群体[33-34],是一种具有潜在应用价值的分析方式,未来研究将对其效果进行验证。

3.3 BWS方法的局限性

尽管BWS在多个研究领域显示出独特优势,但其应用过程中仍存在一定的局限性。首先,组分和水平的选择是BWS的一个主要挑战,确保组分的独立性和互斥性,以及合理设定水平的间距,是研究的首要和关键步骤。随着组分及水平数量的增加,分析的难度和复杂性也随之上升,模型预测精度也可能降低[7]。其次,BWS的可靠性依赖足够的样本量。尽管Flynn等[5]的研究提出了估算样本量置信区间的方程,但此方法改变了随机变量相对于固定变量效用的大小,因此仍需进一步验证。

目前,可根据既往研究经验确定BWS的样本量。此外,验证BWS的试验设计方法也面临挑战。如采用交叉设计的随机对照试验对同一对象进行2次偏好测量,受访者需先后填写2次问卷,即使考虑洗脱期,也增加受访者的负担。而采用双臂随机对照试验会增加样本量需求,且研究成本较高。最后,关于BWS不同分析方法优缺点的比较研究仍显不足[15]。如基于组分或水平作为参照的分析方法,各自的优势和局限性需在更多的场景中验证。

总体而言,BWS以其独特优势在多个领域得到了广泛应用,但研究者在应用该方法时也应注意其局限性带来的挑战,并结合研究目的和条件,合理应用和发展BWS方法。

参考文献

[1]Williams N J, Candon M, Stewart R E, et al. Community stakeholder preferences for evidence-based practice implementation strategies in behavioral health: a best-worst scaling choice experiment[J]. BMC Psychiatry, 2021, 21(1): 74.

[2]Salloum R G, Bishop J R, Elchynski A L, et al. Best-worst scaling methodology to evaluate constructs of the Consoli-dated Framework for Implementation Research: application to the implementation of pharmacogenetic testing for antidepressant therapy[J]. Implement Sci Commun, 2022, 3(1): 52.

[3]Irie W C, Kerkhoff A, Kim H Y, et al. Using stated preference methods to facilitate knowledge translation in implementation science[J]. Implement Sci Commun, 2024, 5(1): 32.

[4]徐东, 陈江芸, 蔡毅媛. 实施科学的前世今生(上篇):起源与发展[J]. 协和医学杂志, 2024, 15(2): 442-449.

[5]Flynn T N, Louviere J J, Peters T J, et al. Best--worst scaling: What it can do for health care research and how to do it[J]. J Health Econ, 2007, 26(1): 171-189.

[6]Ryan M, Kolstad J R, Rockers P C, et al. How to conduct a discrete choice experiment for health workforce recruitment and retention in remote and rural areas: a user guide with case studies[M]. Geneva: World Health Organization, 2012: 35.

[7]杨惠芝, 王立敏, 李顺平. 离散选择实验和优劣尺度法在医药卫生领域联合使用及比较研究评述[J]. 医学与社会, 2022, 35(5): 102-107.

[8]宋奎勐, 孟庆跃, Scott A, 等. 利用离散选择实验研究卫生服务人员工作偏好的国际研究进展[J]. 中国卫生经济, 2012, 31(10): 91-93.

[9]沈荣蕃, 祁小倩, 杨奇城, 等. 居民新冠疫苗接种意愿及选择接种偏好的优劣尺度法调查分析[J]. 现代养生, 2022, 22(12): 933-935.

[10]Norman R, Moorin R, Maxwell S, et al. Public attitudes on lung cancer screening and radiation risk: a best-worst experiment[J]. Value Health, 2020, 23(4): 495-505.

[11]顾文勇, 蒋明珠, 沈晓, 等. 基于优差测度法的慢性病患者对慢性病医防融合服务的偏好及支付意愿研究[J]. 中国社会医学杂志, 2022, 39(6): 720-724.

[12]Louviere J J, Flynn T N, Marley A A J. Best-worst scaling: Theory, methods and applications[M]. Cambridge: Cambridge University Press, 2015: 83-84.

[13]Severin F, Schmidtke J, Mühlbacher A, et al. Eliciting preferences for priority setting in genetic testing: a pilot study comparing best-worst scaling and discrete-choice experiments[J]. Eur J Hum Genet, 2013, 21(11): 1202-1208.

[14]Aizaki H, Fogarty J. R packages and tutorial for case 1 best-worst scaling[J]. J Choice Model, 2023, 46: 100394.

[15]Aizaki H, Fogarty J. An R package and tutorial for case 2 best-worst scaling[J]. J Choice Model, 2019, 32: 100171.

[16]IDF Diabetes Atlas 10th Edition Scientific Committee. IDF diabetes atlas: Chapter 1 What is diabetes?[M]. 10th ed. Brussels: International Diabetes Federation, 2021.

[17]Shrivastav M, Gibson W, Jr, Shrivastav R, et al. Type 2 diabetes management in primary care: the role of retrospec-tive, professional continuous glucose monitoring[J]. Diabetes Spectr, 2018, 31(3): 279-287.

[18]Yuan B B, Balabanova D, Gao J, et al. Strengthening public health services to achieve universal health coverage in China[J]. BMJ, 2019, 365: l2358.

[19]Naik A G, Staab E, Li J, et al. Factors related to recruitment and retention of patients into diabetes group visits in Federally Qualified Health Centers[J]. J Eval Clin Pract, 2023, 29(1): 146-157.

[20]Cai Y Y, He H, Chen Z, et al. Shared Medical Appoint-ment for diabetes (SMART) in China: design of an optimization trial[EB/OL]. (2024-03-21)[ 2024-09-01]. https://doi.org/10.21203/rs.3.rs-3987350/v1.

[21]刘世蒙, 李顺平, 杨毅, 等. 离散选择实验应用于2型糖尿病患者治疗偏好的文献分析[J]. 中国药房, 2020, 31(20): 2524-2531.

[22]Hollin I L, Paskett J, Schuster A L R, et al. Best-worst scaling and the prioritization of objects in health: a systematic review[J]. Pharmacoeconomics, 2022, 40(9): 883-899.

[23]关丽征, 金岳, 滕菲, 等. 联合分析法在社区卫生服务选择偏好中的应用[J]. 中国全科医学, 2011, 14(16): 1758-1762.

[24]Flynn T N. Valuing citizen and patient preferences in health: recent developments in three types of best-worst scaling[J]. Expert Rev Pharmacoecon Outcomes Res, 2010, 10(3): 259-267.

[25]刘仲琦, 郝春, 顾菁, 等. 离散选择试验中试验设计步骤的实现:基于SAS宏程序的应用[J]. 中国卫生统计, 2018, 35(6): 949-952.

[26]Dobischok S, Metcalfe R, Matzinger E, et al. Measuring the preferences of injectable opioid agonist treatment (iOAT) clients: development of a person-centered scale (best-worst scaling)[J]. Int J Drug Policy, 2023, 112: 103948.

[27]Cheung K L, Wijnen B F M, Hollin I L, et al. Using best-worst scaling to investigate preferences in health care[J]. Pharmacoeconomics, 2016, 34(12): 1195-1209.

[28]Van Bulck L, Wampers M, Moons P. Research electronic data capture (REDCap): tackling data collection, management, storage, and privacy challenges[J]. Eur J Cardiovasc Nurs, 2022, 21(1): 85-91.

[29]Van Dijk J D, Groothuis-Oudshoorn C G M, Marshall D A, et al. An empirical comparison of discrete choice experiment and best-worst scaling to estimate stakeholders' risk tolerance for hip replacement surgery[J]. Value Health, 2016, 19(4): 316-322.

[30]Janse S A, Dumanis S B, Huwig T, et al. Patient and caregiver preferences for the potential benefits and risks of a seizure forecasting device: a best-worst scaling[J]. Epilepsy Behav, 2019, 96: 183-191.

[31]罗楠晟. 基于离散选择实验的公共卫生与预防医学专业硕士研究生就业偏好研究[D]. 沈阳: 中国医科大学, 2023: 16-17.

[32]Cheung K L, Mayer S, Simon J, et al. Comparison of statistical analysis methods for object case best-worst scaling[J]. J Med Econ, 2019, 22(6): 509-515.

[33]Mühlbacher A C, Kaczynski A, Zweifel P, et al. Experimental measurement of preferences in health and healthcare using best-worst scaling: an overview[J]. Health Econ Rev, 2016, 6(1): 2.

[34]Cohen S H. Maximum difference scaling: improved measures of importance and preference for segmentation[R]. Provo, UT: Sawtooth Software Inc., 2003.

你可能还想了解:
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2256109, encodeId=2fef22561093f, content=<a href='/topic/show?id=9a8a125106f7' target=_blank style='color:#2F92EE;'>#优劣尺度法#</a> <a href='/topic/show?id=12df12510e8f' target=_blank style='color:#2F92EE;'>#实施性研究#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=5, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=125106, encryptionId=9a8a125106f7, topicName=优劣尺度法), TopicDto(id=125107, encryptionId=12df12510e8f, topicName=实施性研究)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri Mar 14 18:40:45 CST 2025, time=15小时前, status=1, ipAttribution=陕西省)]