人工智能囊胚形态评估数据集构建与质控专家共识(2024年版)
2024-08-15 生殖医学论坛 生殖医学论坛 发表于上海
本文以囊胚形态AI评估数据集构建、质量控制及评价的具体问题为导向,对数据集质量的表现形式进行解析,对囊胚形态AI评估智能产品相关的数据集构建过程给予示范及引导,旨在引导本领域数据集的科学有序发展。
囊胚形态人工智能(AI)评估是AI医疗器械发展的新兴方向,也是AI在辅助生殖领域的重要应用。AI在新领域应用的起步阶段,数据集的构建与质控对产品质量有重要影响。目前,囊胚形态学AI评估在数据采集、标注、质控等方面尚未形成统一的规范。在参考AI医疗器械、辅助生殖医疗器械现有国家行业标准的基础上,本文以囊胚形态AI评估数据集为主题,对数据集构建与质控要求进行了探讨,对数据集质量特性进行了解析,旨在指导数据集制造责任方加强数据集全生命周期管理,更好地为产品研发、测试、临床试验等环节提供质量保障,助力产业发展。
随着深度学习等新一代人工智能(AI)算法的发展,用于囊胚形态分析的智能医疗器械(独立软件、软件组件等)的研发活动日益活跃,其在辅助生殖医学领域的应用也越来越广泛,产品预期用途包括胚胎图像分割、测量、评级、临床结局预测等。为了促进产品的研发、测试与临床评价,国外相关机构以囊胚形态AI评估为主题,积极开展数据集建设,为行业发展提供支撑。目前,囊胚形态AI评估数据集的开发建设还没有形成专用的、系统性的标准规范;在数据标注方面,Gardener评分的应用比较广泛,但标注人员的培训、分工等细节也缺乏统一规则。目前,国内囊胚形态AI评估数据集的发展刚刚起步,在执行层面容易出现差异,影响数据质量,进而制约算法性能和产品质量。数据集的建设需要与标准规范同步发展,在行业共识基础上推进。
近年来,我国的辅助生殖医疗器械行业标准、AI医疗器械行业标准体系初具规模,现有标准涵盖了囊胚染色与计数、数据集通用质量评价、数据标注通用质量评价等主题,为建立囊胚形态AI评估数据集的专用规范提供了参考。AI产品算法性能测试、生产研发可追溯性标准也明确了数据集使用与管理的定位。国内的AI医疗器械注册审评相关技术文件也多次强调了数据集的重要性。在此背景下,本文以囊胚形态AI评估数据集构建、质量控制及评价的具体问题为导向,对数据集质量的表现形式进行解析,对囊胚形态AI评估智能产品相关的数据集构建过程给予示范及引导,旨在引导本领域数据集的科学有序发展。
数据集说明文档要求
根据YY/T 1833.2(人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求)的要求,数据集制造责任方应当建立说明文档,供监管和用户了解数据集。依据YY/T 1833.2的定义,数据集制造责任方指的是对某个数据集的设计、制造负有责任的实体(中国境内收集数据的责任方应当为获批开展辅助生殖技术的医疗机构,而科研机构、生产企业提供需求和技术支持)。
一、数据集基本信息
参考现有卫生行业标准的定义方式,本文将囊胚形态AI评估数据集定义为:以体外培养的胚胎显微图像为主题、可以标识并可以被计算机化处理的数据集合。根据医疗器械行业标准(YY/T 1833.2),囊胚形态AI评估数据集的说明文档应声明数据集的类型,按照预期用途、数据来源、用户类型、访问管理方式、更新形式等维度进行划分。
根据目前相关AI产品的研发现状,构建囊胚形态AI评估的数据集的影像数据格式可能包括avi、rm、rmvb、flv、mpg、mov、mkv或二次视频分解的jpg、tiff、bmp、gif、ufo、exif、raw,数据来源于辅助生殖中心胚胎实验室获取的胚胎体外培养真实图像。根据产品研发的需要,需采集患者的临床和胚胎实验室信息,以配合AI诊断等功能的实现。采集图像的胚胎时差培养箱及显微镜成像系统应具有典型性,能够代表不同地区、不同临床机构的装备水平。构建的数据集适用于囊胚形态AI分析产品的训练、测试等,产品预期用途包括胚胎发育辅助分析、囊胚形态AI评级等。
囊胚形态AI分析数据集的标注对象包括透明带、卵周隙、内细胞团(inner cell mass, ICM)、滋养外胚层细胞(trophectoderm,TE)、囊胚腔(blastocyst cavity, BC)。同时,数据集制造责任方可根据产品预期使用的人群特征,对其临床阶段性[囊胚分级、胚胎种植前遗传学检查、囊胚种植、早期胚胎丢失及最终治疗结局(活产)]进行分类,作为算法训练的标签或测试的基准。
囊胚形态AI分析数据集的内容除影像数据、标注结果外,还包含YY/T 1833.2要求的元数据。数据集制造责任方需要为数据集分配名称、版本号,与数据的更新保持同步。
二、数据采集
(一)伦理批准与患者隐私保护
尽管囊胚形态影像数据来自体外培养,隐私保护的要求仍然适用,要求数据集制造责任方开展伦理审查,审查范围包括体外胚胎各阶段的原始图像、视频、患者自身的年龄、病史、临床干预等流行病学信息,以及其他相关的临床数据、信息资料等。患者的知情权、同意书、补偿等应当满足法规的要求。数据集制造责任方在启动数据收集之前,应提请伦理委员会审批,或通过同等效力的批准程序保证数据脱敏,保障患者隐私安全和患者利益(表1A-数据合规性及入选标准)。
(二)数据脱敏、清洗、查重要求
1.数据脱敏:体外胚胎的原始图像、视频、数据集的元数据均不应包含与患者隐私有关的任何信息。敏感信息的判定可参照GB/T 35273—2020标准的规定,常见情形包括患者身份信息、临床病史、社会经济状况、家庭情况、财务信息等。数据集制造责任方在解析体外胚胎图像/视频时,应明确脱敏范围和具体字段。
数据脱敏的过程不应改变图像、视频的灰度信息,除非敏感信息直接存储于灰度矩阵,例如图像水印或图像周围显示的患者名称、年龄等。数据的采集、传输、保存和使用必须符合《中华人民共和国网络安全法》、《科技部人类遗传资源管理办法》和《医疗器械网络安全注册技术审查指导原则》等法律法规的要求。
胚胎数据集标签应按照“Istanbul”胚胎共识或Gardener评分进行分类。基础分类为优质胚胎、可移植胚胎(亚标签可为“移植”或“冷冻”)及丢弃胚胎;对附加临床决策的数据集可追加“胚胎种植”、“生化妊娠”、“临床妊娠”、“继续妊娠”“累计妊娠”“累计继续妊娠”及“流产”等(表1A-数据标签)。
2.数据清洗:数据集制造责任方应预先规定数据纳入/排除要求,作为数据清洗的依据。图像的质量要求一般包括格式的有效性、单个文件的完整性、视频的连续性、图像内容的合理性等。例如,排除培养条件异常导致的非正常培养条件下获得的数据资料、视野不完整的图像、破损或无法读取的图像文件、缺失关键帧的视频、有遮挡或污损的图像,确保每个囊胚的图像、视频保持连续完整,排除出现缺层、错层等情况的三维图像。数据集制造责任方可根据需要,制定更具体的数据清洗规程。未通过数据清洗的数据应在受控条件下存储,避免泄露或误用。如采用AI算法进行辅助清洗,应对结果进行人工审核(表1B )。
3.数据查重:为保证数据的唯一性,数据集制造责任方应开展查重验证,避免与外部的数据集发生数据重合,避免同一病例的数据重复出现,并剔除重复样本。
4.数据储存与传输:采用安全可靠的数据存储设备,如服务器和云存储,以确保大量数据的安全保存和备份。同时,应当规定数据传输的加密标准,保障数据在采集和传输过程中的隐私和安全。
(三)数据采集与多样性要求
数据集应当使用视频或二次视频提取的真实体外胚胎培养全过程的视频,光学放大率不低于400×,成像视野覆盖整个胚胎;如进行三维成像,图像层数足以支持对关键帧的选取。数据集制造责任方应确保数据采集前后的完整性,避免有损压缩、图像滤镜等情形。每个胚胎的采集时间建议从受精后4~6 h内开始收集至120~144 h(采集层数至少>7,每小时收集>4次)(表1A-数据质量)。
为确保数据集的多样性,在数据采集阶段需要尽可能地覆盖到更多具有通用性的统计维度,以降低数据集的覆盖偏倚。这些维度包括以下:
1.患者维度:主要应考虑患者的年龄、性别、BMI、生育史、疾病史、地区、职业等因素,这些因素与不孕症存在联系,因此对于数据集的临床代表性有重要影响,有助于确保模型对不同群体的囊胚形态具有较好的泛化能力。患者人群分布应参考流行病学统计进行均匀随机抽样(按临床剩余需求年龄分布,20~35岁抽样75%,35~37岁抽样15%,≥38岁抽样10%)的形式进行分层抽样(表1A-人群代表性)。
根据患者不孕症病因,设置数据集的样本量和比例。作为对真实临床数据的抽样,数据集的数据容量决定了抽样误差。抽样误差越小,数据集越有代表意义。关于抽样误差的计算,可以参照原国家食品药品监督管理总局发布的《医疗器械临床试验设计指导原则》给出的方法进行计算,在条件允许的情况下尽量提高样本量。根据《医疗器械临床试验设计指导原则》,按分层抽样的方式计算样本。
样本抽样的估算公式为:,其中μα为设定置信区间的统计量(如α设定为0.05时,μα=1.96);ρ为目标总期望值(百分率值,如可移植胚胎率45%);б为允许绝对误差(等于允许相对误差乘以目标总期望值,一般允许相对误差为15%,б=ρ×15%);deff为分层抽样的层数。应对同一患者的多个试管婴儿周期进行数据采集,以考虑患者在不同周期之间的变化和囊胚质量的差异。这有助于建立更全面的囊胚形态模型。
临床结果的多样性:在数据集中引入不同的临床结果,包括成功的试管婴儿案例和失败的案例。这有助于模型对成功和失败案例的区分,提高其临床应用的准确性。
实验室多样性:数据集应覆盖不同生殖医学实验室的数据,考虑到实验室环境可能对囊胚形态评估有影响。不同实验室的技术水平和实验室操作流程的变化都应考虑在内。
2.设备及数据采集技术标准维度:设备方面主要应考虑胚胎图像采集设备(例如时差培养箱)制造厂家、设备型号、成像参数设置(培养箱工作环境设置、成像层间距、记录像素等)的合理性与多样性。这些因素影响图像的对比度、分辨率、信噪比、细节丰富程度等基本参数,同时也会影响数据标注结论,如对胚胎的评级、分类及后续量化测量等。从操作层面来说,可以依据表2A、2B的参数范围进行选择。
(四)数据标注
数据标注人员的能力、数据标注结果的质量、标注流程的一致性、标注过程的质量控制体系都会直接影响到囊胚形态数据集参考标准的准确性,从而影响AI模型的临床可靠性。因此,囊胚图像或视频应由从事胚胎工作5年以上的资深胚胎学家标注,再交由高级职称专家审核、分类描述数据集内囊胚实际的形态特征与分布,并为数据标注相应的特征值及数据标签(表3),确保标注的一致性和可追溯性。另,不同发育天数(D5、D6、D7)形成的囊胚可能存在临床结局的差异,因此囊胚评级应对应发育天数的标签。
三、数据样本溯源信息记录
为了提升数据管理的规范性、确保数据集在AI医疗器械生产质量管理体系中的有序流转,数据样本需要建立唯一标识;编码时可考虑地域、临床机构、患者、胚胎编号、采集时间等要素。具体原则可参照医疗器械行业标准《医疗器械唯一标识基本要求》。
对单个影像文件,唯一标识可采用的字段举例如图1,其信息应与原始文件形成映射关系,便于检索和预览。当数据发生更新时,二者保持同步。唯一标识的编码方式应当进行校验,以保证整体或组成部分的正确性和唯一性。
数据集质量评价
在数据集的质量验收阶段,数据集制造责任方宜采用医疗器械行业标准YY/T 1833.2-2022《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》的框架,开展相关试验。
一、质量特性与评价方式
1.准确性:关注数据集的信息与“真值”的接近程度,包含数据采集、标注层层面,例如对时差培养设备的有效性、人员操作的有效性进行检查,对影像报告、标注结果的正确性、数据形式的合理性进行抽查。可能情况下,对囊胚影像标注准确性的抽查建议由专业的第三方医学专家团队进行,第三方团队的资质、从业年限、检查流程和分歧处理应有明确的要求。囊胚数据集的抽样检查可以把单个囊胚发育序列作为基本单元,例如先计算每个序列的准确率,进而对整个数据集的准确率进行统计估计,因而适合采用计量型抽样检验方法。标注人员的客观表现宜列入准确性的考量范围,例如以仲裁人员作为参考标准,计算标注人员的分类准确率,应符合数据集制造责任方的声称。
2.完备性:囊胚训练数据集应包含支持产品训练、满足临床适用场景需要的信息,例如囊胚期级别,时差培养箱设备型号、设备厂家、图像及视频采集参数等均需要接入医院信息系统(Hospital Information System,HIS)或辅助生殖技术专病系统;以及伦理批准使用的非敏感信息,例如受试者年龄、不孕症病因临床干预、预后等。数据集制造责任方可制定具体的信息列表,对信息完备性进行抽查。由于囊胚序列都可以明确其是否具有完备性,因此可使用计量型抽样检验方法。
3.唯一性:用于判定同一数据集内的数据元是否唯一,相当于对数据清洗中的查重进行验证。本部分适合计量型抽样检验。
4.一致性:YY/T 1833.2对于内部一致性、外部一致性的要求适用于囊胚形态数据集,意味着对于同一数据集而言,来自不同培养体系的数据在采集、预处理、标注等环节应依从相同的法规、标准、规则。对一致性的符合性判定一般采用计量型抽样检验。
5.确实性:囊胚形态数据集应采用临床真实数据,对可疑样本进行排除,如错误引入动物胚胎实验数据、数据污染等情形。对确实性的评价可采用计量型抽样检验。
6.时效性:囊胚图像考虑到临床的实际操作,为完整观察到合子阶段的发育特征,建议从受精后4~6 h内开始收集至120~144 h(采集层数至少>7,每小时收集>4次);数据集的开发建设应在声称的时限内完成,以保证数据集符合当前的医学认知和产品开发需求。时效性的评价需要从数据集的过程记录中提取时间信息,计算实际时限,其符合性属于计数型抽样检验范畴。
7.可访问性:YY/T 1833.2对于可访问性的要求适用于囊胚形态数据集,客观上要求数据集制造责任方具有数据访问控制的措施,例如用户权限、数据访问授权机制。本质量特性一般通过操作检查进行判定。
8.依从性:囊胚数据集的标注活动应依从Istanbul共识、Gardener评分,以开展胚胎分类;数据集元数据字段设置应符合囊胚观察和评价的各项定义。这些文献应体现在数据集的文档描述中,因此对依从性的评价需要对数据集文档、标注结果、过程记录进行检查。
9.保密性:由于囊胚数据集可能包含受试者的信息,数据集制造责任方应防止囊胚影像、标注结果、元数据等信息的泄露,避免数据被篡改、盗用等问题的发生,形成相关记录。对保密性的评价可采用过程验证、文件记录审核等方式进行。
10.效率:关注数据集的用户调用数据集的速度,体现了数据集作为一种“产品”对使用环境的要求。效率的评价可以采用在数据集制造责任方规定的软硬件与网络环境下,实际读取、传输数据集,验证操作的时间。
11.精度:关注囊胚影像数据定量特征、数据集总体定量特征、囊胚标注结果等误差大小的程度,例如囊胚径线测量的精度可用微米表述。对精度的验证可以采用比对试验、工具验证等方式实现。
12.可追溯性:可追溯性关注囊胚数据集的全生命周期中,质量管理活动是否形成记录。可追溯性的评价主要通过对文档和记录进行检查,要求医院建立数据采集活动记录、标注人员选拔与培训记录、数据标注流程记录、标注工具使用记录等。
13.可理解性:关注囊胚数据集能被授权用户预览和解释的程度,例如能否将囊胚标注结果直观地呈现在原始图像上,供用户了解细胞分裂情况。对可理解性的评价主要通过实际操作进行,可能需要数据集制造责任方提供相关工具。
14.可得性:关注囊胚数据集能被授权用户访问和检索的程度,例如数据能否复制粘贴、建立索引、由算法模型调用。对可得性的评价通过实际操作进行。为了确保可得性,囊胚发育图像序列可在元数据或文件名中进行特殊编码,将受精卵编号、细胞分裂时间等信息进行融合,以帮助建立索引。
15.可移植性:YY/T 1833.2对于可移植性的一般要求适用于囊胚数据集,一般对数据集进行操作验证,判断数据集能否在不同的操作系统、软硬件配置下被调用。
16.可恢复性:YY/T 1833.2对于可恢复性的一般要求适用于囊胚数据集,客观上要求数据集制造责任方提供。对可恢复性的评价可通过模拟失效事件、实际操作验证。
17.代表性:关注数据集的数据特征层次、流行病学统计、样本来源多样性、数据多样性等能否代表辅助生殖领域的受试者人群。数据集制造责任方需要对这些维度进行统计分析,适当时与流行病学统计进行比较,以论证数据集的代表性。
二、质量风险评估
建议数据集制造责任方评估数据集的整体质量风险,例如各种统计偏倚情况,可借鉴行业标准GB/T 42062的要求开展风险管理活动,尤其是把数据集的偏倚列入风险分析的对象。此外,也可采用专家评议法,设计问卷,由第三方医学专家组对数据集质量进行评议,对偏倚进行分析,形成研究资料。
综上所述,囊胚数据集的质量评价应包括对数据集文档、质量特性和数据集风险分析文档的评价。参照医疗器械行业标准YY/T 1833.2-2022《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》,评价流程如图2所示。适当时,数据集制造责任方应提供数据集、原始数据、元数据、标注工具、存储介质和其他工具的访问权限。
小 结
近年来,随着相关技术的快速发展,AI在医疗领域的应用也在快速的推广,在包括医学影像、临床决策支持、病例分析、语言识别、药物挖掘、健康管理、病理学等众多场景。医学影像数据的数量和质量决定了AI模型学习的结果。高质量的数据库必须同时满足多个要求:数量巨大、来源多样、质量优异、标注规范、标注标准统一等。囊胚数据集作为胚胎AI产品训练和测试不可或缺的重要组成部分,扮演着举足轻重的角色,也是产品的重要保障。
本共识会根据技术升级和临床实际情况不断迭代更新,逐步达成该领域数据集建设的广泛共识。
文章来源:王浩,张孝东,孙莹璞,等.人工智能囊胚形态评估数据集构建与质控专家共识[J].生殖医学杂志,2024,33(7):843-851.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#人工智能# #囊胚形态评估#
56