在构建任何计算机视觉模型时,机器学习团队需要带有高质量注释的高质量数据集,以确保模型在各种指标上表现良好。
然而,当涉及到为医疗保健用例构建人工智能模型时,风险就更大了。这些模式将直接影响个人的生活。他们需要对由没有太多空闲时间的高技能医疗专业人员注释的数据进行训练。他们还必须遵守较高的科学和监管标准,因此为了将模型从开发阶段投入生产,机器学习团队需要使用尽可能最佳的数据和最佳注释对其进行训练。
这就是为什么每个计算机视觉公司——尤其是那些构建医疗诊断模型的公司——应该有一个用于医疗数据注释的质量保证工作流程。
构建图像注释的质量保证工作流程需要制定适当的流程,以确保标记的图像具有尽可能高的质量。当涉及医学图像注释时(无论是放射学模式还是任何其他用例),在构建 QA 工作流程时还需要考虑一些其他因素。如果您在构建工作流程时考虑到这些注意事项,并在开始注释过程之前准备好工作流程框架,那么您将在模型开发的后期阶段节省时间。
由于医学图像注释需要医疗专业人员,因此注释可能是构建医学人工智能模型的一个成本高昂的部分。在开始模型开发之前拥有用于图像注释的 QA 工作流程可以帮助公司相应地进行预算,并减少浪费注释者时间而导致公司损失的风险。
医学模型需要对大量数据进行训练。您的公司需要获取高质量的训练数据,同时仔细考虑模型在指定任务上表现良好所需的数据量和类型。例如,某些肿瘤比其他肿瘤更罕见。然而,如果模型“在野外”遇到罕见肿瘤,则需要能够对它们进行分类,因此源数据必须包含足够的这些肿瘤的示例,以学会准确地对它们进行分类。
在开始构建 QA 工作流程之前,需要将部分数据从收集的总数据中分离出来。这一部分成为测试数据——您将在训练和验证阶段之后使用从未见过的数据来确定您的模型是否满足发布到临床环境所需的性能阈值。机器学习或数据工程团队中的任何人都不应实际访问这些数据,因为当获得监管部门批准时,公司将必须进行临床研究,而这样做将需要使用未曾见过的未触及的数据由模型或任何从事模型工作的人。理想情况下,这些测试数据将被复制到单独的硬盘驱动器上并保存在单独的物理位置,以便减轻在监管审批过程中显示合规性的负担。
在构建医学成像模型时,您还需要仔细考虑训练模型所需的注释的数量和类型。例如,对于那些罕见的肿瘤,您需要决定需要标记多少个示例、注释者标记它们的频率以及注释者如何对它们进行分类。
您的公司可能会获取数百万张乳房 X 光检查或 CT 扫描,但实际上,医疗专业人员没有足够的时间来标记所有这些数据,因此您必须决定如何安排注释过程。
为此,您必须确定代表性数据的数量,并将该数据分为训练集和验证集。但是,在分割数据之前,您还需要决定每条数据将被标记多少次。通过计算共识,您可以确保您不是对单个注释器进行建模。
在医学成像中,单一标记是不够的。这些图像需要由不同的贴标机进行多个标签,就像临床实践中扫描需要由多个医生读取一样。在大多数欧洲和北美国家,双重读取是标准做法:每张医学图像由至少两名放射科医生读取。
至少,您的验证集需要进行双重标记。这意味着不同的注释者需要标记同一条数据。此外,您可能希望让注释者多次标记相同的数据。通过这样做,您可以计算读取器内部和内部的一致性。当然,拥有多个注释者的成本很高,因为这些注释者是医疗专业人员(通常是放射科医生),具有丰富的经验。
大部分数据(例如 80%)将属于训练数据集。与医学图像注释相关的成本和时间限制通常意味着训练数据通常仅是单标记的,这使得模型能够以更低的成本更快地开始训练。
然而,构成验证集的剩余数据将在完成训练后用于评估模型的性能。大多数公司应该致力于为验证数据提供额外的标签。让五个左右的注释者标记每个图像将提供足够的意见以确保模型的预测是正确的。您拥有的意见越多,模型对特定放射科医生意见的偏见就越少,并且可以更好地概括未见过的数据。
这种分工应该在设置注释管道时确定。注释者不知道一条数据被标记了多少次,理想情况下标记总是盲目完成的。他们不应该互相交谈或讨论。在医院环境中工作时,这种保密性并不总是得到保证,但当与分散的放射科医生小组一起工作时,双盲保持完整且不受影响。
现在您已经收集并划分了数据,您需要为放射科医生建立标签协议。
标签协议提供了注释图像中“感兴趣的结构”(肿瘤、钙化、淋巴结等)的指南。标记这些结构的正确方法并不总是简单的,并且在临床常规中所做??的事情和训练机器学习所需的事情之间通常需要进行权衡。
例如,假设您有一个肿块——例如乳房就是一个致密区域。该质量可以是圆形的,但也可以是星形的。注释者需要知道他们是否应该圈出质量或紧贴轮廓。该决定取决于人工智能系统在临床环境中需要做什么。如果您正在训练一个只需检测质量是否存在的系统,那么松散的注释可能就足够了。然而,如果系统试图区分不同形状的物体,那么您可能需要按照其精确的轮廓来非常仔细地对其进行分割。通常,不规则形状的肿块往往是更具侵袭性的癌症的迹象,因此机器肯定需要能够识别它们。
另一个例子是医学成像中的钙化,它看起来像医学图像上的椒盐噪声。那应该怎么注释呢?一个盒子里装满了所有的谷物?每个颗粒周围都有一个圆圈?大的边界框意味着机器学习的妥协,因为它既包含钙化点,也包含正常组织,但要求医生注释数百个小点也是不合理的。您需要在标签协议中详细说明注释者在这种情况下应该做什么。在扫描中遇到其他物体(例如起搏器和乳房植入物)也是如此。如果注释者需要标记这些对象,那么您必须指示他们这样做。
机器学习团队的成员和具有临床背景的人员应该一起制定标签协议,因为不同的主题专家对这些事情的看法不同。请记住,医生不会考虑区分起搏器和肿瘤。他们拥有多年的经验和批判性思考的能力,因此对他们来说,有人将起搏器误认为是癌性肿瘤,这似乎很荒谬。然而,模型无法推理:它们只会了解医学图像中标签特别向它们指出的内容。通常,机器学习团队需要向放射科医生解释这一点。否则,医生可能无法理解为什么他们不标记起搏器或在一张图像中圈出不规则形状的肿块并在下一张图像中勾勒出它的轮廓。
尽可能明确和详尽。注释是一项乏味且耗时的任务,因此标记者会寻找捷径,除非您指示他们不要这样做,这是可以理解的。为他们提供一份准确但不过长的标签协议手册。包括一些好的注释和差的注释的图片作为应该做什么和不应该做什么的示例。然后通过网络研讨会让他们参与其中,您可以在其中分享示例并演示注释平台,以便贴标者知道会发生什么以及如何在平台内进行注释。
如果没有详细的标签协议,贴标机可能会产生不一致的标签。一个常见的错误是当要求注释特定结构时混淆左右,例如“标记左肺。”松散的注释——圈出而不是遵循大纲——通常只是出于习惯。
DICOM 图像包含丰富的信息,可以对患者进行最佳诊断。然而,标记体积图像(例如 CT 或 MRI 扫描)具有挑战性。
Encord 的 DICOM 注释工具是与医疗专业人员密切合作设计的,因此与其他现有 DICOM 查看器不同,它允许无缝注释和构建数据管道以确保数据质量。大多数现有数据管道工具无法表示 CT 和 MRI 扫描所需的像素强度,而我们的平台提供准确、真实的 DICOM 显示。虽然我们的一些竞争对手将 DICOM 转换为其他格式(例如 PNG、视频),但我们允许用户直接在 DICOM 上工作,因此转换过程中不会丢失任何内容。通过为注释器提供自定义窗口和最大强度投影等功能,我们使它们能够像在临床实践中所习惯的那样工作,以便它们能够准确地评估图像,而不会受到数据质量变化的干扰。
体积图像包含许多切片,需要花费大量时间进行研究。 Encord 的工具还支持最大强度投影,用户可以将多个切片折叠成一个平面层,从而为他们提供从不同角度查看图像的机会 - 这一角度可能会揭示否则会错过的发现。所有这些功能以及更多功能应该可以帮助注释者更好地掌握标记协议并更有效地生成高质量的医学图像注释。
提供正确的工具将帮助您的注释者在最短的时间内完成最好的工作。然而,无论使用什么工具,在部署训练数据进行注释之前,您都应该为每位放射科医生提供一些要注释的样本,然后以小组或单独的形式与他们举行会议,讨论他们的想法。
与临床专家合作审查少量样本,以确定标签是否达到训练机器学习模型和算法所需的高质量。将数据样本相互比较,以确定一个注释器的表现是否明显优于其他注释器或差于其他注释器。考虑这样的问题:一个注释者标记的结构是否比其他注释者少?另一个会绘制松散的边界框吗?预计会有一些差异,但如果一位注释者与其他注释者存在显着差异,您可能需要私下与他们会面以调整期望。
即使有了标签协议,在发布太多数据之前,仔细审查这少数样本对于发现思维偏差也至关重要。请记住,医生像医生一样思考。如果患者的扫描显示肝脏中有 13 个癌性肿瘤,医生可能只会圈出 7 个,因为在临床环境中,这足以知道患者患有癌症并需要治疗。然而,机器学习团队需要确保医生标记所有 13 个标签,因为模型将遇到这额外的 6 个标签,并因缺少标签而受到惩罚。遗漏的注释将导致无法估计真实的模型性能,因此机器学习团队需要帮助医生理解为什么他们需要进行详尽的标记,这更加耗时,并且与他们的常规临床工作不同。
不同的注释者对于他们认为应该注释的内容有不同的阈值,因此您需要临床合作伙伴的输入来确定应该注释的内容。医学图像评估中始终存在不确定性,因此您需要校准注释器,告诉它们在阈值中或多或少敏感。
一旦所有放射科医生都了解了标签期望,就可以发布第一批图像进行注释了。对于第一批,释放大约三分之一的需要标注的数据。
设置完成注释的时间表。时间表将取决于您公司的时间限制。例如,如果您打算参加会议,您需要尽早训练模型,并且您需要缩短注释的时间。
机器学习团队和临床合作伙伴的人员应该监督和审查注释过程。这意味着您需要留出时间进行质量控制。审查注释需要时间,理想情况下,您将记录每个注释者的标记质量,以便您每月或每周的统计数据显示每个放射科医生与真实情况或共识相比对图像的标记程度。
当涉及医学图像注释时,建立基本事实需要找到有关患者结果的信息,这可能很棘手。例如,如果三名医生将肿块的图像解读为非癌性,但随后的活检显示该肿块是癌性的,那么该图像的基本事实实际上是“癌性的”。理想情况下,当您收集数据时,您将收到临床数据以及 DICOM 图像,该图像提供有关患者治疗和扫描后结果的信息,从而可以根据现实世界的结果建立基本事实。
由于 Encord 平台支持 DICOM 元数据,如果临床医生和放射技师已经收集了这些元数据,那么使用 Encord 将使您能够无缝访问有关患者医疗状况、病史和结果的重要信息。
在没有此类临床信息的情况下,从注释中得出的共识将不得不作为基本事实的代理。当一组放射科医生阅读相同的扫描结果并通常通过多数投票就结果达成一致时,就会达成共识。然后,该发现将成为数据的基本事实。
然而,在临床环境中,医生会采取不同的方法来达成共识。这就是 Encord 平台提供各种功能来帮助计算共识的原因。它包括为任意数量的注释者进行成熟度投票的模板。它还具有加权功能,因此经验丰富的医疗专业人员的注释会比初级医疗专业人员的注释得到更多考虑。当对图像出现分歧时,Encord 的平台会启用一个仲裁小组,将图像发送给另一位更有经验的专业人士来决定共识。平台中内置多种方法对于监管审批特别有用,因为不同地区会希望公司使用不同的方法来确定共识。
在 QA 工作流程的这一部分中,您还应该构建评估者内部可靠性测试,其中每个审阅者都会收到一组多次包含相同图像的数据。目标是确保评估者在一段时间内表现一致。对评估者的持续监控回答了一些重要问题,例如:评估者早上和晚上的表现是否一样好?与工作日相比,审稿人在周末的表现是否较差?
将模型发布到临床环境的监管流程需要有关评估者内部可靠性以及评估者间可靠性的数据,因此从一开始就将此测试纳入流程和预算中非常重要。
如果第一批注释的审核顺利,那么就可以将其余数据发布给注释者了。一般来说,如果有严格的时间表或具体的数据量,公司将分批发布其余数据,并规定每批标签的截止日期。否则,大多数公司将实施连续的标签流。当公司能够访问来自不同制造商的持续数据流时,连续标签流是最佳策略。
连续的标签流需要连续的标签监控,而连续的标签监控很棒,因为它提供了有关标签和数据本身的有趣且重要的见解。
Encord 的 DICOM 注释工具使机器学习团队能够访问可能对注释和机器性能产生影响的重要元数据。 DICOM 数据包含有关机器状态的信息 - 电流、X 射线照射、与患者相关的角度、周围温度等。团队还可以按国家/地区、成本和制造商细分数据。
所有这些信息都很重要,因为它有助于图像的外观,这意味着元数据对模型性能有影响。例如,如果贴标机始终错误地标记来自某个制造商或医院数据集的图像,那么机器学习团队可能会意识到该设备的图像质量不如其他来源的图像质量或在特定设备上拍摄的图像质量。一天遭遇了奇怪的设备设置。
一个制造商的图像可能与另一制造商的图像看起来非常不同。如果他们只有 10% 的图像来自西门子设备,他们就知道需要收集更多的西门子图像,以确保模型能够很好地预测该品牌设备上捕获的图像。使用新型号设备与旧设备拍摄的医学图像也是如此。
地理区域也很重要。制造商根据设备的部署位置来调整设备;例如,美国和欧洲的对比度设置不同。使用来自不同地区和制造商的图像可以帮助您避免给机器学习模型带来偏见,并确保其正确推广。
随着连续标记和连续监控的开始,我们已经完成了构建医学图像数据标记质量保证工作流程的步骤。工作流程的细节可能看起来很细致,但当没有强大的工作流程时,医学图像注释中会出现大量常见错误。
构建医学图像注释的质量保证工作流程有六个同样重要的步骤:
然而,拥有无缝融入医疗专业人员日常生活的正确工具对于构建图像注释质量保证工作流程同样重要。
Encord 的 DICOM 注释工具是与临床医生合作构建的,因此它使医疗专业人员能够像在临床工作流程中一样导航图像并与之交互。我们认识到放射科医生和其他医疗专业人员都是忙碌的人,他们花了数年时间建立某些领域的专业知识和技能。
我们的注释工具模仿并与临床经验相结合。放射科医生大部分时间都在暗室中度过,使用高分辨率灰度监视器查看数字图像。这就是为什么我们的工具支持暗模式,防止放射科医生在临床常规过程中遇到绿色或白色界面。我们还设计了一个查看器,支持使用相同的方法和处理来查看大量图像切片,以便他们可以依赖通过多年使用临床工具而形成的肌肉记忆。
这就是为什么我们也支持悬挂协议。经过多年将扫描件挂在墙上,放射科医生已经习惯了以某种方式展示它们。例如,在读取乳房X光检查时,他们希望同时查看两个乳房,以比较该特定患者的对称性和固有特征。我们没有要求放射科医生为数字时代做出改变,而是改变了工具,以对他们的职业最有意义的方式定位图像。
我们的平台、界面和鼠标手势(包括窗口!)都是根据临床经验设计的。