谷歌:医疗AI"看起來"很美好!

欲买桂花同载酒,终不似,少年游。

——《唐多令·芦叶满汀洲》南宋/刘过

理想很豐滿,現實很骨感。如果AI确实会给患者带来改变,我们需要知道在真实情况下当真正的人类将AI投入使用时AI是如何工作的。

在过去的四年中,Google改进了其AI技术,以解决医疗保健中的关键问题。來一起看看Google和泰國公共衛生部合作,實地使用AI系统来筛查糖尿病性视网膜病变的患者所面臨的實際情況。

Google Health的用户体验研究者Emma Beede发表了一篇博客,介绍2018-2019年在泰国11家医院部署基于深度学习的糖尿病性视网膜病变(DR)诊断系统的实际使用情况。这套系统在实验室环境下达到了专家水平(准确率>90%),但在实际应用中遇到了各种困难:

  1. 护士非常忙碌,加之光线不好,拍的片子有1/5被系统拒绝,只能再找大夫,可能要再来一次,而其中护士自己就能看出很多没有问题;
  2. 片子要上传云端,网速慢,影响诊断速度;
  3. 病人并不关心是不是AI在看病,他们对体验更重视,如果更麻烦,他们就不愿意接受。

醫療資源是世界上最稀缺的資源之一,並且這種稀缺性(勞動力供給關係)是不隨時代進步發展而變化的。COVID-19 的大流行將本就是稀缺資源的壓縮到許多國家的臨界點,此時人們迫切追求新的技術(Medical AI)來改變遊戲玩法,增加診斷效率並降低臨床從業者的壓力。最近Google Health的一項研究表明:如果不對環境進行定製化的處理,即使是(實驗室中)最精確的AI在實際臨床狀態下表現也會很糟糕。

A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy

實驗室(理想) V.S. 臨床(現實)

在过去的四年中,Google改进了其AI技术,以解决医疗保健中的关键问题。我们已经开发了检测眼部疾病的工具,用于识别心血管疾病危险因素和贫血迹象的 AI系统以及改善乳腺癌筛查的工具。

糖尿病性视网膜病(DR)如果不及早发现,则可能导致失明。由Google Health开发的AI可以从眼睛扫描中识别出糖尿病性视网膜病变的迹象,其准确率超过90%(该团队称为“人类专家水平”),并且原则上可以在不到10分钟的时间内得出结果。该系统分析图像以指示疾病状况,例如血管阻塞或泄漏。听起来令人印象深刻。但是,实验室的准确性评估只能进行到此。它無法告訴我們AI在现实环境中的表现如何,这也是Google Health团队迫切想要知道的。

美國FDA/歐洲CE/中國CFDA等認證許可主要關注在臨床環境下部署AI系統的準確性,現階段並沒有關注AI系統對預後階段的影響。在广泛部署AI工具之前,我们必须了解AI工具将如何在特定环境中为人们服务,尤其是在医疗保健领域。

Google首次在真实环境中测试该工具的机会来自泰国。该国卫生部设定了年度目标,对60%的糖尿病人进行糖尿病性视网膜病筛查,但該國只有200名视网膜专家服務於约450万名患者,护士会在检查时为患者的眼睛拍照,然后将其发送给其他地方的专家进行检查,这一过程可能需要长达10周的时间。Google为了了解AI是否能提供帮助,在泰國全国11个诊所配备了上述深度学习系统,並在八个月的时间里定期访问這11家诊所,他们观察护士进行的眼部扫描,并对他们使用新系统的经历进行采访。

如果處理得當,醫療AI帶來的好处可能是巨大的:設想一位護士有了這個工具便可以自己對1000名患者进行了筛查;而患者并不真正在乎它是一台AI還是是人类阅读他们的图像,他们更关心自己的经历。

然而反饋並不全是正面的。

圖像質量問題

AI确实可以加快速度。但是有时它根本无法给出结果。像大多数图像识别系统一样,深度学习模型已经过高质量扫描的培训;为了确保准确性,它被设计为拒绝质量低于特定阈值的图像。

因为每个诊所的条件和资源不尽相同,而要达到算法的高标准,通常需要一个暗室。光线调暗了,就确保了患者瞳孔放大,这样就能够拍摄高质量的眼底照片。但是在11所诊所当中,只有2所才有这样专门的检查室。

由于护士每小时扫描数十名患者,并且经常在光线不足的情况下拍摄照片,拍摄的眼球照片达不到算法的标准導致超过五分之一的图像被拒绝了。這些被踢出系統的圖像對應的患者不得不浪費時間重新拍攝或在另一天去另一家診所就診,並且這次不方便的經歷會影響他們拒絕使用AI拍攝和處理照片。

網絡傳輸問題

由于该系统必须将图像上传到云中进行处理,因此一些诊所的互联网连接不畅也造成了延迟。診所裡的網絡並不如谷歌研究室的网络连接一樣强大,當網絡延遲時上傳一張圖像往往需要一分多種。

这样,筛查进程就变慢了。有一家诊所在进行眼底筛查时,网络中断了两个小时,导致筛查的患者人数从200人减少到只有100人。

一位护士说:“患者喜欢即时结果,但互联网速度很慢無法獲得即時結果時患者會開始抱怨。” ,“他们从早上6点开始一直在这里等待,在最初的两个小时里,我们只能筛查10位患者。”所以,有的组织筛查流程的护士就建议患者不参加研究,避免一些不必要的麻烦。

不可分级問題

例如,在放映中捕获的某些图像可能会出现诸如模糊或暗区之类的问题。AI系统可能保守地将其中一些图像称为“不可分级”,因为这些问题可能会使提供确定结果所需的关键解剖特征模糊不清。对于临床医生而言,图像的可分级性可能会因个人的临床设置或经验而异。建立一个AI工具来适应这一频谱是一个挑战,因为系统和临床医生之间的任何分歧都可能导致挫败感。根据我们的观察,我们修改了研究方案,让眼科专家与患者的病历一起审查此类不可分级的图像,而不是将具有不可分级图像的患者自动转介给眼科医生。这有助于确保有必要进行转介。

患者友好交互問題

该研究还考虑了将AI系统集成到患者护理中对人类的影响。例如,研究发现,人工智能系统可以使护士信心十足,并立即识别出阳性筛查结果,从而可以更快地转诊给眼科医生。

在实验中,一位诊所的护士曾提到:”患者关心的不是诊断的准确性,而是体验如何。如果诊断的过程太麻烦,他们宁愿不参加研究,直接找医生诊断。”

隱私安全性問題

据 cnTechPost 报道,中国医疗影像 AI 公司慧影医疗科技(北京)有限公司(汇医慧影)的新冠病毒检测技术以及用户数据正在被黑客以 4 比特币的价格公开出售。

汇医慧影过去几个月开发的新冠 AI 辅助系统和训练数据(该系统可检测 CT 胸部 DICOM 图像中疑似肺炎的特征,并识别新型冠状病毒感染的症状) 被黑客窃取,正以 4 比特币的价格公开出售。此次出售的数据具体包括 150MB 的新冠病毒实验室研究成果、1GB 技术相关内容,以及检测技术源代码,还有 1.5 MB 用户数据。

随着人工智能等技术与方案渗透到医疗领域的各个环节,原本相对封闭的医疗产业环境被打破,信息聚集因此更为快速和敏捷。医疗数据相比普通用户隐私数据具备更高的安全隐患,信息系统仍存在诸多亟待完善的层面。作为首家被曝数据泄露的医疗 AI 公司案例,相關从业者值得警惕和防范。

他人評論

加拿大滑铁卢大学的Hamid Tizhoosh说:“这对于任何有兴趣弄脏双手并在实际环境中实际实施AI解决方案的人来说都是至关重要的研究。” Tizhoosh对他认为急于宣布新的AI工具以回应covid-19表示批评。他说,在某些情况下,没有医疗保健专业知识的团队会开发工具并发布模型。他认为Google的研究及时提醒我们,在实验室中建立准确性只是第一步。

爱荷华大学医院和诊所的眼科医生和计算机科学家迈克尔·阿布拉莫夫(Michael Abramoff)多年来一直在开发用于诊断视网膜疾病的AI,并且是一家名为IDx Technologies的衍生公司的首席执行官,该公司与IBM Watson合作。Abramoff过去曾是医疗保健AI的啦啦队长,但他也告诫不要着急,警告人们如果对AI的不良体验会遭到反弹。他说:“我很高兴Google表示他们愿意研究诊所的实际工作流程。” “医疗保健比算法还重要。”

Abramoff还质疑在准确性方面将AI工具与人类专家进行比较的有用性。当然,我们不希望AI打个坏电话。他说,但是人类医生一直以来都意见分歧,这很好。人工智能系统需要适应讨论不确定性来源而不是简单地拒绝它的过程。

Reference

  1. https://www.blog.google/technology/health/healthcare-ai-systems-put-people-center/
  2. https://www.jiqizhixin.com/articles/2020-04-28-6
  3. https://www.technologyreview.com/2020/04/27/1000658/google-medical-ai-accurate-lab-real-life-clinic-covid-diabetes-retina-disease/
  4. https://dl.acm.org/doi/abs/10.1145/3313831.3376718

P.S. 最近Ubuntu 20.04 輸入法設置有問題,字體一直是繁中,見諒。