视觉中国供图 |
◎本报记者 叶 青
未来将大语言模型应用于医学可能会成为一种趋势。在分诊问诊等临床咨询阶段,利用模型与患者进行交互,收集到完整、准确的信息并形成初步意见,再将其交给专业医生进行最终判断,这在一定程度上可以减少因为信息收集不充分、患者主诉不明确等问题带来的误诊和漏诊。
你是否想过,未来给你问诊的可能是人工智能?据报道,用于寻医问诊的大语言模型在国内已经出现,医检行业等垂直领域也正加速布局对应的大语言模型。不仅如此,《自然》杂志近日还发表了一篇论文,展示了一个用于评估大语言模型在医学问题上整体表现水平的基准。
那么,将大语言模型用于寻医问诊是否有可能成为一种趋势?其技术原理是什么,又该如何对其进行监管和评估?带着这些问题,记者采访了相关专家。
国内企业纷纷入局医检大语言模型
ChatGPT的发布,掀起了各厂商研发大语言模型的热潮。“此前人工智能应用于医学的进展速度并不算快,能否借助这一轮大语言模型发展热潮,把对专业性、精准度要求极高的AI医疗推向发展的快车道,成了大家现在关注的焦点。”广州金域医学检验集团股份有限公司(以下简称金域医学)数字化运营管理中心算法总监刘斯表示。
国内在“大语言模型+医学”领域虽起步相对较晚,但也是“八仙过海、各显神通”。今年5月,互联网医院——医联率先发布了基于Transformer架构的国内首款医疗大语言模型——MedGPT。而在医检领域,金域医学正联合华为云等行业巨头,研发聚焦智能临床咨询、检测项目智能推荐、智能检测报告生成与解读等方面的医检行业大语言模型。
目前,网络上也有一些没有大语言模型加持的寻医问诊机器人。这种机器人与大语言模型加持下的寻医问诊机器人有何不同?
“大语言模型加持下的问诊服务将具有更好的柔性。在患者不能用专业术语描述自身症状,或者患者的回答并没有按照预设路径进行的时候,大语言模型拥有更加灵活的应对能力。”刘斯透露,利用这些特性,他们正在训练医检大模型,并希望借此打造人工智能医检咨询师。
有望减少误诊漏诊提供普惠医疗服务
当前,医检服务正日益趋向专业化、精准化、个性化。以广东省新一代人工智能开放创新平台的承建单位金域医学为例,其已在医检生成式人工智能领域有所布局,目前已建立起标准报告语言规范及高质量专病数据库,并正利用预训练模型在医学文本实体抽取、病理报告结构化等领域开展探索。
受访专家们一致认为,未来将大语言模型应用于医学可能会成为一种趋势。在分诊问诊等临床咨询阶段,利用模型与患者进行交互,收集到完整、准确的信息并形成初步意见,再将其交给专业医生进行最终判断,这在一定程度上可以减少因为信息收集不充分、患者主诉不明确等问题带来的误诊和漏诊。这个方案不管是从准确率还是从效率上来看,都具备一定的可行性。
“许多最前沿的医疗知识分散在少数人手里,而大语言模型却能够融合顶尖知识,提供更加普惠的医疗知识服务。”左手医生创始人兼CEO张超说。
上海长海医院实验诊断科主任、博士生导师刘善荣也表示,未来若能搜集到大型三甲医院的医生对于某些疾病的认知并将其导入大语言模型进行整合、学习,一些医疗资源不充足的地区也有可能享受到高质量的医疗服务。
对齐真实医疗场景需技术伦理双管齐下
大语言模型或许能提升医检行业效率,但在面对真实的寻医问诊场景时,目前的大语言模型仍有其局限性,这主要体现在准确性、一致性和及时性上。
在准确性上,由于模型预训练时所用的文本范围不一定囊括所有专科,针对疑难杂症以及罕见疾病的语料也不一定足够丰富,因此模型在面对较为罕见的场景时,有可能会出现根据它当前掌握的知识强行作答的情况。“在医检实践场景中,我们也发现大模型在回答问题的过程中有可能出现幻觉,会将没有出现在描述里的症状纳入到考虑范围中。”刘斯表示。
在一致性上,若以相同的问题重复多次询问模型,模型偶尔会出现回答前后不一致的情况。这种随机性在日常对话或者故事创作中是受欢迎的,但在临床咨询场景中是不允许发生的。
在及时性上,大模型受限于训练语料的时限性,无法直接利用训练之后才产生的新语料。换言之,新的医疗发现和诊疗指南等信息难以直接、有效地注入未更新的大模型里。
“与以聊天为‘主业’的ChatGPT相比,在医疗方面,我们需要大语言模型给出尽可能稳定和精确的结论,避免因为模型幻觉或者含糊不清的回答,误导患者选择错误的诊疗方案。”刘斯指出,目前大部分医疗领域的大语言模型会选用知识图谱进行辅助,图谱质量在很大程度上会影响其回答质量。
大语言模型要借助什么技术手段解决这些缺陷呢?刘斯认为,除了预训练过程中需要纳入足够多的医学专业数据外,在模型设计中,也需要重视它对知识图谱的利用能力,以及基于图谱的推理能力。目前看来,完全依赖大模型进行外部不可见的独立推理过程并直接向医生输出结果,这种模式在医学场景中较难达到足够高的准确率,也较难获得医生的认同。“知识图谱+大模型”的技术路径,可能会是促进大模型在医学场景落地的更优选择。
此外,大语言模型在微调阶段和测试阶段,需要医学专家的深度介入,依托具有交叉学科背景的研发团队对模型进行迭代,保障模型的反馈严格遵照医学逻辑;同时,在应用过程中,也需要注重大语言模型本身以及相关知识图谱的更新频率,如可借助指令精调乃至重新预训练等手段将新增的医学语料纳入大语言模型的“知识库”,以应对模型医学知识更新不及时的问题。
同时,业内专家也提醒道,要注意对用于医学领域的大语言模型进行监管和评估。刘斯表示,应在遵循现有生成式人工智能以及人工智能医用软件的管理办法和规章制度,保证数据来源和技术安全、合规、可控的前提下,在大语言模型研发过程中加强与医学专家团队的协作,这样一方面可确保医学领域的知识有效注入到模型中,另一方面也能使模型输出的结果与医生诊疗结论保持相似或一致。此外,将现阶段模型输出的结果用于诊疗决策之前,仍需要由医生来把最后一道关,保障结果的专业性。目前来讲,大语言模型仅能作为医生的助手,而不能替代医生进行决策。