五问“ChatGPT+医学影像”:新一代的AI能否成为放射科医生的一把利器?白鹿越来越“放得开”,拼色抹胸长裙优雅温柔,高贵典雅好有风情
自ChatGPT引爆人工智能领域以来,迅速吸引了来自不同领域的科学家和从业者的目光,期待着这一里程碑式的技术为自己的行业带来新的变革。 近日,上海科技大学生物医学工程学院创始院长、联影智能联席CEO沈定刚教授主持举办了一场线上MICS学术沙龙活动,乔治亚大学计算机科学系终身教授刘天明,美国亚利桑那州梅奥诊所放射肿瘤学教授和医学物理部科研主任、AAPM Fellow刘伟,美国伦斯勒理工学院生物医学工程系P.K. Lashmet讲席副教授闫平昆,哈佛大学医学院和麻省总医院讲师李响四位学者,共同探究ChatGPT在医学影像领域中的诸多可能性。 在讨论中,刘天明指出,ChatGPT的效果惊艳,是因为采用了In-context Learning或者叫做Prompt(提示词)等技术,同时利用具备大量参数的Transformer对转换为向量的文本进行处理。这些技术的发展都需要长期的积累和研究。 然而,在医学等专业性较强的领域内,ChatGPT的表现还不够好,仍需对其进行从常识性知识到生物医学领域知识的迁移和进一步的学习训练,以提升其在专业领域中的表现。 刘伟表示,如果想将ChatGPT应用到医学影像之中,多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据,必须利用多模态学习将其进行结合,才能应用在临床工作中。 此外,还要考虑到特定领域数据的限制,针对医学这种专业领域的数据,需要使用更专业的提示词来生成问题。 李响分享了团队的一个新进展,他们尝试利用包含了医学领域专业知识的知识图谱来帮助更好地使用ChatGPT。 知识图谱可以加在整个流程之中,不论是文本的输入、语言的生成还是ChatGPT的效果改善等。 但是,获得一个好的知识图谱很困难,李响团队正在尝试利用ChatGPT从大量的专业语料库中自动发掘知识图谱,为语言模型在临床工作中的部署提供重要的先验知识。 闫平昆则认为,从影像分析的角度来看,ChatGPT之所以如此成功,尤其相较于现在的视觉模型而言,是因为它学习的对象——文字,具有人类表达方式的先天优势。 当前阶段应该考虑的是,如何将图像信息更好地输入进大模型之中。一种方法是通过图像分析模型提取图像中的信息,将其发送给ChatGPT。另一种方法是多模态学习,特别是视觉-语言学习。将图像信息与语言结合在一起后,就可以直接对图像信息进行编码,与文字一起发送到大模型中。 以下是此次研讨会的主要内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理(文章末尾可查看此次学术沙龙涉及的文章列表): 沈定刚:首先来介绍一下我自己对ChatGPT的认识,OpenAI是一家小公司,只有87个年轻的员工,平均年龄为32岁,大部分员工都是90后。 在数据分析领域,年轻人是非常重要的力量,从ChatGPT团队取得的成就也可以看出,我们要支持年轻人的发展,为他们提供成长的机会。 虽然人数不多,但ChatGPT团队的成员都是名校毕业、曾在知名公司工作的经验丰富的人才,如谷歌、Facebook、NVIDIA、Microsoft、DeepMind和Apple等企业。 ChatGPT的团队构成比较均衡,包括本科生、硕士研究生和博士,各个级别的人才都很重要,这样才能把技术做好。这个团队虽然年轻,但经验非常丰富,成员中也有包括顶尖的AI科学家。 这样的成员构成使得他们能够在AI领域取得很好的成绩,也证明了人数并不是唯一的关键,团队的质量更重要。 很多人疑问,为什么ChatGPT出现在美国而非其他国家? 在人工智能领域,中国发表了非常多的论文和专利,但其中的大多数都来自于高校,而美国的论文和专利大多数来自公司。 高校和公司都在做同样的事情,但是很多创新和资源都在公司。因此,高校需要与公司进行紧密的产学研结合,协同创新,才能体现出高校独有的特色和优点。 在科学研究和技术创新方面,美国起步很早。早在1958年,美国就开始做老化研究,通过测试了解人的身体、认知、情绪等方面的变化,1989年就开始使用磁共振技术进行研究。 在过去的几十年中,许多重要的研究项目都采集了大量数据,这些数据被保存下来并一直在被研究。这些项目的成功与否与其前瞻性、长期性和理想主义密切相关。 一些早期采集的数据在当时无法得到很好的分析,但现在随着人工智能和深度学习技术的发展,这些数据成为了非常有用的资源,对于了解人类的早期发育、认知、神经系统疾病等方面非常重要。 如今,人工智能已经进入AI 2.0时代,大领域模型在数据足够多且模型足够大的情况下可以取得飞跃性的性能提升。 在医学和影像领域中,我们需要一个视觉模型来帮助医生诊断病情。相对于视觉模型来说,语言模型更容易训练,因为前后有逻辑关系,而且可以从互联网和书本中获取数据进行学习。 而视觉模型需要学习的是每个位置与其他位置之间的关系,非常困难。我们可以利用语言模型来帮助视觉模型的学习。 例如,视觉模型从图像中识别出病灶位置,将其告诉语言模型,语言模型根据之前的学习经验指导视觉模型去其他位置检查是否存在病灶。 我们将语言模型与视觉模型结合起来,让二者相互配合,即可提高整个系统的能力。 初期,语言模型与视觉模型的水平可能存在差异,但随着合作的深入,二者可以联合工作,最终达到像AlphaGo下棋一样高效合作的目的。 下面回到我们今天的问题上。 沈定刚:ChatGPT的成功在技术上有哪些要素?这些技术对医学影像的分析有什么样的启发? 刘天明:我认为ChatGPT在技术上是需要长期积累的,可能需要十年到十五年的时间。其中最重要的两个技术是Word Embedding和Transformer。 Word Embedding是十多年前出现的技术,它将单词转化为一个向量,放入一个Embedding空间中,这是一个革命性的技术。而Transformer是近年来非常热门的技术,它在语言和视觉领域都有很广泛的应用。 我认为最近出现的ChatGPT能够做得这么好,是因为它采用了In-context Learning或者Prompt等技术,能够将文本转化为向量,再利用Transformer进行处理。这些技术的发展都需要长期的积累和研究。 李响:ChatGPT的成功是因为它可以同时完成多个任务,这种多任务的方式在医学影像分析中也很重要。 ChatGPT的训练方式相对容易,因为语言是一种顺序的任务,而图像则需要考虑多个方向上的相关性。 “ Masked autoencoders...



