You dont have javascript enabled! Please enable it!

ChatGPT 显示出临床知识审查的潜力

堪萨斯大学医学中心的研究人员展示了 ChatGPT 在帮助临床医生跟上不断增长的医学知识方面的潜力,通过对期刊摘要进行优先排序和总结,来应对医学文献和实践指南的迅速扩展。

研究团队指出,全球临床知识的增长速度使得临床医生很难跟上新的医学文献和实践指南。

“每年大约有一百万篇新文章被添加到 PubMed 上,”堪萨斯大学医学中心家庭医学和社区健康助理教授 Daniel Parente 医学博士在新闻发布会上解释道。“即便你是一名专注于某个领域的医生,仍然可能面临成千上万篇文章需要阅读。”

研究作者进一步指出,除了筛选文献以找到与其领域相关的文章外,临床医生还必须审阅每篇文章。虽然文章摘要可以帮助简化这一过程,但审阅这些摘要(其中许多约为 300 字)也可能耗时。

这项研究表明,这些工具已经具备了帮助我们更快审阅文献并确定关注重点的能力。Daniel Parente 医学博士 堪萨斯大学医学中心家庭医学和社区健康助理教授

鉴于 AI 技术的最新发展,研究人员决定调查大型语言模型(LLM)是否可以帮助临床医生系统地审阅医学文献。

研究团队选择了 ChatGPT-3.5,并要求该工具对来自 14 种期刊的 140 篇经过同行评审的摘要进行总结。为了评估 LLM 的表现,研究团队请人类医生对 ChatGPT 生成的摘要的质量、准确性和偏见进行评分。

然后,研究人员比较了 ChatGPT 和临床医生在评估每个期刊和摘要与特定医学专业相关性方面的效果。

分析显示,LLM 的摘要平均比原始摘要短 70%,将长度从 2,438 个字符减少到 739 个字符。人类评分者认为 ChatGPT 的摘要通常质量高且准确,偏见较低。

然而,LLM 在 140 个案例中有 4 个出现了幻觉,并发现了 20 处小的错误。尽管存在这些不准确之处,但这些错误并未改变原始摘要的意义。

ChatGPT 在识别相关性方面的表现不尽如人意。LLM 在判断整个期刊是否与某个专业相关时表现类似于临床医生,但在判断单篇文章的相关性时则表现欠佳。

“我们让人类(医生)评分者判断这是否与初级保健、内科或外科相关,然后与 ChatGPT 的相关性评分进行比较,我们发现至少 ChatGPT-3.5 模型还未能完全做到这一点。它在识别期刊是否与初级保健相关方面表现良好,但在识别文章是否与初级保健相关方面表现不佳,”Parente 指出。

这些发现促使研究人员得出结论,ChatGPT 在医疗保健中的应用可以帮助家庭医生简化文献审阅过程,研究团队在研究期间为此目的设计了软件。然而,作者强调,关键的医学决策仍应基于对全文研究和临床指南的全面评估。

研究人员还指出,随着 ChatGPT 新版本的发布,它们在确定科学文章相关性方面可能会变得更好。

“这项研究表明,这些工具已经具备了一定的能力,帮助我们更快审阅文献,并确定我们需要关注的重点,”Parente 说。“未来更智能、更高效的技术版本很可能会进一步增强这一能力。”

Shania Kennedy 自 2022 年以来一直报道与健康 IT 和分析相关的新闻。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...