PubMed GPT : 用于生物医学文本的特定领域大型语言模型
2023-04-23 09:44:32
“我们很高兴在Pubmed上发布一种新的生物医学模型,这是构建可以支持生物医学研究的基本模型的第一步。”-CRFM主任Percy Liang
最近,斯坦福基础模型研究中心(CRFM)Pubmeded与MosaicML联合开发 GPT模型是一种大型语言模型,可以通过训练来解释生物医学语言。
目前的大型语言模型(LLM)它通常用于自然语言合成、图像合成和语音合成,但已知在特定行业的应用很少。本文介绍的Pubmed GPT展示了特定行业特别是生物医学领域的大型语言模型的能力。CRFM的开发者通过Mosaicml云平台,在Pubmed生物医学数据集上训练了一个生成式预训练模型(GPT)。结果表明,特定领域的语言生成模型在实际应用中会有很好的发展前景,LLM也会表现出更好的性能和竞争力。注:目前该模型仅用于研发,不适合生产。
PubMed GPT
模型。PubMed GPT 2.7B基于HugingFace GPT模型具有2.7B参数和1024个标记的最大上下文长度。尽可能简单的设计显示了现有LLM训练方法的强大功能。
数据。部分使用Pile数据集——PubMed Abstracts和PubMed Central。
计算。开发人员选择在50B令牌上多次训练Pubmed GPT,达到较长的计算周期(300B)。结果表明,优秀的LLM模型仍然可以在数据有限的情况下进行训练。
MosaicML云平台
MosaicML云。基于MosaicML云软件栈,开发者拥有128个NVIDIA A100-40GB GPU、Pubmed在节点间1600Gb/s网络带宽的集群上训练 GPT,总训练时间约为6.25天。
Composer库。由于Mosaicml开源Composer库的高效性和包容性,开发者使用Composer库及其FSDP集成进行训练模型。
流数据集。为了快速、灵活、廉价地管理自定义的训练数据集,开发者使用Mosaicml的新StreamingDataset库来管理100GB多个文本的训练数据集。
评估
开发者对Pubmed有几个问答基准 GPT进行了评估。例如,以下医学问题摘要基准:
处理患者的问题查询(包括歧义、拼写错误等信息),并以清晰正确的形式呈现给医生。
同时,开发者将结果与5个模型进行了比较(如上图所示):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。结果证明:
1、LLM非常全能,在特定领域从零开始训练时具有与专业设计系统相当的性能;
2、对特定领域数据的预训练胜过一般数据;
3、专注模型可以利用较少的资源获得高质量的结果。
总结
PubMed GPT的结果只是生物医学文本和其他领域研究的第一步,未来仍需要更多的研究人员来开发更先进的结果。目前,这只是一个概念验证。最终的希望是在未来有一个值得信赖的互动人工智能系统,它不仅可以筛选人类专家,还可以促进可靠的互动。
参考资料
https://www.mosaicml.com/blog/introducing-pubmed-gpt