检测厂家
免费服务热线

Free service

hotline

010-00000000
检测厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

瞧一瞧:识别文字的AI也能发现新冠病毒变异 - 科技金融 - 电子发烧友网

发布时间:2022-04-12 00:30:07 阅读: 来源:检测厂家
识别文字的AI也能发现新冠病毒变异 - 科技金融 - 电子发烧友网

伽利略曾认为自然是用数学书写,而生物学可能是用文字来书写。自然语言处理(下文简称NLP)算法现在能够生成蛋白质序列,并预测病毒突变、包括预测能帮助新冠病毒躲避免疫系统攻击的关键突变。

上述之所以能实现,得益于一重要洞见,即生物系统许多特性可以用单词和句子来解释。麻省理工学院计算生物学家邦妮·伯格说:“我们正在学习进化的语言。”

过去几年里,遗传学家乔治·丘奇的实验室团队、Salesforce团队等研究人员已经证明,蛋白质序列和遗传密码可以使用NLP技术建模。

最近,伯格及其同事的研究发表于《科学》杂志。在研究中,伯格等人将几种毒株集合在一起,利用NLP来预测能帮助病毒躲避人体免疫系统抗体的突变。病毒躲过抗体称作“病毒免疫逃逸”,该研究的基本观点认为,免疫系统解读病毒类似于人类解读句子。

Salesforce科学家阿里·马达尼正利用NLP预测蛋白质序列,他说:“论文写得很好,延续之前工作的发展势头。”

伯格团队使用了语法和语义(或称意义)这两种语言学概念,病毒感染宿主的能力等遗传或进化适应性特征,可从语法正确程度的角度来解读。病毒传染性强,在语法层面为正确;病毒传染性不强,则为不正确。

同样,病毒突变可以用语义来解释。比如,病毒表面蛋白质突变,某些抗体便无法发现病毒,像这样导致病毒在环境中与其它事物区分开来的变异,便是改变了病毒的语义。病毒突变可以有不同语义,而每一种有自身语义的病毒可能需要不同抗体来解读。

为建立这些特性的模型,研究人员使用了LSTM遇到强制拆迁怎么处理动迁
神经网络
,LSTM诞生在基于变形金刚的神经网络出现之前,后者现为GPT-3等大型语言模型所使用。LSTM等存在较久的网络所需训练数据比变形金刚少得多,并且在许多应用中仍然表现良好。

研究人员不是用数百万个句子,而是利用取自三种病毒的数千个基因序列训练NLP模型。这些序列为流感病毒集体土地强拆需要强拆证吗
株的4.5万个独特序列、HIV病毒株的6万个独特序列、以及新冠病毒病毒株的3000到4000个独特序列。麻省理工学院研究生布莱恩·希建立了模型。他说:“由于对新冠病毒的监测较少,新冠病毒的数据较少。”

NLP模型在数学空间中对单词进行编码,单词和单词间若含义相近,距离会更近,反之,距离则更远。这一过程称为“嵌入”。在病毒层面,基因序列的嵌入便是根据病毒突变的相似性,对病毒进行分组。

该方法的总目标,是识别那些可能帮助病毒逃逸免疫系统、且不降低病毒传染性的突变,也就是说要识别那些改变病毒含义、而又不导致病毒语法错误的突变。为强拆判决赢了还需要复议吗
测试模型,研究团队使用评估机器学习模型所做预测的通用度量标准,该标准给精确度打分的区间为0.5(相当于意外发生的概率)到1(完美)。

研究中,研究人员采用由模型识别、最有可能出现的突变,并在实验室中利用病毒,检查这些突变中有多少确实是会帮助病毒逃逸免疫的突变。精确度分数最低值为针对HIV病毒株的预测结果精确度,为0.69;最高值为针对新冠病毒病毒株的预测结果精确度,为0.85。研究人员表示,实验结果比其他最先进模型的结果要好。

预先警告

知道可能会有哪些突变,医院和公共卫生当局便更容易提前计划。例如,要模型显示出某种流感病毒的语义自2020年以来发生了多大变化,就能预计人们已经产生的抗体在今年会发挥多大作用。

该研究团队表示,正在根据新冠病毒新变种运行模型。针对的新变种包括英国出现的变异病毒、丹麦水貂体内出现的变异病毒、以及南非、新加坡和马来西亚出现的变异病毒。研究人员已经发现,这些变异病毒免疫逃逸潜力可能很高,但尚未在实验室外进行测试。

不过,模型没有预测到南非变异病毒出现的一种变异。人们已经开始担心,这种变异可能帮助病毒躲避疫苗接种,目前研究人员正在尝试探明原因。伯格说:“南非变异病毒里包含多个突变,我们认为,这些突变组合起来产生的效应可能会导致免疫逃逸。”

使用NLP可以加速原本缓慢的研究进程,以前是从医院里一名新冠患者身上提取病毒、测序基因组,并在实验室里重新创造和研究相应突变。项目研究人员麻省理工学院生物学家布赖恩·布莱森说,以前的做法可能需要几周时间,NLP模型可以直接预测潜在突变,实验室研究便找到重点、工作速度也加快。

布莱森说:“整个工作很大开眼界。”每周都有新病毒序列。布莱森说:“一边更新模型,一边跑去实验室进行实验测试,很奇妙。计算生物学好就好在这。”

但这也只是开始。将基因突变视为语义变化,可以在生物学中有不同应用。布莱森说:“一个好类比,能起很大作用。”

例如,希认为研究团队的方法可以应用于研究抗药性。希说,“比如癌细胞蛋白质对化疗产生耐药性、或者细菌蛋白质对抗生素产生耐药性”,这些变异也可以看作是意义上出现变化,“我们解读语言模型,可以有很多创意。”

马达尼说:“我认为,生物学正处在革命边缘。我们不再仅仅收集大量数据,而正在转向学习如何深入理解数据。”

总体来说,研究人员正在关注NLP的发展,同时发掘语言和生物学之间的新类比,来利用NLP取得的进步。不过,布莱森、伯格和希都认为,生物学和NLP算法交叉可以是双向,即新NLP算法受生物学概念启发而诞生。伯格说:“生物学有自己的语言。”
责任编辑:lq6