巴西塞阿拉联邦大学最近发表的一篇论文预印本中提供了一个新的自然语言处理框架来自动化从科学数据中总结和提取核心数据。
对于科研工作者来说,日常工作中有相当大一部分的内容是通过搜索检阅相关论文,并摘取其中的有效信息。然而,阅读一篇论文并提炼中与自己研究工作相关的内容需要大量的精力,而阅读几十篇论文更是不易。在这项研究当中,研究团队提出了一种基于机器学习(ml)的自然语言处理(nlp)方法,能够自动识别并从文章的语料库中提取分类和数字参数。
该方法(命名为a.rix)通过同时/互换使用ml模型,如神经元网络(nn)、潜在语义分析(lsa)、天真贝叶斯分类器(nbc)和使用正则表达式(regex)的模式识别模型来操作。
为了测试a.rix引擎的效率,研究团队使用了一个由7,873篇涉及天然产品(nps)的科学文章组成的语料库来进行测试。该引擎自动提取分类和数字参数,如(i)提取活性分子的植物种类,(ii)活性分子可以对付的微生物种类,以及(iii)对这些微生物的最小抑制浓度(mic)值。这些参数的提取不需要语音标记(pos)和命名实体识别(ner)方法(即不需要文本注释),模型的训练是在无监督下进行的。这样一来,a.rix基本上可以用于任何科学领域的文章。
前瞻经济学人app资讯组
论文原文
https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf
p7 q0
品牌、内容合作请点这里:
想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:
下载app
关注微信号
扫一扫下载app
与资深行业研究员/经济学家互动交流让您成为更懂趋势的人
咨询专线:400-068-7188
我要投稿
×