之后,我们计算每种药物的注释数量,并比较不同 关于模型的训练和评估就到此为止 的标记方法。对于大多数药物,我们可以看到,无论使用哪种注释方法,它们的注释频率都是相同的。以胰岛素为例,我们可以看到,该模型有时只标记胰岛素,尽管还有另一个名称组件(例如, aspart 或 degludec)。
表 :该表显示了使用正则表达式和训练模型对每种胰岛素相关药物的注释数量。我们可以看到,由于该模型未能检测到第二部分,因此对胰岛素的注释比文献中实际可用的要多。
这有助于从表 1 中识别出假阳性的数量
除了所有测量之外,我们当然还想知道有哪些 WhatsApp 数据库 新发现的实体。为了获得一个小的概述,我们可以使用 字符串匹配器 节点从初始列表中识别新单词和药物名称之间的相似性。这样做之后,我们发现有些词只是拼写错误或由于其他国家的拼写不同而导 如何回应谷歌的负面评论? 致的药物名称的轻微变化。一些新发现的名称只是已知药物的扩展(例如, insulin isophane)。然而,最后,我们能够检测到大约 750 个新词,而超过一半无法与初始列表中的药物名称相关联。这些词需要进一步调查。
创建共现网络并预测药物用途
我们来使用模型。我们可以使用模型标记的药物 邮寄线索 名称来创建在同一文档中同时出现的药物名称的共现网络。这使我们能够更详细地调查新发现的药物名称,此外,还可以预测这些新发现药物的用途。为了创建该网络,我们使用 术语共现计数器 节点,该节点在句子或文档级别上计算共现次数。在这种情况下,将其设置为文档级别就足够了,因为我们的文档是高级摘要,并且摘要中一起命名的药物很可能以某种方式相关。根据我们得到的术语共现表,我们可以创建一个网络。