生活 >

【时快讯】一种创建单词列表的更好的新方法

时间:2023-03-14 11:06:58       来源:万能网

单词列表是许多领域的大量研究的基础。ComplexityScienceHub的研究人员现已开发出一种算法,可以应用于不同的语言,并且可以比其他算法更好地扩展单词列表。

许多项目都是从创建单词列表开始的,不仅在创建思维导图的公司中如此,而且在所有研究领域也是如此。想象一下,您想通过分析Twitter帖子来了解人们在哪几天心情特别好。仅仅寻找“快乐”这个词是不够的。

相反,您将不得不使用一种算法来检测所有表明某人快乐的推文。“因此,第一步是创建一个包含所有表明这一点的词的列表。整个研究都是这样做的,”维也纳复杂性科学中心的研究员AnnaDiNatale解释说。但是如何得出最准确、最完整的单词列表呢?


【资料图】

一个很多人都关心的问题

这个普遍存在的问题不仅涉及想要了解公众如何接受政客言论的舆论研究人员。公司也想通过情绪分析了解他们的产品是如何被感知的。

为了改进,DiNatale现在开发了一种名为LEXpander的新方法,该方法在两种不同语言(德语和英语)中的性能优于以前的算法。此外,有史以来第一次,她开发了一种完全可以比较不同工具的方法。

提高性能

与其他四种词表扩展算法(WordNet、Empath2.0、FastText和GloVe)相比,LEXpander的表现要好得多,尤其是在德语中。例如,研究人员发现,LEXpander在扩展英语单词列表以获得积极意义时,猜对了43%的单词。相比之下,现有的流行模型FastText只有28%的时间是正确的。

独立于语言本身

原因是该工具独立于语言工作。它不是基于一种语言,而是基于所谓的colexification网络。这一公认的语言概念基于同音异义词和多义词,即具有两个或更多不同含义的单个词。例如:古希腊词φìρμακον(pharmacon)可以表示药物或毒药。这是两件不同的事情,但主题很接近。但还有其他一些并不暗示亲属关系——例如作为金融机构的“银行”或河流沿岸的土地。

“如果你用多种语言收集它们——在这里我们分析了大约19种不同的语言——你可以看到它们之间的联系,”DiNatale说。当这些并置化以跨不同语系的多种语言发生时,网络就形成了,从而建立了联系。

这种与语言本身的独立性允许LEXpander在不同语言中取得更好的效果。“有许多针对英语开发的方法。它们工作得非常好,而且很快,每个人都在使用它们。尝试将它们应用于其他语言是可行的,但如果你已经开始为德语或语开发方法,效果可能会差很多,”迪纳塔莱解释道。

对于COVID等新主题很重要

对于许多主题,已经有很好的单词列表。但对于新主题(例如COVID),必须创建新主题。到目前为止,它们通常是在同事之间集思广益时手工创建的,并使用了多种工具来提供帮助。但直到现在还没有办法比较它们。

AnnaDiNatale和她的团队现在创造了这种可能性,并且还开发了一种性能优于其他工具的新工具。这可以成为未来各个领域许多研究项目的重要基石。

关键词:

阅读下一篇