|
Post by account_disabled on Mar 4, 2024 2:59:45 GMT -3
由于机器语言和人类语言有很大不同,因此必须首先使用机器学习来训练NER模型。这是使用包含您选择的命名实体类别的预定义数据集来完成的。例如,在上面的场景中,已经预定义了实体类别date、person、location、Career和Organization 。 那么NER是如何工作的呢?一旦经过训练,NER 模型就会使用两步过程来模仿人类的阅读方式。首先,模型识别命名实体,然后对该实体进行分类或归类。 一些 NER 系统使用词向量来提高速度和准确性。词向量将词表示为数字,但词向量不是简单地为每个词分配一个数字,
而是在多个维度上生成十进制格式的数字 电子邮件数据 表示,例如在各种上下文中出现的频率。结果?相似词之间的编号密切相关,使得NER模型能够快速准确地找到相似词。 这是一个极其简单的例子。假设您正在使用由家具店评论组成的数据集。仅跨一维工作,预训练模型为“灯”生成的词向量为 0.223458993。词向量可以帮助你找到类似于“lamp”的单词: 光:0.212835892 壁灯:0.212444586 枝形吊灯:0.199875213 解决歧义挑战 人类语言的复杂性部分在于具有多种含义的单词的数量。
也称为同音异义词,对于人类来说,只要有足够的上下文来解读正确的含义,这些单词通常就没有歧义。 例如,我们根据上下文知道以下每个句子的含义: 投手连续投出三球。 他们又要了一壶冰水。 然而,机器无法理解上下文,因此此示例中的歧义语言提出了真正的挑战。但由于 NER 模型是监督学习模型,这意味着它们必须先经过训练才能应用,因此已经开发出机器学习方法来帮助它们应对这一挑战。 流行的 NER 用例 您可以简单地使用 NER 来收集更多结构化数据并将其存储在数据库中。
|
|