• / 19

关键词提取方法及计算设备

关 键  词:
关键词 提取 方法 计算 设备
资源描述:

《关键词提取方法及计算设备》由会员分享,可在线阅读,更多相关《关键词提取方法及计算设备(19页珍藏版)》请在我爱发明网上搜索。

1、布。 7.如权利要求1-6中任一项所述的方法, 其中, 候选词的综合特征值按照以下步骤确 定: 分别于所述主题集合中的每个主题的概率; 候选词属于所述主题集合中的每个主题的概率组成该候选词的主题概率分所述文本输入预设的主题分类模型, 以便所述主题分类模型输出所述文本所属的主 题集合, 以及各候选词属和。 6.如权利要求1-5中任一项所述的方法, 其中, 候选词的主题概率分布按照以下步骤确 定: 将-4中任一项所述的方法, 其中, 候选词的位置特征值为候选词在所述文 本中出现的各个位置顺序的倒数之的数量为预设的词向量维数; 将所述权重矩阵中的每一个行向量作为相应候选词的词向量。 5.如权利要求1。

2、量模 型, 以得到所述隐藏层的权重矩阵, 所述权重矩阵的行的数量为所述文本包括的候选词的 数量, 列候选词的词向量的步骤包括: 将所述文本中的候选词与其上下文词所组成的词对作为训练样本, 训练所述词向的方法, 其中, 所述词向量模型包括依次相连的输入层、 隐藏层和 输出层, 所述采用词向量模型来确定定候选词的词向量; 将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。 4.如权利要求3所述 3.如权利要求1或2所述的方法, 其中, 候选词之间的相似度按照以下步骤确定: 采用词向量模型来确 所述文本为英文文本, 所述方法还包括: 删除所述文本中的停用词, 将所述文本中剩余的词作为候选词。。

3、值; 将综合特征值最大的预设数量个候选词作为所述文本的关键词。 2.如权利要求1所述的方法, 其中,最大值作为该候选词的语义多样性; 根据所述覆盖率、 位置特征值、 语义多样性来确定该候选词的综合特征根据该候选词在所述文本中的位置来确定该候选词的位置特征值: 确定该候选词的主 题概率分布, 将概率的分别确定该候选词与其他候选词的相似度, 将该候选词与其他候选词的相似度的和作 为该候选词的覆盖率; 在计算设备中执行, 包括: 获取待提取关键词的文本, 所述文本包括多个候选词; 对于每一个候选词: 11985217 A 2020.11.24 CN 111985217 A 1.一种关键词提取方法, 。

4、为文本的关键词。 本发明一并公开了相应的计算设备。 权利要求书2页 说明书11页 附图5页 CN 1率、 位置特征值、 语义多 样性来确定该候选词的综合特征值; 将综合特征 值最大的预设数量个候选词作的位置特征值: 确定该候选词 的主题概率分布, 将概率的最大值作为该候选词 的语义多样性; 根据覆盖该候选词与其他候选词的相似度的和作为 该候选词的覆盖率; 根据该候选词在文本中的位 置来确定该候选词文本, 该文本中包括多个候选词; 对于每一个 候选词: 分别确定该候选词与其他候选词的相似 度, 将)摘要 本发明公开了一种关键词提取方法, 在计算 设备中执行, 包括以下步骤: 获取待提取关键词 的01) G06N 3/04(2006.01) (54)发明名称 一种关键词提取方法及计算设备 (57 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/30(2020. 李帅胡亮 (74)专利代理机构 北京思睿峰知识产权代理有 限公司 11396 代理人 孟玉洁赵爱军林大学 地址 130012 吉林省长春市前进大街2699 号 (72)发明人 李拓航迟令李宏图孙成宇21)申请号 202010941205.5 (22)申请日 2020.09.09 (71)申请人 吉19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日。

展开阅读全文
  我爱发明网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:关键词提取方法及计算设备
链接地址:https://www.woaifaming.net/doc/7128.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 20018-2021 我爱发明网版权所有

经营许可证编号:粤ICP备20005300号-1



收起
展开