专利名称:一种基于文本数据的标签识别方法专利类型:发明专利发明人:简仁贤,王海波申请号:CN201911231843.1申请日:20191205公开号:CN111046180A公开日:20200421
摘要:本发明公开了一种基于文本数据的标签识别方法,包括步骤一、利用标注好标签的训练数据训练CRF模型;步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别,输出CRF模型识别出的一个或多个待选标签;步骤三、对一个或多个待选标签进行聚类操作,输出标签簇;步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。本发明通过采用CRF模型,仅需对模型训练一次,即可将CRF模型应用于不同的领域的文本数据中的标签识别中,泛化能力强,识别出的标签语义完整。
申请人:竹间智能科技(上海)有限公司
地址:200233 上海市徐汇区宜山路700号B2幢楼18层整层
国籍:CN
代理机构:北京挺立专利事务所(普通合伙)
代理人:王静思
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容