查看原文
其他

【工具】语义分析系统---- NLPIR

丁爸 丁爸 情报分析师的工具箱 2023-01-02

今天给大家推荐一个语义分析系统: NLPIR

 NLPIR能够全方位多角度对文本进行处理,包括:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

官网地址:http://ictclas.nlpir.org/

系统下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389

系统创始人张华平百科简介:

张华平,北京理工大学计算机语言信息处理研究所副所长,兼任网络搜索与挖掘实验室主任,博士,副研究员,汉语分词系统ICTCLAS的创始人,研究生导师,"百星计划"首批入选者,钱伟长中文信息处理科学技术奖一等奖获得者(2010年);同时担任首都师大兼职硕导,辽宁师大客座教授,中国计算机学会高级会员,北京市重点产业知识产权联盟专家,北京市科委评审专家,中关村管委会技术评审专家,先后获得计算所所长特别奖,中科院院长奖。主要研究领域为:自然语言处理、信息检索、网络信息内容安全,先后主持了国家863、242等相关的课题15项,研制的天玑舆情系统已经广泛地应用于中国证监会、银监会、广电、工信部等 单位,已经成为实际的业务系统。


在线演示地址:http://ictclas.nlpir.org/nlpir/

系统支持Chrome、Firefox、IE(9+)、UC、360(极速模式)等主流浏览器。

一、文本获取方式

1、在线演示系统里可以直接在网页URL里粘贴任何网站的链接,点击抓取,则可以抓取到该URL网页的正文,然后点击分析,则可以对该篇文章经行分析。

2、也可以通过复制粘贴的方式输入需要分析的文本

二、系统主要功能

1、分词标注  

汉语词性标记集(共计99个,22个一类,66个二类,11个三类)

用户可自定义词语

2、实体抽取

NLPIR实体抽取系统能够智能识别文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词,这是对语言规律的深入理解和科学预测,其所提炼出的词语不需要在词典库中事先存在。

3、词频统计

演示平台只展示了名词、动词、形容词三种开放词类的Top 10结果。

4、文本分类

NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。系统内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高,综合开放测试的F值接近86%。NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。

5、情感分析

NLPIR情感分析提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。情感分析主要采用了两种技术:
1.情感词的自动识别与权重自动计算,利用共现关系,采用Bootstrapping的策略,反复迭代,生成新的情感词及权重。
2.情感判别的深度神经网络:基于深度神经网络对情感词进行扩展计算,综合为最终的结果。

6、关键词提取

7、词义关联扩展

POS-CBOW方法综合了词性、词的分布特点,采用word2vector改进模型,对5GB的微博语料进行训练,自动提取出了语义关联关系。如果训练文本调整为专业领域的生语料,该模型同样可以产生专业领域的本体关联关系。

8、文本涉及地址地图可视化展示

9、摘要提取

NLPIR自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。自动摘要中间件不仅可以针对一篇文档生成连贯流畅的摘要,还能够将具有相同主题的多篇文档去除冗余,并生成一篇简明扼要的摘要。用户可以自由设定摘要的长度、百分比等参数。其处理速度达到每秒钟20篇。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存