未游网

盘古分词 盘古分词
32位64位无插件无广告
  • 文件大小:194 MB
  • 界面语言:中文
  • 发布日期:2023-04-16
  • 系统平台:Win7/WinXP/Win8/Win10
  • 软件标签:文字处理
本地下载 安全放心,最新版本
广告位500x320
中文分词作用中文未登录词鉴别
盘古分词能够对一些没有字典中的未登录词自动检索
高频词优先选择
盘古分词能够依据高频词来处理分词的分歧难题
多元化分词
盘古分词给予多种输出处理分词粒度分布和分词精密度衡量的难题
中文姓名鉴别
键入: “张三说确实确实理”
分词結果:张三/说/的/的确/在理/
键入 “李三购买了一张三角餐桌”
分词結果:李三/买/了/一张/三角/餐桌/
强制性一元分词
键入 “张三说确实确实理”
分词結果: 张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/的确(4,5)/实(5,1)/在(6,1)/在理(6,5)/理(7,1)/
繁体字中文分词
键入我的選擇
分词結果: 我/的/選擇/
与此同时输出简体字和繁体
键入我的選擇
分词結果:我(0,5)/的(1,5)/挑选 (2,1)/選擇(2,5)/
中文词性输出
盘古分词能够将以登陆词的中文词性输出给客户,以便于客户做进一步解决。
全角字符适用
盘古分词能够鉴别全角的英文字母和数据
英语分词英语分词
英语单词一般全是靠空格符等标记切分,这一非常简单,盘古分词分英文当然都没有什么问题。
英语专用名词鉴别
一些英文简写是字母符号混和,或是是数字数据混和,这一分词起來就无法依照空格符号那样切分了,针对字母符号混和的如 U.S.A ,
只需将这个词入录到字典中,盘古分词就可以分离出来整词。针对英文字母和数据混和的,盘古分词会全自动做为整词输出。
英语原词输出
英文大小写与此同时输出
别的作用停用词过虑
针对一些标点,连词,语气助词等有时需要在分词时过虑掉,盘古分词给予一个 StopWord.txt 文档,客户需要将须要过虑的词添加到这一文档中,
并将停用词过虑开发设计开启,就可以过虑掉这种词。
设定分词权值
盘古分词能够让客户对如下所示特点设定自定权值
1、未登录词权值
2、最配对词权值
3、次配对词权值
4、再度配对词权值
5、强制输出的一个字的权值
6、数据的权值
7、英语语汇权值
8、标记的权值
9、强制性与此同时输出繁简中国汉字时,非原先文字的中国汉字输出权值。
*客户自定标准
字典管理方法
盘古分词给予一个字典可视化工具 DictManage 根据这一专用工具,你能提升,改动,和删掉字典中的英语单词
动态性载入字典
根据字典专用工具提升,改动,和删掉字典中的文字后,维持字典,盘古分词会自行将新的字典文档载入进来,而不用重启。
关键字高亮度部件
Lucene 给予了一个关键字高亮度部件,但这一部件对中文的帮助并不是特别好,尤其是假如也有多元化分词的状况,解决的就更不太好。
盘古分词给予了一个对于中文和英文的关键字高亮度部件 PanGu.HighLight ,其对中文的适用好些于Lucene 那一个高亮度部件。
近义词输出(事后版本号给予)
Lucene.net 插口及实例
在PanGu4Lucene 这一包里边有我做的一个盘古 Lucene 的简易新闻搜索Web实例程序流程,Release 包里边有使用说明书。
性能参数
Core Duo 1、8 GHz 下单核 分词速率为 390K 标识符每秒钟,2进程分词速率为 690K 标识符每秒钟。