link | size | after decompression | char.bin md5 |
---|---|---|---|
ipadic-default 提取码: 6vv3 | 12.9mb | 50.4mb | 5241444579A5BB0FA0A33F00F24A29BC |
mecab-ipadic-neologd 2020-08-20 提取码: 4v4h | 184mb | 868mb | 5241444579A5BB0FA0A33F00F24A29BC |
link | size | after decompression | char.bin md5 |
---|---|---|---|
vnr-unidic 提取码: qxx4 | 45.4mb | 248mb | 92C3E76ABBB89274EE95A9B8698E691E |
現代書き言葉UniDic 2.3.0 | 2.2G | ? | ? |
現代話し言葉UniDic 3.0.1.1 | 1.5G | ? | ? |
unidic-neologd-20200910 提取码: vrtx (Not Recommand) | 43.5mb | 196mb | 92C3E76ABBB89274EE95A9B8698E691E |
現代書き言葉UniDic 3.1.0 cwj | 528mb | 0.97g | - |
現代話し言葉UniDic 3.1.0 csj | 529mb | ? | ? |
不推荐使用neologd的unidic词典,因为里面很多词组feture长度和ipadic一模一样,没有原版unidic那么完整,ipadic是没问题的。
其他的unidic也是有这个可能,有些词汇与ipadic一样,featrue长度比较短。所以操作时需要判断空。
link | size | after decompression | char.bin md5 |
---|---|---|---|
mecab-jumandic with source script 提取码: 36du | 32.24mb | 217mb | ? |
基本的5个文件
char.bin
dicrc
matrix.bin
sys.dic
unk.dic
有些多了4个def文件不知有没用的
left-id/.def
right-id.def
pos-id.def
rewrite.def