Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
wainshine committed Jul 27, 2019
1 parent 00b0c99 commit e9b9866
Showing 1 changed file with 40 additions and 9 deletions.
49 changes: 40 additions & 9 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,39 +1,70 @@
# 中文人名语料库(Chinese-Names-Corpus)
业余项目“萌名(一个基于语料库技术的取名工具)”的副产品。不定期更新。只删词,不加词。
业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。

不定期更新。只删词,不加词。

可用于中文分词、人名识别。

---

<strong>中文常见人名(Chinese_Names_Corpus)</strong>

120万。从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。
120万。

从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。

新增性别标注。


<strong>中文古代人名(Ancient_Names_Corpus)</strong>

25万。多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。
25万。

多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。


<strong>日文人名(Japanese_Names_Corpus)</strong>

18万。从维基百科中提取。删除了罕见姓氏、和带生僻字的人名。
18万。

从维基百科中提取。删除了罕见姓氏、和带生僻字的人名。

数据清洗过程相见,“[日本人名数据清洗分享](https://github.com/wainshine/Chinese-Names-Corpus/issues/4)”。


<strong>翻译人名(English_Cn_Name_Corpus)</strong>

48万。多个人名词典汇总。删除了翻译人名常用字之外的人名。混有少量西化中文人名,如“李伯恩”。清洗后仍存有少量badcase,尤其是英文地名。
48万。

多个人名词典汇总。删除了翻译人名常用字之外的人名。

清洗后仍存有少量badcase,尤其是英文地名。


<strong>中文姓氏(Chinese_Family_Name)</strong>

1千。从亿级人名语料中提取。删除了罕见姓氏,复姓只保留了“欧阳”。
1千。

从亿级人名语料中提取。删除了罕见姓氏。


<strong>中文称呼(Chinese_Relationship)</strong>

5千。称呼词根。多个人名词典汇总。删除了部分带贬义的称呼。
5千。称呼词根。

多个人名词典汇总。删除了部分带贬义的称呼。


18万。中文称呼。

多个人名词典汇总。清洗后仍存有大量badcase。

18万。中文称呼。多个人名词典汇总。清洗后仍存有大量badcase。

<strong>成语词典(ChengYu_Corpus)</strong>

5万。多个成语词典汇总。
5万。

多个成语词典汇总。

---

Expand Down

0 comments on commit e9b9866

Please sign in to comment.