-
Notifications
You must be signed in to change notification settings - Fork 5
/
history.txt
162 lines (134 loc) · 9.35 KB
/
history.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
2012/12/? ver3.0を公開。
ver2.0 -> 3.0 の主な違い
・より簡潔な実装を目指してリファクタリングを行いました。
・MeCabの使用をやめました。形態素区切り情報が利用できず、若干精度が落ちますが、処理が簡潔になりました。精度が落ちる問題は、外部モジュールを作成し今後対応する予定です
・pficommonを用いることで、wstringを使用せずに日本語が扱えるようになりました。これによりlocale周りの問題が解決しています。
・uxの使用。
・辞書をjson形式に
*****************
以下に制作者の個人的なメモを乗せておきます。
細かい仕様などが気になる方以外は特に読む必要はありません。
■バグリスト
「3分の1」 = 33%として抽出する?
「戦後五十年間」の扱い
ぐらい
ミリ秒
「7年ぶり」の扱い(扱わない)
十六世 とらない
翌三年 明日三日、と同じ。どうするのだっけ?
五十五分ごろ、がdurationになる(abstimeの許容値を超えてしまっているため)
10時—18時 五百円—千百円
約三○度
「年度」どう扱う?(評価ではとりあえず無視)
「60t」はトン?
300〜700万円
■TODO List
・多倍長整数の実装(現在は数値をすべてdoubleで扱っている)
・辞書の整備 SI単位系、世界の貨幣、各種専門用語
・曖昧性の解消
・num,abs,rel,durで複数ヒットした場合の処理。現状では適当な順序で最長マッチさせてるだけ。
・一般名詞を認識してしまう。除去リストの作成の必要
・URLとか英字羅列で認識してしまう。URLは頻繁に出てくるので、なんとかする。
・英語の表現(特に時間)
・数の認識
・並列表記(1、2)への対応
・x,x+1となる数のみ対応。1991,92年などは未対応
・これに限って言えば、abstimeのパターンとしてとってしまってprocessで処理すれば処理可能。
・「数万」の扱い
・1千1千など、不適当な表記 ある程度やったが、他に変な表現はあるかも。「100百20十」とかは無理。
・30-40万年前 30年から40万年前で認識
・数量表現
・「代」「台」の問題 特に対処していない
・絶対時間表現
・1989.3 3.11の違いを判定
・序数はすべて持続時間。absではない。
・曜日 9月29日(金)〜10月18日(水) 2001.4.29 Friday 1:30
・2回以上の接尾辞、接頭辞はとっていない
・形態素区切り情報をいれていない 「シャンプー1本」「総ページ数100頁」
・<= <の区別を表示させる。1920年代 とかで間違えてしまう
・その他
・月額2,604円(税込)から (税込)まで認識しないと、範囲表現がとれない
・「2の10乗キロメートル」「三分の一キログラム」このような特殊な数の表記については対応していない
■対応が難しいもの
・数量を含まない表現
・半世紀、数世紀 などの表現。数は入っていないが、数として本当は認識したい
・曖昧性の解消
・五輪、 一体(除去してしまっているが、本当に除去していいのか判定する必要)
・(20)、
・評価用アイスセンサーキット: \120,000
・頻度表現、現状の表現法で良い?
・同三日 どうしようもない
・キロ、センチ、ミリ(すべてmに統一)
・30年の歴史 「三年生」もとっちゃってる
・DCカプラーCP45W LDR−216シリーズ 23区、 一戸〜八戸
・「雑居ビル6F」 ファラデーとして抽出してしまう
・特殊な例
・年齢表現 生後6ヶ月〜80才前後
・その他
・ひらがなは難しい。「1ねんぶんのじゃがいも」「3にんがたべました」
・3月第三週 序数はどうする?
その他メモ:
・二週間以内:持続時間
・比などはとっていない 1:3:5、 1,3,5の割合で〜とか
・31ページで紹介した〜 -> 31ページ「目」で紹介した〜 ということ?未考慮
・一番お値打ち <「最も」の意味。数量表現か?
・「周年」は経過した時間を示す。どれとも言い辛いが、数量表現とする。
・「13月」など存在しない絶対時間表現は抽出しない。
・昔の数字にも対応したが、precisionが下がる&入れなくてもほぼrecallは下がらないので、外した方がいいかもしれない。
未対応・注意点リスト(具体的に、細かく。)
・「20人〜」「20人から」「〜20人」は「20人」に等しいとする(20~∞とは扱わない)
・「30人まで」は「−∞〜30」と扱う
・「先月1日」は「先日(相対時間表現)」+「1日(絶対時間表現)」という構成をもつ相対時間表現。これを相対時間表現とするために、相対時間表現の実装の中で絶対時間表現の実装と重複する処理をたくさん行っている
・3月第三週 分割して認識している。
・「9Paまで下げる」「9階まで降りる」これは範囲表現ではないと考えられる。現在はとってしまっている。
・「数年」「数週間」 数字が入っていないので抽出対象外
・およそ100人〜500人 およそが二重にかかるバグ <本当ならaboutなどの処理は最後にやるべき。やはり、処理はせずにoptionとして出力した方が良い?
・80歳前後、で0.7がけするのはやりすぎ。aboutの範囲はかなり雑に決められている
・何百円 扱っていない
・「台分」「人分」「◯分」分は色々な単位につきうる。数量表現??
・とりあえず出てきたやつを追加している
・「単位」+「分」で検索かけて、でてきたやつを単位に追加しよう <<< 後で
・※「台」だと車を数えていて、「台分」だとそれによりできるスペースを示している
・「およそほぼ約30人」 修飾語は2語までしかとっていない
・h, hour, m, min, s, sec 対応していない
・1歳未満 厳密な意味は0~1だけど-INF~1になっている
・3割5分 5尺6寸 1円30銭 対応していない(どんな数量表現にする?)
・定価1,500円(税込)、 家族4人、 余計な表現は含めない
・電話番号、住所etcはとらない
・2ヶ月に1回 一日に三回 現状では、とりあえず分割して考える
・グッチペンダントネックレス145171−J8400−8106価格:40635円 【グッチ】GUCCI 商品名、番号はとらない
・直径1.6cm < 直径が1.6cm。できるだけ抽出する、が評価実験の際、抽出できなくても負例とはしない。
・5階、305号室、3丁目 <名詞化。場所を示しているのであって、量を示してはいない。抽出しない。(「階」はとれてしまっている
・月号 <量ではない。とらない。
・数量表現かまだ迷っているもの、のうち抽出するもの:3倍速
・3歳児:数量表現でない
・固有名詞中の数量表現
* 正例:マガジン3月3日号、特集国家百年
* 負例:そろそろ三日兎にいこうぜ <- 店の名前?
* 固有名詞中の曖昧な表現はとらなくて良い、ということで(マガジン2006)
* ? : 3L缶(3リットル缶?)
* text:で,車の一時入校許可証で気付いたのだが,今日は12321な日でした. なんとなくメモ
・「一番◯◯な〜」この「一番」は「最も」の意味ではあるが、数量表現としても捉えられなくはないのでOKとする
・メモ:
・パート3
・段落的な意味の数量とか 「1. はじめに 2. 関連研究」
・ベスト3 (ベストなもの3つ)
・2chのスレッド数っぽく 〜なんだけど(31)
・fnを見つけるのはめんどいので、「一時」みたいにとらずともとってもどっちもいいような場合は、とりあえず取る
・〜の五十人の(うち)一人
・23.6%増 増、は数量の属性を表しているので〜 <なんか、境界が曖昧じゃない?
・取引銀行3行
・チャンネル チャンネル数を表す単位のときもある?
* 時間表現
* 計18時間 <- 18時間の属性を付加しているだけで、時間表現としては「18時間」というだけ 税込みとかと同じ理論
* 八年半ぶり <ぶりってつけないんだっけ?
* 曜日、「第四月曜」、「毎月2のつく日」
* 今月十一日 < 11日だけでok。対象としない
* 戦後:1945の年号として捉える
* 曖昧性:2/8 これは多分日付だけど…
* 月50時間、週2回:per月として認識
数を含まないもの
昨年、前年、来年、再来年、
先月、来月、
明日、昨日、同日、
正月