Skip to content

02.1 工具包:TF IDF TextRank

Droidtown Linguistic. Tech. Co., Ltd edited this page May 30, 2021 · 2 revisions

Articut NLP 內建 TF-IDF/TextRank/LawToolkit/LocalRE/POS/NER 六種工具包

此頁說明 TF-IDF 和 TextRank 兩種工具的操作方式:

  1. 首先利用取得 Articut 處理文本,取得 resultDICT:
from ArticutAPI import Articut
from pprint import pprint
username = "" #這裡填入您在 https://api.droidtown.co 使用的帳號 email。若使用空字串,則預設使用每小時 2000 字的公用額度。
apikey   = "" #這裡填入您在 https://api.droidtown.co 登入後取得的 api Key。若使用空字串,則預設使用每小時 2000 字的公用額度。

articut = Articut(username, apikey)

inputSTR = """中央氣象局今(30)日針對中南部5縣市與澎湖發布大雨特報,其中彰化和南投更達豪雨等級。氣象專家賈新興指出,目前北部是空檔,預估中午前後仍有機會出現較大雨勢。此外,天氣風險公司天氣分析師柯聿寧表示,編號04W的熱帶低壓最快今明將升格為第三號颱風「彩雲」,未來有北轉趨勢,恐間接影響西南季風後續發展。賈新興在臉書發文指出,一早看到梅雨鋒面,雲圖上「一大坨粉紅色雲團」就是這波梅雨鋒面的「豪雨製造機」中尺度對流系統,目前主要降雨區域比預測的位置偏南邊,強降雨區域集中在彰化,出現雷雨伴隨強風狀況明顯的區域為彰化、台中、苗栗、雲林、嘉義、澎湖與高雄,提醒民眾要注意安全,他也提到,北部目前是空檔,預估中午前後仍有較大雨勢出現的機會。"""

resultDICT = articut.parse(inputSTR)
  1. 接著,將 resultDICT 傳給 TF-IDF 工具計算特徵詞:
tfidfResultLIST = articut.analyse.extract_tags(resultDICT)
pprint(tfidfResultLIST)
  1. 或是,將 resultDICT 傳給 TextRank 工具計算特徵詞:
tfidfResultLIST = articut.analyse.textrank(resultDICT)
pprint(tfidfResultLIST)

就能分別得到 TF-IDF 的特徵詞或是 TextRank 的特徵詞了。