pretraing_LayoutLMv3_PubLayNet

利用方法

0. Download dataset

PubLayNet:
https://github.com/ibm-aur-nlp/PubLayNet
上記URLからPDFのデータセットをダウンロード

1. create image(src/pdf2image.py)

PDFからiamge(png)を生成

 sh ./scirpt/pdf2image.sh

2. create vocab for tokenizer (src/create_vocab.py)

新しい辞書を作成

 sh ./script/create_vocab.sh

3. preprocessing (src/preprocessing.py)

前処理

 sh ./script/preprocessing.sh

4. train (src/pretrain_3.py)

学習

 sh ./script/pretrain.sh

Done

・元コードのLayoutLMv3はfine tuning用に書かれたものなので、事前学習用にMasked language model(MLM)を作成
・LayoutLMv3はspan maskを使用
・↑実装コードがなかったため自分で実装 (src/utils/utils.py)
・論文の文字数は長いため512で切り捨てずに512ごとに分割(src/utils/utils.py)
・Masked image model(MIM)の実装
・Word-Patch Alignment (WPA)の実装

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
__MACOSX/二十四史-图像		__MACOSX/二十四史-图像
configs		configs
logs		logs
output		output
script		script
src		src
1.log		1.log
README.md		README.md
nohup.out		nohup.out
requirements.txt		requirements.txt
run.log		run.log
tonight.log		tonight.log

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pretraing_LayoutLMv3_PubLayNet

利用方法

0. Download dataset

1. create image(src/pdf2image.py)

2. create vocab for tokenizer (src/create_vocab.py)

3. preprocessing (src/preprocessing.py)

4. train (src/pretrain_3.py)

Done

About

Releases

Packages

Contributors 2

Languages

chaochen99/test

Folders and files

Latest commit

History

Repository files navigation

pretraing_LayoutLMv3_PubLayNet

利用方法

0. Download dataset

1. create image(src/pdf2image.py)

2. create vocab for tokenizer (src/create_vocab.py)

3. preprocessing (src/preprocessing.py)

4. train (src/pretrain_3.py)

Done

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages