Skip to content

chaochen99/test

Repository files navigation

pretraing_LayoutLMv3_PubLayNet

利用方法

0. Download dataset

PubLayNet:
https://github.com/ibm-aur-nlp/PubLayNet
上記URLからPDFのデータセットをダウンロード

1. create image(src/pdf2image.py)

PDFからiamge(png)を生成

 sh ./scirpt/pdf2image.sh

2. create vocab for tokenizer (src/create_vocab.py)

新しい辞書を作成

 sh ./script/create_vocab.sh

3. preprocessing (src/preprocessing.py)

前処理

 sh ./script/preprocessing.sh

4. train (src/pretrain_3.py)

学習

 sh ./script/pretrain.sh

Done

・元コードのLayoutLMv3はfine tuning用に書かれたものなので、事前学習用にMasked language model(MLM)を作成
・LayoutLMv3はspan maskを使用
・↑実装コードがなかったため自分で実装 (src/utils/utils.py)
・論文の文字数は長いため512で切り捨てずに512ごとに分割(src/utils/utils.py)
・Masked image model(MIM)の実装
・Word-Patch Alignment (WPA)の実装

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published