PubLayNet:
https://github.com/ibm-aur-nlp/PubLayNet
上記URLからPDFのデータセットをダウンロード
PDFからiamge(png)を生成
sh ./scirpt/pdf2image.sh
新しい辞書を作成
sh ./script/create_vocab.sh
前処理
sh ./script/preprocessing.sh
学習
sh ./script/pretrain.sh
・元コードのLayoutLMv3はfine tuning用に書かれたものなので、事前学習用にMasked language model(MLM)を作成
・LayoutLMv3はspan maskを使用
・↑実装コードがなかったため自分で実装 (src/utils/utils.py)
・論文の文字数は長いため512で切り捨てずに512ごとに分割(src/utils/utils.py)
・Masked image model(MIM)の実装
・Word-Patch Alignment (WPA)の実装