DWIE数据集文档长度问题 #3

FDUyjx · 2021-12-01T11:59:53Z

您好！

因为最近对你们在DWIE数据集上的实验十分感兴趣，我最近也在DWIE数据集上尝试复现一些模型结果，但结果好像都与您们论文里报道的有些差别，考虑原因可能是DWIE数据集上的很多文档长度会超过BERT的最大输入限制512，请问一下您们是用的ATLOP中的滑动窗口处理的吗？但ATLOP中的滑动窗口貌似也是扩充到了1024，实际还是不能满足很多文档长度需求，想请问一下您们是如何处理的呢？

期待您的回复，非常感谢！

祝好

rudongyu · 2021-12-02T02:50:50Z

您好！

因为最近对你们在DWIE数据集上的实验十分感兴趣，我最近也在DWIE数据集上尝试复现一些模型结果，但结果好像都与您们论文里报道的有些差别，考虑原因可能是DWIE数据集上的很多文档长度会超过BERT的最大输入限制512，请问一下您们是用的ATLOP中的滑动窗口处理的吗？但ATLOP中的滑动窗口貌似也是扩充到了1024，实际还是不能满足很多文档长度需求，想请问一下您们是如何处理的呢？

期待您的回复，非常感谢！

祝好

您好！感谢关注！

请问您指的是 backbone 的结果差别比较大吗？具体差异有多少呢，下面给出一组 ATLOP 上收敛的 trace 给您做参考：

关于 context 长度溢出的处理，目前我们遵循 ATLOP 的设定，用两个 512 长度的窗口叠加，受制于显存大小，大于 1024 的部分仍被截断。当然，超长文本上的抽取确实也还是一个值得探讨的问题，所以近期也有一些工作关注在关系抽取之前进行 model-based / prior-based evidence 抽取，一定程度上也许能缓解这个问题。

希望能解决您的疑问，欢迎继续讨论！

祝好！

FDUyjx · 2021-12-02T06:19:32Z

确实是backbone过程中的效果差异，验证集上的F1差了大概四个点左右，可能与参数设置，以及对长度的处理有关，我再试试看看，十分感谢您的回答！

祝好！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DWIE数据集文档长度问题 #3

DWIE数据集文档长度问题 #3

FDUyjx commented Dec 1, 2021

rudongyu commented Dec 2, 2021

FDUyjx commented Dec 2, 2021

DWIE数据集文档长度问题 #3

DWIE数据集文档长度问题 #3

Comments

FDUyjx commented Dec 1, 2021

rudongyu commented Dec 2, 2021

FDUyjx commented Dec 2, 2021