关于处理过的数据集的疑问 #105

ziruiqin · 2024-04-25T07:36:30Z

仔细地看了论文和数据集，关于三个模态的processed的数据集我有一些问题：

文本模态为什么用bert模型处理后，是将每个单词表示为768个特征的向量而不是将一个句子表示？
还有你们的文本处理过后的数据第二维是39，意思是指你们将所有句子通过padding使得单词数量变为39吗？
同理，音频和视频模态的第二维是不是也是时间步长呢？可以告知一下音频模态的400时间步长是指采样频率为400HZ吗？视频上论文写得采样频率是30HZ，但是时间步长是55，这也是padding的结果是吧？

Columbine21 · 2024-06-20T01:16:04Z

@ziruiqin
Q1. 文本模态为什么用bert模型处理后，是将每个单词表示为768个特征的向量而不是将一个句子表示
A1. 因为文本序列要进行后续的融合，而非先得到文本的向量表示进行“后期”融合；
Q2. 还有你们的文本处理过后的数据第二维是39，意思是指你们将所有句子通过padding使得单词数量变为39吗？
A2. 是的，还有截断操作，用的是3sigma原则选择的长度39.
Q3. 同理，音频和视频模态的第二维是不是也是时间步长呢？可以告知一下音频模态的400时间步长是指采样频率为400HZ吗？视频上论文写得采样频率是30HZ，但是时间步长是55，这也是padding的结果是吧？
A3. 音频和视频模态的第二维是时间步长。您可能混淆了采样频率（特征数 per second），时间步长（总特征时间步）的概念。如果您用的是aligned 数据最后时间步长都是进过补齐/截断操作的

xiaoxinchaoren56 · 2024-09-24T07:22:10Z

@Columbine21 您好，MOSI数据集中音频特征的长度为5，视频数据特征长度为20，请问这两个模态的特征是如何提取的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于处理过的数据集的疑问 #105

关于处理过的数据集的疑问 #105

ziruiqin commented Apr 25, 2024

Columbine21 commented Jun 20, 2024 •

edited

Loading

xiaoxinchaoren56 commented Sep 24, 2024 •

edited

Loading

关于处理过的数据集的疑问 #105

关于处理过的数据集的疑问 #105

Comments

ziruiqin commented Apr 25, 2024

Columbine21 commented Jun 20, 2024 • edited Loading

xiaoxinchaoren56 commented Sep 24, 2024 • edited Loading

Columbine21 commented Jun 20, 2024 •

edited

Loading

xiaoxinchaoren56 commented Sep 24, 2024 •

edited

Loading