Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于处理过的数据集的疑问 #105

Open
ziruiqin opened this issue Apr 25, 2024 · 2 comments
Open

关于处理过的数据集的疑问 #105

ziruiqin opened this issue Apr 25, 2024 · 2 comments

Comments

@ziruiqin
Copy link

仔细地看了论文和数据集,关于三个模态的processed的数据集我有一些问题:

  1. 文本模态为什么用bert模型处理后,是将每个单词表示为768个特征的向量而不是将一个句子表示?
    image
  2. 还有你们的文本处理过后的数据第二维是39,意思是指你们将所有句子通过padding使得单词数量变为39吗?
    image
  3. 同理,音频和视频模态的第二维是不是也是时间步长呢?可以告知一下音频模态的400时间步长是指采样频率为400HZ吗?视频上论文写得采样频率是30HZ,但是时间步长是55,这也是padding的结果是吧?
    image
    image
@Columbine21
Copy link
Collaborator

Columbine21 commented Jun 20, 2024

@ziruiqin
Q1. 文本模态为什么用bert模型处理后,是将每个单词表示为768个特征的向量而不是将一个句子表示
A1. 因为文本序列要进行后续的融合,而非先得到文本的向量表示进行“后期”融合;
Q2. 还有你们的文本处理过后的数据第二维是39,意思是指你们将所有句子通过padding使得单词数量变为39吗?
A2. 是的,还有截断操作,用的是3sigma原则 选择的长度39.
Q3. 同理,音频和视频模态的第二维是不是也是时间步长呢?可以告知一下音频模态的400时间步长是指采样频率为400HZ吗?视频上论文写得采样频率是30HZ,但是时间步长是55,这也是padding的结果是吧?
A3. 音频和视频模态的第二维是时间步长。您可能混淆了采样频率(特征数 per second),时间步长(总特征时间步)的概念。如果您用的是aligned 数据最后时间步长都是进过补齐/截断操作的

@xiaoxinchaoren56
Copy link

xiaoxinchaoren56 commented Sep 24, 2024

@Columbine21 您好,MOSI数据集中音频特征的长度为5,视频数据特征长度为20,请问这两个模态的特征是如何提取的。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants