关于模态融合是否引起效果下降的疑问 #113

xiaodongyichuan · 2024-10-28T07:17:55Z

首先感谢优化的工作，真的感觉是一个很惊艳的多模态交互解决方案。但是还存在以下几点疑问，请问是否有解决方案。
是否可以在输入中加入图片音频文本全部的编码?这样可以方便RAG技术的引入。
第二点，关于现有模型的理解能力，使用T1A2返回的结果不如，使用纯文本输出文本的效果，引入音频输出似乎使效果变更差了。请问什么原因？
训练代码是否可以开源？谢谢。

xiaodongyichuan · 2024-10-28T07:37:37Z

相同的文本输入，T1A2输出的结果是错的，T1T2输出是对的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于模态融合是否引起效果下降的疑问 #113

关于模态融合是否引起效果下降的疑问 #113

xiaodongyichuan commented Oct 28, 2024

xiaodongyichuan commented Oct 28, 2024

关于模态融合是否引起效果下降的疑问 #113

关于模态融合是否引起效果下降的疑问 #113

Comments

xiaodongyichuan commented Oct 28, 2024

xiaodongyichuan commented Oct 28, 2024