原 CLAP 模型:对齐音频与文本的跨模态 作者:XD / 发表: 2025年8月26日 03:31 / 科研学习/ 阅读量:9 CLAP 模型的结构 文本输入 → 文本编码器 → 投影层 → 共享语义空间 音频输入 → 音频编码器 → 投影层 → 共享语义空间