首页/术语词典/多模态嵌入

AI 术语词典

多模态嵌入

文本、图像和其他数据类型的共享向量空间

定义

多模态嵌入将不同类型的数据(文本、图像、音频)放入共享向量空间,使跨模态的语义相关内容具有相似的表示。这支持跨模态搜索(通过文本描述查找图像)、图像字幕和视觉问答。CLIP(由 OpenAI 开发)是一个广为人知的多模态嵌入模型。

相关术语

返回术语词典