Hugging Face 发布 Sentence Transformers 多模态嵌入与重排模型训练指南

Hugging Face 近日发布技术博客，详细介绍了如何使用 Sentence Transformers 库训练和微调多模态嵌入与重排模型。该库现已全面支持文本、图像、音频和视频等多模态数据处理，开发者可基于自有领域数据对模型进行微调以优化特定任务表现。

文章以视觉文档检索（VDR）为实战案例，演示了微调 Qwen/Qwen3-VL-Embedding-2B 模型的完整流程。实验数据显示，微调后的模型在 NDCG@10 指标上从基线模型的 0.888 显著提升至 0.947，性能超越所有参与对比的现有 VDR 模型，甚至优于参数量达其 4 倍的竞品。

此外，指南还系统梳理了多模态训练的核心组件，涵盖数据集格式规范、损失函数（如 CachedMultipleNegativesRankingLoss）应用，以及 Router 路由模块的使用。Router 模块支持开发者灵活组合独立编码器处理不同模态，并通过训练对齐嵌入空间，为构建轻量化多模态模型提供了高效路径。