返回行业动态

Hugging Face 发布 Sentence Transformers 多模态嵌入与重排模型训练指南

2026/04/16 13:51
查看原文

Hugging Face 近日发布技术博客,详细介绍了如何使用 Sentence Transformers 库训练和微调多模态嵌入与重排模型。该库现已全面支持文本、图像、音频和视频等多模态数据处理,开发者可基于自有领域数据对模型进行微调以优化特定任务表现。

文章以视觉文档检索(VDR)为实战案例,演示了微调 Qwen/Qwen3-VL-Embedding-2B 模型的完整流程。实验数据显示,微调后的模型在 NDCG@10 指标上从基线模型的 0.888 显著提升至 0.947,性能超越所有参与对比的现有 VDR 模型,甚至优于参数量达其 4 倍的竞品。

此外,指南还系统梳理了多模态训练的核心组件,涵盖数据集格式规范、损失函数(如 CachedMultipleNegativesRankingLoss)应用,以及 Router 路由模块的使用。Router 模块支持开发者灵活组合独立编码器处理不同模态,并通过训练对齐嵌入空间,为构建轻量化多模态模型提供了高效路径。