OmniTools 5月19日消息,Hugging Face 正式发布 Ettin 重排序(Reranker)模型家族,共包含六款 Sentence Transformers CrossEncoder 模型,参数量覆盖 17M、32M、68M、150M、400M 及 1B。该系列均基于约翰霍普金斯大学研发的 Ettin ModernBERT 编码器构建。
该系列模型采用知识蒸馏技术训练,以 mixedbread-ai/mxbai-rerank-large-v2 为教师模型,结合 lightonai/embeddings-pre-training 与 fine-tuning 数据集子集进行优化。所有模型均支持最长 8192 token 上下文,并采用 Apache 2.0 开源协议。
在 MTEB(eng, v2) 检索基准测试中,Ettin 重排序模型表现优异:1B 版本 NDCG@10 达到 0.6114,与教师模型(0.6115)基本持平;17M 最小版本亦达 0.5576,显著优于传统基线模型。全系列兼容 Sentence Transformers v5.5.0,并支持 Flash Attention 2 加速推理。