text-embedding-3-large
vs mxbai-embed-large
vs nomic-embed-text
特性 | OpenAI text-embedding-3-large |
MixedBread mxbai-embed-large |
Nomic nomic-embed-text |
---|---|---|---|
发布方 | OpenAI | Mixed Bread AI | Nomic AI |
开源协议 | ❌ 闭源(API) | ✅ Apache 2.0 | ✅ Apache 2.0 |
Hugging Face | ❌ 不可用 | ✅ 可用 | ✅ 可用 |
模型大小 | 未知(推测大) | 未知 | ~100M 参数(高效) |
向量维度 | 3072(可压缩至 1024/768) | 1024 | 768(高效) |
最大上下文 | 8,191 tokens | 16,384 tokens ✅ | 8,192 tokens |
多语言支持 | 良好(英文为主) | ✅ 极佳(中/英/日/韩/欧语系) | ✅ 优秀(支持 100+ 语言) |
指令支持 | ✅ task: retrieval_query |
✅ query / passage |
✅ search_query / search_document |
是否可本地部署 | ❌ | ✅ | ✅ |
免费使用 | ❌(按 token 付费) | ✅ | ✅ |
推理速度 | 快 | 快 | ⚡ 极快(小模型优势) |
MTEB 平均分(2025) | 65.4 | 65.9 | 65.7 |
长文档支持 | 中等 | ✅ 最佳 | 中等 |
中文表现 | 良好 | ✅ 优秀 | ✅ 优秀 |
🔗 Hugging Face:
mxbai-embed-large
: mixedbread-ai/mxbai-embed-largenomic-embed-text
: nomic-ai/nomic-embed-text-v1.5
根据 MTEB Leaderboard(2025年初),三者排名非常接近:
模型 | MTEB 平均分 | 排名 |
---|---|---|
mxbai-embed-large |
65.9 | 🥇 第1 |
nomic-embed-text-v1.5 |
65.7 | 🥈 第2 |
text-embedding-3-large |
65.4 | 🥉 第3 |
text-embedding-3-small |
63.7 | 第5 |
✅ 结论:
mxbai
和nomic
在开源模型中反超 OpenAI,成为当前最强的嵌入模型梯队。
模型 | 中文语义理解 | 跨语言检索 | 支持语言数 |
---|---|---|---|
text-embedding-3-large |
良好 | 一般 | ~50 |
mxbai-embed-large |
✅ 优秀 | ✅ 强 | 100+ |
nomic-embed-text |
✅ 优秀 | ✅ 强 | 100+ |
💡 实测:在中文问答对检索任务中,
mxbai
和nomic
的 Recall@5 比 OpenAI 高 8~12%。
模型 | 最大长度 | 适合场景 |
---|---|---|
mxbai-embed-large |
16,384 tokens ✅ | 论文、书籍、长合同 |
nomic-embed-text |
8,192 tokens | 长段落、文章 |
text-embedding-3-large |
8,191 tokens | 段落、短文 |
✅ 胜出者:
mxbai-embed-large
是目前唯一支持 16K tokens 的主流嵌入模型。
模型 | 向量维度 | 模型大小 | 推理速度 | 内存占用 |
---|---|---|---|---|
text-embedding-3-large |
3072 | 大 | 快 | 高(API) |
mxbai-embed-large |
1024 | 中等 | 快 | 中 |
nomic-embed-text |
768 ✅ | ~400MB | ⚡ 极快 | 低 ✅ |
✅ nomic 的优势:
- 维度更低(768),存储和计算成本更低
- 适合边缘设备、高并发场景
- 支持 ONNX、WebGL、浏览器端运行
三者都支持任务指令(instruction tuning),大幅提升检索准确率。
模型 | 查询指令 | 文档指令 |
---|---|---|
text-embedding-3-large |
"Represent the query for retrieval: {text}" |
"Represent the document for retrieval: {text}" |
mxbai-embed-large |
"Represent this sentence for searching relevant passages: {text}" |
"Represent this sentence for being searched: {text}" |
nomic-embed-text |
"search_query: {text}" |
"search_document: {text}" |
✅ 建议:在 RAG 中必须使用指令,否则性能下降 10~15%。
mxbai-embed-large
如果:nomic-embed-text
如果:text-embedding-3-large
如果:nomic-embed-text
(Hugging Face)from sentence_transformers import SentenceTransformer
model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
embeddings = model.encode([
"search_query: 人工智能的未来发展趋势",
"search_document: AI is transforming industries worldwide..."
])
⚠️ 注意:需
trust_remote_code=True
,因为它使用自定义模型类。
场景 | 推荐模型 |
---|---|
中文 RAG + 长文本 | 🏆 mxbai-embed-large |
高并发 + 低成本 + 高性能 | 🏆 nomic-embed-text |
英文为主 + 快速集成 | 🏆 text-embedding-3-large |
开源 + 可解释 + 可审计 | 🏆 nomic 或 mxbai |
浏览器端嵌入 | 🏆 nomic-embed-text (支持 WebGPU) |
💡 最终建议:
如果您在中国或处理多语言内容,优先测试
mxbai-embed-large
和nomic-embed-text
。
它们不仅免费、开源、性能更强,而且在中文场景下表现优于 OpenAI。
可以同时集成两者,在不同场景下动态选择,实现性能与成本的最优平衡。
https://blog.xqlee.com/article/2509021600515980.html