MSMARCO 模型
MS MARCO 是一个大规模信息检索语料库,它是基于必应(Bing)搜索引擎的真实用户搜索查询创建的。所提供的模型可用于语义搜索,即,给定关键词/搜索短语/问题,模型将找到与搜索查询相关的段落。
训练数据包含超过 50 万个样本,而完整的语料库包含超过 880 万个段落。
版本历史
v1
版本 1 的模型在 MS Marco 段落检索任务的训练集上进行训练。这些模型使用 MultipleNegativesRankingLoss 进行批内负采样(in-batch negative sampling)训练,缩放因子(scaling factor)为 20,批处理大小(batch size)为 128。
可以这样使用它们
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("distilroberta-base-msmarco-v1")
query_embedding = model.encode("[QRY] " + "How big is London")
passage_embedding = model.encode("[DOC] " + "London has 9,787,426 inhabitants at the 2011 census")
print("Similarity:", util.pytorch_cos_sim(query_embedding, passage_embedding))
模型:
distilroberta-base-msmarco-v1 - 在 MSMARCO 开发数据集 (queries.dev.small.tsv) 上的性能 MRR@10: 23.28