MSMARCO 模型

MS MARCO 是一个大规模信息检索语料库,它基于使用 Bing 搜索引擎的真实用户搜索查询创建。提供的模型可以用于语义搜索,即,给定关键词 / 搜索短语 / 问题,模型将找到与搜索查询相关的段落。

训练数据包含超过 50 万个示例,而完整的语料库包含超过 880 万个段落。

版本历史

v1

版本 1 模型在 MS Marco Passage 检索任务的训练集上进行训练。 这些模型使用 in-batch negative sampling 通过 MultipleNegativesRankingLoss 进行训练,缩放因子为 20,批次大小为 128。

它们可以像这样使用

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("distilroberta-base-msmarco-v1")

query_embedding = model.encode("[QRY] " + "How big is London")
passage_embedding = model.encode("[DOC] " + "London has 9,787,426 inhabitants at the 2011 census")

print("Similarity:", util.pytorch_cos_sim(query_embedding, passage_embedding))

模型:

  • distilroberta-base-msmarco-v1 - 在 MSMARCO dev 数据集 (queries.dev.small.tsv) 上的性能 MRR@10: 23.28