意译数据

在我们的论文《使用知识蒸馏让单语句子嵌入多语化》中，我们展示了意译数据与 MultipleNegativesRankingLoss 的结合是学习句子嵌入模型的强大组合。有关此损失函数的更多信息，请阅读 NLI > MultipleNegativesRankingLoss。

training.py 脚本从数据集概览中加载各种数据集。我们通过从相应的数据集中抽样来构建批次。到目前为止，不同数据集的样本不会混合，即一个批次仅包含来自单个数据集的样本。

由于数据集的大小差异很大，我们执行轮询抽样，以便从每个数据集使用相同数量的批次进行训练。

预训练模型

请查看预训练模型，以浏览所有在这些意译数据集上训练过的模型。

paraphrase-MiniLM-L12-v2 - 在以下数据集上训练：AllNLI, sentence-compression, SimpleWiki, altlex, msmarco-triplets, quora_duplicates, coco_captions,flickr30k_captions, yahoo_answers_title_question, S2ORC_citation_pairs, stackexchange_duplicate_questions, wiki-atomic-edits
paraphrase-distilroberta-base-v2 - 在以下数据集上训练：AllNLI, sentence-compression, SimpleWiki, altlex, msmarco-triplets, quora_duplicates, coco_captions,flickr30k_captions, yahoo_answers_title_question, S2ORC_citation_pairs, stackexchange_duplicate_questions, wiki-atomic-edits
paraphrase-distilroberta-base-v1 - 在以下数据集上训练：AllNLI, sentence-compression, SimpleWiki, altlex, quora_duplicates, wiki-atomic-edits, wiki-split
paraphrase-xlm-r-multilingual-v1 - paraphrase-distilroberta-base-v1 的多语言版本，在超过50种语言的平行数据上进行训练。（教师模型：paraphrase-distilroberta-base-v1，学生模型：xlm-r-base）