复述数据
在我们的论文 使用知识蒸馏使单语句子嵌入多语言化 中,我们展示了复述数据与 MultipleNegativesRankingLoss
结合是学习句子嵌入模型的强大组合。有关此损失函数的更多信息,请阅读 NLI > MultipleNegativesRankingLoss。
training.py 脚本从 数据集概述 加载各种数据集。我们通过从相应数据集中采样示例来构建批次。到目前为止,示例不会在数据集之间混合,即一个批次仅包含来自单个数据集的示例。
由于数据集大小差异很大,我们执行 循环采样 以使用来自每个数据集的相同批次数量进行训练。
预训练模型
请查看 预训练模型 以查看所有在这些复述数据集上训练的模型。
paraphrase-MiniLM-L12-v2 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、msmarco-triplets、quora_duplicates、coco_captions、flickr30k_captions、yahoo_answers_title_question、S2ORC_citation_pairs、stackexchange_duplicate_questions、wiki-atomic-edits
paraphrase-distilroberta-base-v2 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、msmarco-triplets、quora_duplicates、coco_captions、flickr30k_captions、yahoo_answers_title_question、S2ORC_citation_pairs、stackexchange_duplicate_questions、wiki-atomic-edits
paraphrase-distilroberta-base-v1 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、quora_duplicates、wiki-atomic-edits、wiki-split
paraphrase-xlm-r-multilingual-v1 - paraphrase-distilroberta-base-v1 的多语言版本,在 50 多种语言的并行数据上训练。(教师模型:paraphrase-distilroberta-base-v1,学生模型:xlm-r-base)