Quora 重复问题

此文件夹包含演示如何训练 SentenceTransformers 用于信息检索的脚本。作为一个简单的例子，我们将使用 Quora 重复问题数据集。它包含超过 500,000 个句子，以及超过 400,000 个成对注释，指示两个问题是否重复。

在此数据集上训练的模型可用于挖掘重复问题，即，给定大量句子（在本例中为问题），识别所有重复的对。请参阅释义挖掘，了解如何使用句子 transformers 来挖掘重复问题/释义的示例。此方法可以扩展到数十万个句子。

训练

选择正确的损失函数对于微调有用的模型至关重要。对于给定的任务，两个损失函数尤其适用：OnlineContrastiveLoss 和 MultipleNegativesRankingLoss。

对比损失

有关完整的训练示例，请参阅 training_OnlineContrastiveLoss.py。

Quora 重复数据集有一个 pair-class 子集，其中包含问题对和标签：1 表示重复，0 表示不同。

正如我们的损失概述所示，这允许我们使用 ContrastiveLoss。标签为 1 的相似对被拉近，以便它们在向量空间中彼此靠近，而比定义的 margin 更接近的不同对在向量空间中被推开。

改进的版本是 OnlineContrastiveLoss。此损失查找哪些负对的距离小于最大正对的距离，以及哪些正对的距离大于负对的最小距离。即，此损失自动检测批次中的难例，并仅针对这些情况计算损失。

损失可以像这样使用

from datasets import load_dataset

train_dataset = load_dataset("sentence-transformers/quora-duplicates", "pair-class", split="train")
# => Dataset({
#     features: ['sentence1', 'sentence2', 'label'],
#     num_rows: 404290
# })
print(train_dataset[0])
# => {'sentence1': 'What is the step by step guide to invest in share market in india?', 'sentence2': 'What is the step by step guide to invest in share market?', 'label': 0}
train_loss = losses.OnlineContrastiveLoss(model=model, margin=0.5)

MultipleNegativesRankingLoss

有关完整示例，请参阅 training_MultipleNegativesRankingLoss.py。

MultipleNegativesRankingLoss 特别适用于信息检索/语义搜索。一个很好的优点是它只需要正对，即，我们只需要重复问题的示例。有关损失如何工作的更多信息，请参阅 NLI > MultipleNegativesRankingLoss。

使用此损失很容易，并且不需要调整任何超参数

from datasets import load_dataset

train_dataset = load_dataset("sentence-transformers/quora-duplicates", "pair", split="train")
# => Dataset({
#     features: ['anchor', 'positive'],
#     num_rows: 149263
# })
print(train_dataset[0])
# => {'anchor': 'Astrology: I am a Capricorn Sun Cap moon and cap rising...what does that say about me?', 'positive': "I'm a triple Capricorn (Sun, Moon and ascendant in Capricorn) What does this say about me?"}
train_loss = losses.MultipleNegativesRankingLoss(model)

由于 “is_duplicate” 是对称关系，我们可以不仅使用 (anchor, positive)，还可以使用 (positive, anchor) 到我们的训练样本集

from datasets import concatenate_datasets

train_dataset = concatenate_datasets([
    train_dataset,
    train_dataset.rename_columns({"anchor": "positive", "positive": "anchor"})
])
# Dataset({
#     features: ['anchor', 'positive'],
#     num_rows: 298526
# })

注意

增加批次大小通常会产生更好的结果，因为任务变得更难。从 100 个问题集中识别正确的重复问题比从仅 10 个问题集中识别更困难。因此，建议将训练批次大小设置为尽可能大。我使用 32 GB GPU 内存上的 350 的批次大小对其进行了训练。

注意

MultipleNegativesRankingLoss 仅在 (a_i, b_j) 与 j != i 实际上是否定、非重复问题对时才有效。在少数情况下，此假设是错误的。但在大多数情况下，如果我们抽取两个随机问题，它们不是重复的。如果您的数据集不能满足此属性，MultipleNegativesRankingLoss 可能无法很好地工作。

多任务学习

ContrastiveLoss 非常适用于对分类，即，给定两个对，它们是否重复。它将负对在向量空间中推得很远，以便区分重复对和非重复对的效果良好。

MultipleNegativesRankingLoss 在另一方面主要减少了从大量可能的候选对象中选出的正对之间的距离。但是，非重复问题之间的距离不是那么大，因此这种损失对于对分类效果不佳。

在 training_multi-task-learning.py 中，我演示了如何使用两种损失训练网络。基本的代码是定义两种损失并将其传递给 fit 方法。

from datasets import load_dataset
from sentence_transformers.losses import ContrastiveLoss, MultipleNegativesRankingLoss
from sentence_transformers import SentenceTransformerTrainer, SentenceTransformer

model_name = "stsb-distilbert-base"
model = SentenceTransformer(model_name)

# https://huggingface.co/datasets/sentence-transformers/quora-duplicates
mnrl_dataset = load_dataset(
    "sentence-transformers/quora-duplicates", "triplet", split="train"
)  # The "pair" subset also works
mnrl_train_dataset = mnrl_dataset.select(range(100000))
mnrl_eval_dataset = mnrl_dataset.select(range(100000, 101000))

mnrl_train_loss = MultipleNegativesRankingLoss(model=model)

# https://huggingface.co/datasets/sentence-transformers/quora-duplicates
cl_dataset = load_dataset("sentence-transformers/quora-duplicates", "pair-class", split="train")
cl_train_dataset = cl_dataset.select(range(100000))
cl_eval_dataset = cl_dataset.select(range(100000, 101000))

cl_train_loss = ContrastiveLoss(model=model, margin=0.5)

# Create the trainer & start training
trainer = SentenceTransformerTrainer(
    model=model,
    train_dataset={
        "mnrl": mnrl_train_dataset,
        "cl": cl_train_dataset,
    },
    eval_dataset={
        "mnrl": mnrl_eval_dataset,
        "cl": cl_eval_dataset,
    },
    loss={
        "mnrl": mnrl_train_loss,
        "cl": cl_train_loss,
    },
)
trainer.train()

预训练模型

目前，以下在 Quora 重复问题上训练的模型可用

distilbert-base-nli-stsb-quora-ranking：我们扩展了 distilbert-base-nli-stsb-mean-tokens 模型，并在 Quora 重复问题数据集上使用 OnlineContrastiveLoss 和 MultipleNegativesRankingLoss 对其进行了训练。有关代码，请参阅 training_multi-task-learning.py
distilbert-multilingual-nli-stsb-quora-ranking：distilbert-base-nli-stsb-quora-ranking 的多语言扩展。在 50 种语言的并行数据上训练。

您可以像这样加载和使用预训练模型

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("distilbert-base-nli-stsb-quora-ranking")