语义文本相似度

语义文本相似度 (STS) 为两个文本的相似性分配一个分数。在此示例中，我们使用 stsb 数据集作为训练数据来微调我们的模型。请参阅以下示例脚本，了解如何在 STS 数据上调整 SentenceTransformer

training_stsbenchmark.py - 此示例展示了如何通过使用预训练的 transformer 模型（例如 distilbert-base-uncased）以及池化层从头开始创建 SentenceTransformer 模型。
training_stsbenchmark_continue_training.py - 此示例展示了如何为先前创建和训练的 SentenceTransformer 模型（例如 all-mpnet-base-v2）继续在 STS 数据上进行训练。

训练数据

在 STS 中，我们有句子对以及指示相似度的分数。在原始 STSbenchmark 数据集中，分数范围从 0 到 5。我们在 stsb 中将这些分数归一化到 0 到 1 之间，因为这是 CosineSimilarityLoss 所要求的，正如您在损失概览中看到的那样。

这是一个简化的训练数据版本

from datasets import Dataset

sentence1_list = ["My first sentence", "Another pair"]
sentence2_list = ["My second sentence", "Unrelated sentence"]
labels_list = [0.8, 0.3]
train_dataset = Dataset.from_dict({
    "sentence1": sentence1_list,
    "sentence2": sentence2_list,
    "label": labels_list,
})
# => Dataset({
#     features: ['sentence1', 'sentence2', 'label'],
#     num_rows: 2
# })
print(train_dataset[0])
# => {'sentence1': 'My first sentence', 'sentence2': 'My second sentence', 'label': 0.8}
print(train_dataset[1])
# => {'sentence1': 'Another pair', 'sentence2': 'Unrelated sentence', 'label': 0.3}

在上述脚本中，我们直接加载 stsb 数据集

from datasets import load_dataset

train_dataset = load_dataset("sentence-transformers/stsb", split="train")
# => Dataset({
#     features: ['sentence1', 'sentence2', 'score'],
#     num_rows: 5749
# })

损失函数

我们使用 CosineSimilarityLoss 作为我们的损失函数。

对于每个句子对，我们将句子 A 和句子 B 传递到基于 BERT 的模型中，这将产生嵌入向量 u 和 v。这些嵌入向量的相似度使用余弦相似度计算，并将结果与黄金相似度分数进行比较。请注意，这两个句子是通过同一模型而不是两个单独的模型馈送的。特别是，相似文本的余弦相似度最大化，而不同文本的余弦相似度最小化。这允许我们的模型进行微调并识别句子的相似性。

有关更多详细信息，请参阅 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks。

CoSENTLoss 和 AnglELoss 是 CosineSimilarityLoss 的更现代变体，它们接受相同的数据格式，即句子对以及范围从 0.0 到 1.0 的相似度分数。非正式实验表明，这两种方法比 CosineSimilarityLoss 产生更强大的模型。