CT (In-Batch Negatives)

Carlsson 等人在 Semantic Re-Tuning With Contrastive Tension (CT) 中提出了一种无监督学习方法，用于仅需句子的句子嵌入。

背景

在训练期间，CT 构建了两个独立的编码器（“Model1”和“Model2”），初始参数共享，用于编码一对句子。如果 Model1 和 Model2 编码相同的句子，则两个句子嵌入的点积应该很大。如果 Model1 和 Model2 编码不同的句子，则它们的点积应该很小。

在最初的 CT 论文中，使用了专门创建的批次。我们实现了一个改进的版本，它使用 in-batch 负采样：Model1 和 Model2 都编码相同的句子集。我们最大化匹配索引的分数（即 Model1(S_i) 和 Model2(S_i)），同时我们最小化不同索引的分数（即 i != j 的 Model1(S_i) 和 Model2(S_j)）。

与 Carlsson 等人提出的原始损失函数相比，使用 in-batch 负采样提供了更强的训练信号。

CT working

训练后，模型 2 将用于推理，通常具有更好的性能。

性能

在一些初步实验中，我们比较了在 STSbenchmark 数据集（使用来自 Wikipedia 的 100 万个句子训练）和 Quora 重复问题数据集（使用来自 Quora 的问题训练）上的性能。

方法	STSb (Spearman)	Quora-Duplicate-Question (平均精度)
CT	75.7	36.5
CT (In-Batch Negatives)	78.5	40.1

注意：我们使用了此存储库中提供的代码，而不是作者的官方代码。

从句子文件进行 CT 训练

train_ct-improved_from_file.py 从提供的文本文件加载句子。预期文本文件中每行一个句子。

SimCSE 将使用这些句子进行训练。检查点每 500 步存储到输出文件夹。

CT (In-Batch Negatives)

背景

性能

从句子文件进行 CT 训练

更多训练示例