训练器

CrossEncoderTrainer

CrossEncoderTrainer 是一个简单但功能齐全的基于 🤗 Transformers Trainer 的 PyTorch 训练和评估循环。

此训练器集成了对各种 transformers.TrainerCallback 子类的支持，例如

WandbCallback，如果安装了 wandb，则自动将训练指标记录到 W&B
TensorBoardCallback，如果可以访问 tensorboard，则将训练指标记录到 TensorBoard。
CodeCarbonCallback，如果安装了 codecarbon，则在训练期间跟踪模型的碳排放量。
- 注意：这些碳排放量将包含在自动生成的模型卡中。

有关集成回调以及如何编写自己的回调的更多信息，请参阅 Transformers Callbacks 文档。

参数:

model (SentenceTransformer, 可选) – 要训练、评估或用于预测的模型。如果未提供，则必须传入 model_init。
args (SentenceTransformerTrainingArguments, 可选) – 用于调整训练的参数。如果未提供，将默认为 SentenceTransformerTrainingArguments 的一个基本实例，其 output_dir 设置为当前目录中名为 tmp_trainer 的目录。
train_dataset (Union[datasets.Dataset, datasets.DatasetDict, datasets.IterableDataset, Dict[str, datasets.Dataset]], 可选) – 用于训练的数据集。必须具有您的损失函数接受的格式，请参阅训练概述 > 数据集格式。
eval_dataset (Union[datasets.Dataset, datasets.DatasetDict, datasets.IterableDataset, Dict[str, datasets.Dataset]], 可选) –
用于评估的数据集。必须具有您的损失函数接受的格式，请参阅训练概述 > 数据集格式。
loss (Optional[Union[torch.nn.Module, Dict[str, torch.nn.Module], Callable[[SentenceTransformer], torch.nn.Module], Dict[str, Callable[[SentenceTransformer]]]], 可选) – 用于训练的损失函数。可以是损失类实例，也可以是数据集名称到损失类实例的字典，也可以是给定模型返回损失类实例的函数，也可以是数据集名称到给定模型返回损失类实例的函数的字典。实际上，后两者主要用于超参数优化。如果未提供 loss，将默认为 CoSENTLoss。
evaluator (Union[SentenceEvaluator, List[SentenceEvaluator]], 可选) – 训练期间用于有用评估指标的评估器实例。您可以有或没有 eval_dataset 使用 evaluator，反之亦然。通常，evaluator 返回的指标比 eval_dataset 返回的损失值更有用。评估器列表将被包装在 SequentialEvaluator 中以按顺序运行。
callbacks (List of [transformers.TrainerCallback], 可选) –
用于自定义训练循环的回调列表。这些回调将被添加到 [此处](callback) 详细的默认回调列表中。

如果您想删除使用的默认回调之一，请使用 [Trainer.remove_callback] 方法。
optimizers (Tuple[:class:`torch.optim.Optimizer, torch.optim.lr_scheduler.LambdaLR]`, 可选, 默认为 (None, None)) – 包含要使用的优化器和调度器的元组。将默认为模型上的 torch.optim.AdamW 实例以及由 transformers.get_linear_schedule_with_warmup() 根据 args 控制的调度器。

重要属性

model – 始终指向核心模型。如果使用 Transformers 模型，它将是 [PreTrainedModel] 子类。

model_wrapped – 在一个或多个其他模块包装原始模型的情况下，始终指向最外部的模型。这是应该用于前向传播的模型。例如，在 DeepSpeed 下，内部模型被 DeepSpeed 包装，然后再次被 torch.nn.DistributedDataParallel 包装。如果内部模型未被包装，则 self.model_wrapped 与 self.model 相同。

is_model_parallel – 模型是否已切换到模型并行模式（与数据并行性不同，这意味着一些模型层分布在不同的 GPU 上）。

place_model_on_device – 是否自动将模型放置在设备上——如果使用模型并行或 DeepSpeed，或者如果默认的 TrainingArguments.place_model_on_device 被覆盖为返回 False，则它将设置为 False。

is_in_train – 模型当前是否正在运行 train（例如，当在 train 中调用 evaluate 时）

add_callback(callback)

向当前 [~transformers.TrainerCallback] 列表添加回调。

参数:: callback (type 或 [~transformers.TrainerCallback]) – 一个 [~transformers.TrainerCallback] 类或一个 [~transformers.TrainerCallback] 的实例。在第一种情况下，将实例化该类的一个成员。

static add_dataset_name_transform(batch: dict[str, list[Any]], dataset_name: str | None = None, transform: Callable[[dict[str, list[Any]]], dict[str, list[Any]]] | None = None, **kwargs) → dict[str, list[Any]][source]

一个转换/映射函数，用于向批次添加提示或数据集名称。

参数:

batch (dict[str, list[Any]]) – 数据批次，其中每个键是列名，每个值是值列表。
dataset_name (str | None, 可选) – 此数据集的名称，仅当存在使用不同损失的多个数据集时。默认为 None。
transform (Callable[[dict[str, list[Any]]], dict[str, list[Any]]], 可选) – 在添加提示等之前应用于批次的的可选转换函数。默认为 None。

返回:

添加了提示和/或数据集名称的“即时”转换后的批次。

返回类型:

dict[str, list[Any]]

add_model_card_callback(default_args_dict: dict[str, Any]) → None[source]

添加一个回调函数，负责自动跟踪模型卡自动生成所需的数据

此方法在 SentenceTransformerTrainer 类的 __init__ 方法中调用。

参数:: default_args_dict (Dict[str, Any]) – 默认训练参数的字典，以便我们可以确定哪些参数已更改以用于模型卡。

注意

此方法可以通过子类化训练器来覆盖，以便在自定义用例中删除/自定义此回调

compute_loss(model: SentenceTransformer, inputs: dict[str, torch.Tensor | Any], return_outputs: bool = False, num_items_in_batch=None) → torch.Tensor | tuple[torch.Tensor, dict[str, Any]][source]

计算 SentenceTransformer 模型的损失。

它使用 self.loss 计算损失，该损失可以是一个损失函数，也可以是不同数据集的损失函数字典。如果损失是一个字典，则期望数据集名称在输入中以“dataset_name”键传入。这在 add_dataset_name_column 方法中自动完成。请注意，即使 return_outputs = True，输出也将为空，因为 SentenceTransformers 损失不返回输出。

参数:

model (SentenceTransformer) – SentenceTransformer 模型。
inputs (Dict[str, Union[torch.Tensor, Any]]) – 模型的输入数据。
return_outputs (bool, 可选) – 是否与损失一起返回输出。默认为 False。
num_items_in_batch (int, 可选) – 批次中的项目数。默认为 None。未使用，但 Transformers Trainer 需要。

返回:

计算出的损失。如果 return_outputs 为 True，则返回损失和输出的元组。否则，仅返回损失。

返回类型:

Union[torch.Tensor, Tuple[torch.Tensor, Dict[str, Any]]]

使用 Trainer 可用的信息创建模型卡草稿。

参数:

language (str, 可选) – 模型的语言（如果适用）
license (str, 可选) – 模型的许可证。如果提供给 Trainer 的原始模型来自 Hub 上的仓库，则默认为所使用的预训练模型的许可证。
tags (str 或 List[str], 可选) – 要包含在模型卡元数据中的一些标签。
model_name (str, 可选) – 模型的名称。
finetuned_from (str, 可选) – 用于微调此模型的模型的名称（如果适用）。如果提供给 Trainer 的原始模型来自 Hub，则默认为该仓库的名称。
tasks (str 或 List[str], 可选) – 一个或多个任务标识符，要包含在模型卡元数据中。
dataset_tags (str 或 List[str], 可选) – 一个或多个数据集标签，要包含在模型卡元数据中。
dataset (str 或 List[str], 可选) – 一个或多个数据集标识符，要包含在模型卡元数据中。
dataset_args (str 或 List[str], 可选) – 一个或多个数据集参数，要包含在模型卡元数据中。

create_optimizer()

设置优化器。

我们提供了一个工作良好的合理默认值。如果您想使用其他内容，可以在 Trainer 的 init 中通过 optimizers 传入一个元组，或者在子类中子类化并覆盖此方法。

create_optimizer_and_scheduler(num_training_steps: int)

设置优化器和学习率调度器。

我们提供了一个工作良好的合理默认值。如果您想使用其他内容，可以在 Trainer 的 init 中通过 optimizers 传入一个元组，或者在子类中子类化并覆盖此方法（或 create_optimizer 和/或 create_scheduler）。

create_scheduler(num_training_steps: int, optimizer: Optimizer | None = None)

设置调度器。训练器的优化器必须在此方法调用之前或作为参数传入时已设置。

参数:: num_training_steps (int) – 要执行的训练步骤数。

evaluate(eval_dataset: Dataset | dict[str, Dataset] | None = None, ignore_keys: list[str] | None = None, metric_key_prefix: str = 'eval') → dict[str, float][source]

运行评估并返回指标。

调用脚本将负责提供计算指标的方法，因为它们是任务相关的（将其作为 compute_metrics 参数传递给 init）。

您也可以子类化并覆盖此方法以注入自定义行为。

参数:

eval_dataset (Union[Dataset, Dict[str, Dataset]), 可选) –
如果您希望覆盖 self.eval_dataset，请传递一个数据集。如果它是 [~datasets.Dataset]，则模型 model.forward() 方法不接受的列将自动删除。它必须实现 __len__ 方法。

<Tip>

如果您传入一个以数据集名称为键、数据集为值的字典，评估将对每个数据集进行单独评估。这对于监控训练如何影响其他数据集或简单地获得更细粒度的评估很有用。当与 load_best_model_at_end 一起使用时，请确保 metric_for_best_model 准确引用其中一个数据集。例如，如果您为两个数据集 data1 和 data2 传入 {“data1”: data1, “data2”: data2}，则可以指定 metric_for_best_model=”eval_data1_loss” 以使用 data1 上的损失，或者指定 metric_for_best_model=”eval_data2_loss” 以使用 data2 上的损失。

</Tip>
ignore_keys (List[str], 可选) – 模型输出（如果是字典）中应在收集预测时忽略的键列表。
metric_key_prefix (str, 可选, 默认为 “eval”) – 用作指标键前缀的可选前缀。例如，如果前缀是“eval”（默认），则指标“bleu”将命名为“eval_bleu”。

返回:

包含评估损失和从预测计算的潜在指标的字典。字典还包含来自训练状态的 epoch 号。

get_batch_sampler(dataset: Dataset, batch_size: int, drop_last: bool, valid_label_columns: list[str] | None = None, generator: Generator | None = None, seed: int = 0) → BatchSampler | None[source]

根据 self.args 中的 batch_sampler 参数返回适当的批次采样器。此批次采样器类支持 __len__ 和 __iter__ 方法，并用作创建 torch.utils.data.DataLoader 的 batch_sampler。

注意

覆盖此方法以提供自定义批次采样器。

参数:

dataset (Dataset) – 要从中采样的数据集。
batch_size (int) – 每个批次的样本数。
drop_last (bool) – 如果为 True，则如果数据集大小不能被批次大小整除，则丢弃最后一个不完整的批次。
valid_label_columns (List[str]) – 要检查标签的列名列表。在数据集中找到的 valid_label_columns 中的第一个列名将用作标签列。
generator (torch.Generator, 可选) – 用于洗牌索引的可选随机数生成器。
seed (int) – 随机数生成器的种子，以确保可重现性。默认为 0。

get_eval_dataloader(eval_dataset: Dataset | DatasetDict | IterableDataset | None = None) → DataLoader[source]

返回评估 [~torch.utils.data.DataLoader]。

如果您想注入一些自定义行为，请子类化并覆盖此方法。

参数:: eval_dataset (torch.utils.data.Dataset, 可选) – 如果提供，将覆盖 self.eval_dataset。如果它是 [~datasets.Dataset]，则模型 model.forward() 方法不接受的列将自动删除。它必须实现 __len__。

get_learning_rates(): 返回 self.optimizer 中每个参数的学习率。

get_multi_dataset_batch_sampler(dataset: ConcatDataset, batch_samplers: list[BatchSampler], generator: Generator | None = None, seed: int | None =0) → BatchSampler[source]

根据 self.args 中的 multi_dataset_batch_sampler 参数返回适当的多数据集批次采样器。此批次采样器类支持 __len__ 和 __iter__ 方法，并用作创建 torch.utils.data.DataLoader 的 batch_sampler。

注意

覆盖此方法以提供自定义多数据集批次采样器。

参数:

dataset (ConcatDataset) – 所有数据集的连接。
batch_samplers (List[BatchSampler]) – 连接数据集中每个数据集的批次采样器列表。
generator (torch.Generator, 可选) – 用于洗牌索引的可选随机数生成器。
seed (int, 可选) – 随机数生成器的可选种子

get_num_trainable_parameters(): 获取可训练参数的数量。

get_optimizer_group(param: str | Parameter | None = None)

如果给定参数，则返回该参数的优化器组，否则返回所有参数的优化器组。

参数:: param (str 或 torch.nn.parameter.Parameter, 可选) – 需要返回优化器组的参数。

get_test_dataloader(test_dataset: Dataset | DatasetDict | IterableDataset) → DataLoader[source]

返回训练 [~torch.utils.data.DataLoader]。

如果您想注入一些自定义行为，请子类化并覆盖此方法。

参数:: test_dataset (torch.utils.data.Dataset, 可选) – 要使用的测试数据集。如果它是 [~datasets.Dataset]，则 model.forward() 方法不接受的列会自动移除。它必须实现 __len__。

get_train_dataloader() → DataLoader[source]

返回训练 [~torch.utils.data.DataLoader]。

如果 train_dataset 未实现 __len__，则不使用采样器；否则使用随机采样器（必要时适应分布式训练）。

如果您想注入一些自定义行为，请子类化并覆盖此方法。

hyperparameter_search(hp_space: Callable[[optuna.Trial], dict[str, float]] | None = None, compute_objective: Callable[[dict[str, float]], float] | None = None, n_trials: int = 20, direction: str | list[str] = 'minimize', backend: str | HPSearchBackend | None = None, hp_name: Callable[[optuna.Trial], str] | None = None, **kwargs) → BestRun | list[BestRun]

使用 optuna 或 Ray Tune 或 SigOpt 启动超参数搜索。优化的量由 compute_objective 决定，如果没有提供指标，它默认返回评估损失，否则返回所有指标的总和。

要使用此方法，您需要在初始化 [Trainer] 时提供 model_init：我们需要在每次新运行时重新初始化模型。这与 optimizers 参数不兼容，因此您需要子类化 [Trainer] 并覆盖方法 [~Trainer.create_optimizer_and_scheduler] 以实现自定义优化器/调度器。

</Tip>

参数:

hp_space (Callable[[“optuna.Trial”], Dict[str, float]], 可选) – 定义超参数搜索空间的函数。将根据您的后端默认设置为 [~trainer_utils.default_hp_space_optuna] 或 [~trainer_utils.default_hp_space_ray] 或 [~trainer_utils.default_hp_space_sigopt]。
compute_objective (Callable[[Dict[str, float]], float], 可选) – 从 evaluate 方法返回的指标中计算要最小化或最大化目标值的函数。将默认设置为 [~trainer_utils.default_compute_objective]。
n_trials (int, 可选, 默认为 100) – 要测试的试验运行次数。
direction (str 或 List[str], 可选, 默认为 “minimize”) – 如果是单目标优化，direction 是 str，可以是 “minimize” 或 “maximize”，在优化验证损失时应选择 “minimize”，在优化一个或多个指标时应选择 “maximize”。如果是多目标优化，direction 是 List[str]，可以是 “minimize” 和 “maximize” 的列表，在优化验证损失时应选择 “minimize”，在优化一个或多个指标时应选择 “maximize”。
backend (str 或 [~training_utils.HPSearchBackend], 可选) – 用于超参数搜索的后端。将根据安装情况默认使用 optuna 或 Ray Tune 或 SigOpt。如果全部安装，则默认使用 optuna。
hp_name (Callable[[“optuna.Trial”], str]], 可选) – 定义试验/运行名称的函数。默认为 None。
kwargs (Dict[str, Any], 可选) –
每个后端的附加关键字参数
- optuna: 来自 [optuna.study.create_study](https://docs.optuna.cn/en/stable/reference/generated/optuna.study.create_study.html) 的参数，以及来自 [optuna.study.Study.optimize](https://docs.optuna.cn/en/stable/reference/generated/optuna.study.Study.html#optuna.study.Study.optimize) 的参数 timeout、n_jobs 和 gc_after_trial
- ray: 来自 [tune.run](https://docs.rayai.org.cn/en/latest/tune/api_docs/execution.html#tune-run) 的参数。如果在 kwargs 中未设置 resources_per_trial，则默认为 1 个 CPU 核和 1 个 GPU（如果可用）。如果在 kwargs 中未设置 progress_reporter，则使用 [ray.tune.CLIReporter](https://docs.rayai.org.cn/en/latest/tune/api/doc/ray.tune.CLIReporter.html)。
- sigopt: 来自 [sigopt.Connection.set_proxies](https://docs.sigopt.com/support/faq#how-do-i-use-sigopt-with-a-proxy) 的参数 proxies。

返回:

关于最佳运行或多目标优化最佳运行的所有信息。实验摘要可以在 Ray 后端的 run_summary 属性中找到。

返回类型:

[trainer_utils.BestRun 或 List[trainer_utils.BestRun]]

is_local_process_zero() → bool: 此进程是否是本地（例如，如果以分布式方式在多台机器上训练，则为其中一台机器上）的主进程。

is_world_process_zero() → bool: 此进程是否是全局主进程（当以分布式方式在多台机器上训练时，这仅对一个进程为 True）。

log(logs: dict[str, float], start_time: float | None = None) → None[source]

在监控训练的各种对象上记录 logs。

子类化并覆盖此方法以注入自定义行为。

参数:

logs (Dict[str, float]) – 要记录的值。
start_time (Optional[float]) – 训练开始时间。

如果数据集是 DatasetDict，并且满足以下条件之一，则可能向数据集中添加数据集名称列：

损耗是一个字典，或者
1. 提示包含数据集名称的映射，或者
2. router_mapping 包含数据集名称的映射。
3. dataset (DatasetDict | Dataset | None) – 要添加提示或数据集名称的数据集。

参数:: 已添加提示或数据集名称的数据集。
返回:: DatasetDict | Dataset | None
返回类型:: pop_callback(callback)

从当前 [~transformers.TrainerCallback] 列表中移除一个回调并返回它。

如果未找到回调，则返回 None（且不引发错误）。

callback (type 或 [~transformers.TrainerCallback]) – [~transformers.TrainerCallback] 类或 [~transformers.TrainerCallback] 的实例。在第一种情况下，将弹出在回调列表中找到的该类的第一个成员。

参数:: 如果找到，则移除的回调。
返回:: [~transformers.TrainerCallback]
返回类型:: preprocess_dataset(dataset: DatasetDict | Dataset | None = None, prompts: dict[str, dict[str, str]] | dict[str, str] | str | None = None, router_mapping: dict[str, dict[str, str]] | dict[str, str] | None = None, dataset_name: str | None = None) → DatasetDict | Dataset | None[source]

通过可选地懒惰添加数据集名称列来预处理数据集，这对于具有多个损失的多数据集训练、数据集特定的提示或数据集特定的路由映射是必需的。

dataset (DatasetDict | Dataset | None) – 要预处理的数据集。如果为 None，则不进行预处理。

参数:

prompts (dict[str, dict[str, str]] | dict[str, str] | str | None) – 要添加到数据集的可选提示。如果是一个字符串，它将用作所有数据集的单一提示；但它也可以是一个将数据集名称映射到提示的字典，一个将列名映射到提示的字典，或者一个将数据集名称映射到列名再映射到提示的嵌套字典。
router_mapping (dict[str, dict[str, str]] | dict[str, str] | None) – 要添加到数据集的可选路由映射。可以是列名到 [Router] 路由的字典映射，也可以是数据集名称到列名再到路由的嵌套字典。
dataset_name (str | None) – 数据集的名称，用于具有多个损失的多数据集训练。
预处理后的数据集，可能已将数据集名称添加为惰性列。

返回:

propagate_args_to_deepspeed(auto_find_batch_size=False)

返回类型:

pop_callback(callback)

根据 Trainer 参数设置 deepspeed 插件中的值: push_to_hub(commit_message: str | None = 'End of training', blocking: bool =True, token: str | None =None, revision: str | None =None, **kwargs) → str

将 self.model 和 self.processing_class 上传到 🤗 模型中心的 self.args.hub_model_id 仓库。

commit_message (str, 可选, 默认为 “End of training”) – 推送时要提交的消息。

参数:

blocking (bool, 可选, 默认为 True) – 函数是否应仅在 git push 完成时返回。
token (str, 可选, 默认为 None) – 具有写入权限以覆盖 Trainer 原始参数的令牌。
revision (str, 可选) – 要从其提交的 git 修订版本。默认为“main”分支的头部。
kwargs (Dict[str, Any], 可选) – 传递给 [~Trainer.create_model_card] 的其他关键字参数。
如果 blocking=False，则为模型推送到的仓库的 URL；如果 blocking=True，则为跟踪提交进度的 Future 对象。

返回:

remove_callback(callback)

从当前 [~transformers.TrainerCallback] 列表中移除一个回调。

callback (type 或 [~transformers.TrainerCallback]) – [~transformers.TrainerCallback] 类或 [~transformers.TrainerCallback] 的实例。在第一种情况下，将移除在回调列表中找到的该类的第一个成员。

参数:: save_model(output_dir: str | None = None, _internal_call: bool =False)

将保存模型，以便您可以使用 from_pretrained() 重新加载它。

将仅从主进程保存。

set_initial_training_values(args: TrainingArguments, dataloader: DataLoader, total_train_batch_size: int)

计算并返回以下值：- num_train_epochs - num_update_steps_per_epoch - num_examples - num_train_samples - epoch_based - len_dataloader - max_steps: train(resume_from_checkpoint: bool | str | None = None, trial: optuna.Trial | dict[str, Any] | None = None, ignore_keys_for_eval: list[str] | None =None, **kwargs)

主训练入口点。

resume_from_checkpoint (str 或 bool, 可选) – 如果是 str，则为 [Trainer] 之前实例保存的检查点的本地路径。如果是 bool 且等于 True，则加载 [Trainer] 之前实例保存在 args.output_dir 中的最后一个检查点。如果存在，训练将从此处加载的模型/优化器/调度器状态恢复。

参数:

trial (optuna.Trial 或 Dict[str, Any], 可选) – 试验运行或超参数搜索的超参数字典。
ignore_keys_for_eval (List[str], 可选) – 模型输出中（如果它是字典）应在训练期间收集评估预测时忽略的键列表。
kwargs (Dict[str, Any], 可选) – 用于隐藏已弃用参数的附加关键字参数
上一个下一个