翻译句对挖掘
双语文本挖掘描述了在单语语料库中寻找平行(翻译)句子对的过程。例如,你有一组英语句子
This is an example sentences.
Hello World!
My final third sentence in this list.
和一组德语句子
Hallo Welt!
Dies ist ein Beispielsatz.
Dieser Satz taucht im Englischen nicht auf.
在这里,你希望找到英语和德语这两组语言之间所有的翻译对。
正确的(两个)翻译是
Hello World! Hallo Welt!
This is an example sentences. Dies ist ein Beispielsatz.
通常你会将此方法应用于大型语料库,例如,你想要在英文维基百科和中文维基百科中找到所有翻译后的句子。
基于裕度的挖掘
我们遵循 Artetxe 和 Schwenk, 第 4.3 节中的设置,以在两个数据集中寻找翻译句子
示例
bucc2018.py - 这个脚本包含一个关于 BUCC 2018 共享任务的示例,用于查找平行句子。由于我们知道两个语料库中有哪些句子是平行的,因此该数据集可用于评估不同的策略。该脚本挖掘平行句子,然后打印出能获得最高 F1 分数的最佳阈值。
bitext_mining.py - 这个文件读取两个文本文件(每行一个句子),并将平行句子输出到 *parallel-sentences-out.tsv.gz。
用于机器翻译的域内数据选择 - 这篇论文还使用 Sentence Transformers 生成/选择机器翻译系统的域内平行数据——利用单语文本。