使用Python评估神经机器翻译的BLEU分数


在NLP中使用NMT或神经机器翻译,我们可以将文本从一种给定语言翻译成目标语言。为了评估翻译的质量,我们使用Python中的BLEU(双语评估研究)分数。

BLEU分数通过比较机器翻译句子和人工翻译句子(都以n-gram形式)来工作。此外,随着句子长度的增加,BLEU分数会下降。通常,BLEU分数的范围是0到1,数值越高表示质量越好。但是,获得完美分数非常罕见。请注意,评估是基于子串匹配进行的,它没有考虑语言的其他方面,例如连贯性、时态和语法等。

公式

BLEU = BP * exp(1/n * sum_{i=1}^{n} log(p_i))

这里,各个术语具有以下含义:

  • BP是简洁惩罚。它根据两个文本的长度调整BLEU分数。其公式如下:

BP = min(1, exp(1 - (r / c)))
  • n是n-gram匹配的最大阶数

  • p_i是精确度分数

算法

  • 步骤1 - 导入datasets库。

  • 步骤2 - 使用load_metric函数,参数为bleu。

  • 步骤3 - 将翻译字符串的单词构成一个列表。

  • 步骤4 - 对目标输出字符串的单词重复步骤3。

  • 步骤5 - 使用bleu.compute计算bleu值。

示例1

在这个例子中,我们将使用Python的NLTK库来计算将德语句子机器翻译成英语的BLEU分数。

  • 源文本(德语) - es regnet heute

  • 机器翻译文本 - it rain today

  • 目标文本 - it is raining today, it was raining today

虽然我们可以看出翻译并不正确,但通过查找BLUE分数,我们可以更好地了解翻译质量。

示例

#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#setup the predicted string
predictions = [["it", "rain", "today"]]

#setup the desired string
references = [
   [["it", "is", "raining", "today"], 
   ["it", "was", "raining", "today"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))

输出

{'bleu': 0.0, 'precisions': [0.6666666666666666, 0.0, 0.0, 0.0], 'brevity_penalty': 0.7165313105737893, 'length_ratio': 0.75, 'translation_length': 3, 'reference_length': 4}

您可以看到翻译做得不好,因此bleu分数为0。

示例2

在这个例子中,我们将再次计算BLEU分数。但这次,我们将使用一个法语句子,将其机器翻译成英语。

  • 源文本(法语) - nous partons en voyage

  • 机器翻译文本 - we going on a trip

  • 目标文本 - we are going on a trip, we were going on a trip

您可以看到,这次翻译文本更接近目标文本。让我们检查一下它的BLEU分数。

示例

#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#steup the predicted string
predictions = [["we", "going", "on", "a", "trip"]]

#steup the desired string
references = [
   [["we", "are", "going", "on", "a", "trip"], 
   ["we", "were", "going", "on", "a", "trip"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))

输出

{'bleu': 0.5789300674674098, 'precisions': [1.0, 0.75, 0.6666666666666666, 0.5], 'brevity_penalty': 0.8187307530779819, 'length_ratio': 0.8333333333333334, 'translation_length': 5, 'reference_length': 6}

您可以看到,这次翻译非常接近目标输出,因此蓝色分数也高于0.5。

结论

BLEU分数是一个很好的工具,可以用来检查翻译模型的效率,从而进一步改进它以产生更好的结果。虽然BLEU分数可以用来大致了解模型,但它仅限于特定的词汇表,并且常常忽略语言的细微差别。这就是为什么BLEU分数与人工判断如此缺乏协调的原因。但是,还有一些替代方法,例如ROUGE分数、METEOR指标和CIDEr指标,您可以尝试一下。

更新于:2023年8月7日

471 次浏览

开启您的职业生涯

完成课程获得认证

开始学习
广告