语料库怎么用?想想人的学习过程就知道。小时候学成语学唐诗学课文很多是要求背诵的,成语倒是随时用,诗歌也经常可以引用,不过能把课文里的那些句子段
落照搬的情境确实不多。其实存储在你脑海中的东西完全可以改编后使用,之前流行的凡客体、海底捞体、梨花体,不就是因为改编才火起来的吗?
机器没那么智能,不会自动改编,顶多能够判断要翻译的材料与语料库中能对应的句子有哪些不同。不过从茫茫“语”海中选出相似的句子,再挑出这些句子与我
们要翻译的资料有什么不同,机器倒是替我们节省了大半时间。至于剩下的不可替代的翻译活儿,还是交给译员们去处理吧。其实这活儿现在的机器也还是能做,但
是干不好,否则机器翻译早就风靡天下,译员们也该下岗咯。
如果说翻译记忆与语料管理是CAT技术的心脏,那么模糊匹配就是CAT的躯
体,如果不能匹配,CAT软件也就失去了大半的意义。只支持精确匹配的计算机辅助翻译软件走不太远。尽管在有些行业(如机械、石油),句子重复率确实挺
高,但这种情况通常出现在同一篇稿件内。而像法律、旅游等行业,更多的可能是相似而不尽相同。如果模糊匹配做得好,CAT软件才算真正起到了作用。
翻译记忆与语料管理,几乎所有CAT软件都拥有这两个功能,而且几乎没差别,模糊匹配才是最能看出CAT技术的地方。一款CAT是否有用,首先得看模糊匹配怎么样。笔者试用了国内的几款使用者较多的CAT软件,并就模糊匹配做了个小小的对比。对比结果请听下回分解。
|