Как и какой перевод (не) оценивают компьютеры

Авторы

DOI:

https://doi.org/10.33910/2687-0215-2021-3-2-77-84

Ключевые слова:

машинный перевод, метрики оценки машинного перевода, BLEU, n-граммные метрики, неконсистентные логики, непрямые значения, юмор, загадки, поэтические тропы, метафора, метонимия

Аннотация

В статье рассматриваются современные метрики оценки качества перевода, которые используются при создании и настройке компьютерных переводчиков, при соревнованиях по машинному переводу, а также при оценке работы некоторых других систем обработки естественного языка. Описываются критерии оценки качества перевода и основные методы экспертной оценки. Рассматриваются принципы работы автоматических метрик (BLEU, TER, METEOR, BERTScore, COMET и др.), их особенности, преимущества и недостатки. Авторы подчеркивают важность появления метрик BERTScore и COMET, а также объясняют популярность некоторых традиционных метрик (например, BLEU). Современные метрики оценки качества перевода дают искаженные результаты в тех случаях, когда текст содержит много выражений с непрямыми значениями: поэтические тропы, метафоры, метонимия, юмор, загадки. Общение с помощью непрямых значений предполагает человеческую способность мыслить противоречиями, они являются источником инсайта, с помощью которого Дональд Дэвидсон описывал действие метафоры, но эта область пока еще плохо поддается компьютерной обработке. Именно поэтому оценка профессиональных переводов художественных текстов с помощью метрик показывает такие низкие результаты. Дальнейшее развитие метрик должно использовать компьютерную обработку противоречий, возможно, с помощью неконсистентных логик: паракомплектной, параконсистентной и диалетической.

Библиографические ссылки

Литература

Арутюнова, И. А. (2018) Исследование автоматических метрик оценки перевода на материале профессиональных художественных переводов. Выпускная квалификационная работа. Уровень: магистратура. СПб., Санкт-Петербургский государственный университет, 88 с.

Комиссаров, В. Н. (2002) Современное переводоведение. М.: ЭТС, 424 с.

Лурье, В. М., Митренина, О. В. (2020) Непрямые значения в естественном языке и неконсистентные логики. Логико-философские штудии, т. 18, № 2, с. 71–111. https://doi.org/10.52119/LPHS.2020.66.28.005

Banerjee, S., Lavie, A. (2005) METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In: J. Goldstein, A. Lavie, C.-Y. Lin, C. Voss (eds.). Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Ann Arbor: Association for Computational Linguistics Publ., pp. 65–72.

Davidson, D. (1984) What metaphors mean. In: Inquiries into truth and interpretation. Oxford: Clarendon Press, pp. 245–264.

Papineni, K., Roukos, S., Ward, T., Zhu, W.-J. (2002) BLEU: A method for automatic evaluation of machine translation. In: ACL-2002: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia: Association for Computational Linguistics Publ., pp. 311–318. https://doi.org/10.3115/1073083.1073135

Pierce, J., Carroll, J. B. (1966) Languages and machines: Computers in translation and linguistics. Washington: National Academy of Sciences Publ.; National Research Council Publ., 124 p.

Rei, R., Stewart, C., Farinha, A. C., Lavie, A. (2020) COMET: A neural framework for MT evaluation. In: Proceedings of the 2020 Conference on empirical methods in natural language processing (EMNLP). Philadelphia: Association for Computational Linguistics Publ., pp. 2685–2702. http://doi.org/10.18653/v1/2020.emnlp-main.213

Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J. (2006) A study of translation edit rate with targeted human annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas. Cambridge: The Association for Machine Translation in the Americas Publ., pp. 223–231.

Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., Artzi, Y. (2020) BERTScore: Evaluating text generation with BERT. In: ICLR 2019: International Conference on Learning Representations. 6–9 May, 2019. [Online]. Available at: https://doi.org/10.48550/arXiv.1904.09675 (accessed 23.05.2021).

References

Arutyunova, I. A. (2018) Issledovanie avtomaticheskikh metrik otsenki perevoda na materiale professional’nykh khudozhestvennykh perevodov. Master’s Thesis (Linguistics). Saint Petersburg, Saint Petersburg State University, 88 p. (In Russian)

Banerjee, S., Lavie, A. (2005) METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In: J. Goldstein, A. Lavie, C.-Y. Lin, C. Voss (eds.). Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Ann Arbor: Association for Computational Linguistics Publ., pp. 65–72. (In English)

Davidson, D. (1984) What metaphors mean. In: Inquiries into truth and interpretation. Oxford: Clarendon Press, pp. 245–264. (In English)

Komissarov, V. N. (2002) Sovremennoe perevodovedenie. Moscow: EST Publ., 424 p. (In Russian)

Lourié, B. M., Mitrenina, O. V. (2020) Nepryamye znacheniya v estestvennom yazyke i nekonsistentnye logiki [Indirect meanings in natural language and inconsistent logic]. Logiko-filosofskie studii, vol. 18, no. 2, pp. 71–111. https://doi.org/10.52119/LPHS.2020.66.28.005 (In Russian)

Papineni, K., Roukos, S., Ward, T., Zhu, W.-J. (2002) BLEU: A method for automatic evaluation of machine translation. In: ACL-2002: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia: Association for Computational Linguistics Publ., pp. 311–318. https://doi.org/10.3115/1073083.1073135 (In English)

Pierce, J., Carroll, J. B. (1966) Languages and machines: Computers in translation and linguistics. Washington: National Academy of Sciences Publ.; National Research Council Publ., 124 p. (In English)

Rei, R., Stewart, C., Farinha, A. C., Lavie, A. (2020) COMET: A neural framework for MT evaluation. In: Proceedings of the 2020 Conference on empirical methods in natural language processing (EMNLP). Philadelphia: Association for Computational Linguistics Publ., pp. 2685–2702. http://doi.org/10.18653/v1/2020.emnlp-main.213 (In English)

Snover, M., Dorr, B., Schwartz, R., Micciulla, L., Makhoul, J. (2006) A study of translation edit rate with targeted human annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas. Cambridge: The Association for Machine Translation in the Americas Publ., pp. 223–231. (In English)

Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., Artzi, Y. (2020) BERTScore: Evaluating text generation with BERT. In: ICLR 2019: International Conference on Learning Representations. 6–9 May, 2019. [Online]. Available at: https://doi.org/10.48550/arXiv.1904.09675 (accessed 23.05.2021). (In English)

Опубликован

30.12.2021

Выпуск

Раздел

Просто о сложном