Англоязычный портал на основе нейронного автоматического перевода

Заказчик
TAdviser
Руководитель проекта со стороны заказчика
ИТ-поставщик
ООО ПРОМТ
Год завершения проекта
2021
Сроки выполнения проекта
Май, 2018 - Октябрь, 2021
Масштаб проекта
2300 человеко-часов
Цели

 В России сильная индустрия информационных технологий, но если информация доступна только на русском языке, то это ограничивает доступ зарубежной аудитория. По данным Международного союза электросвязи (ITU), в интернет выходят 3,9 млрд человек или 51,2% населения планеты, из которых как минимум половина делают поисковые запросы на латинице, поэтому важно представить информацию прежде всего на английском языке, а в перспективе и на других языках. Портал нужен был как инструмент для российских компаний, которые стремятся стать более заметными на мировом рынке. Важным условием существования проекта было обеспечение автоматического перевода «на лету» всего контента, в том числе повторный перевод статей и новостей, если в них вносились правки на русском языке.

Уникальность проекта

Уникальность проекта состоит в том, что весь контент, создаваемый и размещаемый на русскоязычной версии портала TAdviser.ru, автоматически переводится на английский язык и автоматически размещается на англоязычной версии портала TAdviser.com. Англоязычный новостной портал создается только с помощью технологий и программного обеспечения, без использования человеческого ресурса. Если бы такой портал создавался без применения технологий перевода, то осуществление перевода такого большого информационного потока силами людей было бы дорого и потребовало бы значительного времени на реализацию. Технологии автоматического перевода позволили обеспечить перевод большого динамически меняющегося контента - отраслевых новостей, описания компаний, интервью с представителями российского ИТ бизнеса. Проект по создание полноценного информационного портала на иностранном языке - это характерный пример того какие грандиозные возможности даёт цифровая экономика и технологии искусственного интеллекта.
Проект решает задачи импортозамещения
Нет
Использованное ПО
Для обеспечения перевода контента TAdviser используется выделенный сервер со следующими характеристиками: СPU Intel Core i7 3770 3.4 GHz, 16GB RAM, Windows Server 2016. Выбор сервера определяется требованиями программного обеспечения для автоматического перевода PROMT на основе нейронных сетей. На сервер установлено кастомизированное решение для перевода - PROMT Neural Translation Server (PNTS, https://www.promt.ru/translation_software/corporate/promt-translation-server-neural/). PNTS - это современное серверное решение для автоматического (машинного) перевода на основе нейронный сетей, разработанное российским поставщиком, компанией PROMT. В основе решения технология PROMT Neural, которая позволяет получить точный, гладкий перевод, без машинного акцента, который в большинстве случаев не требует постредактирования. Решение обеспечивает перевод текстов, документов через UI или по API.
В этом проекте компания PROMT также обеспечивает поддержку и бесперебойную работу облачного решения.
Сложность реализации

Основные сложности проекта — это автоматический перевод такого качества, чтобы его можно было бы публиковать на сайте без предварительной модерации человеком. Лингвистическая особенность данного контента заключается в том, что в нем много имен собственных (названий компаний, организаций, продуктов, технологий, ведомств, министерств, имен людей), причем в тексте они присутствуют как на кириллице, так и на латинице. Чтобы система нейросетевого автоматического перевода безошибочно справилась с переводом имен собственных, все они должны все присутствовать в данных, на которых система обучалась (система нейронного перевода обучается на корпусах параллельных текстов). Так как в данном случае это невозможно – частотные имена и названия, конечно присутствуют в данных, но есть и менее известные, менее частотные названия, вновь возникающие имена и названия, поэтому приходится мониторить результат нейронного перевода имен собственных и внедрять новые алгоритмы, которые помогают обеспечить перевод имен без искажения. Для быстрого исправления перевода имен собственных используется инструмент PROMT Smart NeuralDictionary (Smart ND). С помощью этого инструмента в словарь добавляются слово и словосочетания с нужными переводами.

Также важно было обеспечить бесперебойную, отказоустойчивую работу облачного решения для того, чтобы англоязычный контент постоянно пополнялся и обновлялся на портале TAdviser.com.

Описание проекта

Информационный портал TAdviser, одно из ведущих СМИ в России по теме корпоративной информатизации, и PROMT, один из лидеров в области разработки лингвистических IT-решений для автоматического перевода, реализовали проект по запуску первого в России интернет-издания, работающего на основе технологий искусственного интеллекта. TAdviser.com – англоязычная версия российского издания TAdviser.ru - формируется автоматически с использованием решений автоматического перевода компании PROMT.

Проект прошел несколько этапов:

1. Первый этап 2018-осень 2020гг.

a. Анализ русскоязычного контента TAdviser , настройка для разных типов текста (новость, интервью, биографическая карточка) для повышения качества машинного перевода. На этом этапе использовалась технология Rule-based Machine Translation.

b. Разработка новых API методов перевода и реализация специальной технической обработки контента (разработка алгоритма викитекста, включающего в себя пре- и пост-процессинг викиссылок внутри предложений).

2. Второй этап октябрь 2020-2021

a. Переход на технологию перевода на основе нейронных сетей (Neural Machine Translation). Этот этап включал в себя тестирование качества перевода по новой технологии, использование новых инструментов для настройки и выбор новой инфраструктуры для установки программного обеспечения и обеспечения требуемой скорости перевода контента.

К моменту запуска система перевела с русского на английский более 206 тысяч статей из базы знаний TAdviser, в том числе более 40 000 досье компаний, 17 000 описаний ИТ-решений и 47 000 описаний ИТ-проектов, а также большое число статей о технологических рынках России и других стран, сотни интервью с экспертами из отрасли информационных технологий. В настоящий момент ежемесячно автоматически переводится 60 млн символов, это более 33 000 страниц текста формата А4. Если представить, что один переводчик может перевести в месяц около 200 страниц текста, то для перевода всего месячного потока понадобилось бы не менее 150 переводчиков.


География проекта
Портал TAdviser.com доступен любому пользователю интернета.
Аудитория портала TAdviser.com: по данным сервиса Similarweb.com на портале ежемесячно фиксируется от 35 000 до 80 000 визитов.
География пользователей портала (топ-5 стран):
США - 16%
Россия - 11%
Германия - 8%
Турция- 5%
Индия - 5%



Коментарии: 4

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Артем Михайлов
    Рейтинг: 5
    ООО Газпром-Инвест
    Ведущий специалист
    22.12.2021 09:59

    Спасибо, интересный проект! Но есть вопросы по организации процесса перевода. Допустим, у меня есть веб-сайт с базой данных с контентом на русском языке. Я хочу перевести этот контент на английский язык через PROMT и опубликовать перевод. Что нужно для этого с технической точки зрения?

    • Юлия Епифанцева Артем
      Рейтинг: 15
      PROMT
      директор по развитию
      24.12.2021 13:06

      Добрый день! Попробую ответить. Во-первых, нужен сервер PROMT, через который будет выполняться перевод. Это может быть сервер в облаке или сервер в существующей инфраструктуре сайта. Во-вторых, необходимо приложение, которое возьмет русский текст из базы данных(БД) сайта, переведет его на английский через сервер PROMT и сохранит результат перевода в другое поле БД сайта. Такое приложение легко реализует разработчик веб-сайта на серверном языке программирования, который используется на сайте. После того, как весь контент на русском переведен на английский и сохранен в БД сайта, его можно отправлять на публикацию на англоязычной версии сайта.

  • Александра Гончарова
    Рейтинг: 15
    ООО ТРЕОЛАН
    Руководитель направления
    22.12.2021 11:54

    Эффектный и актуальный проект в истории компании PROMT. Особенно впечатляет гибкость и масштаб применения технологии PROMT Neural. Считаю, что будущее за AI-технологиями, и очень радует, что у российского производителя есть такие уверенные завершенные проекты.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.