Белоногов Герольд Георгиевич
Заведующий отделом лингвистичческих исследований ВИНИТИ РАН,
доктор технических наук, профессор,академик Международной академии информационных
процессов и технологий.
Получил титул Человека Года 1995-1996 гг.,
присвоенный Международным Биографическим Центром (IBC) в Кембридже (Великобритания)
за выдающиеся успехи в области машинного перевода
СИСТЕМЫ ФРАЗЕОЛОГИЧЕСКОГО МАШИННОГО
ПЕРЕВОДА
ПОЛИТЕМАТИЧЕСКИХ ТЕКСТОВ
Современное общество часто называют информационным. Можно спорить, насколько правильна эта характеристика: ведь в любом обществе порождается информация и имеет место информационный обмен между его членами. Однако нельзя отрицать того факта, что в современном обществе потребности в информационном обмене резко возросли и они не полностью удовлетворяются даже с помощью новейших средств связи. Мешают этому и языковые барьеры. Казалось бы, что языковые барьеры можно преодолеть путем изучения иностранных языков и переводческой деятельности. Но иностранные языки знают далеко не все, а услуги переводчиков стоят слишком дорого.
Есть еще одна возможность - автоматизировать процесс перевода. Но это совсем не просто, так как перевод текстов с одних естественных языков на другие - сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний тех предметныхобластей, к которым переводимые тексты относятся. Он осуществляется на основе восприятия и понимания человеком исходного текста и последующей передачи его содержания средствами выходного языка. При этом переводятся не столько слова и их последовательности, сколько понятия и мыслительные образы, порождаемые в сознании переводчика под их воздействием.
Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит прежде всего от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. К сожалению, эти законы пока еще недостаточно изучены. Решая проблему машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. А этот опыт свидетельствует о том, что в процессе перевода в качестве основных единиц смысла рассматриваются прежде всего фразеологические словосочетания, выражающие целостные понятия, а не отдельные слова. Именно понятия являются теми элементарными мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.
Условимся называть системы машинного перевода, в которых в качестве основных минимальных единиц смысла рассматриваются не отдельные слова, а фразеологические словосочетания, системами фразеологического машинного перевода. В этих системах отдельные слова также могут использоваться, но они рассматриваются как вспомогательные единицы смысла, к которым приходится прибегать за неимением лучших.
Система фразеологического машинного перевода должна включать в свой состав базу знаний, содержащую переводные эквиваленты для наиболее часто встречающихся фраз, фразеологических сочетаний и отдельных слов, и программные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком. В процессе перевода текстов система использует хранящиеся в ее базе знаний переводные эквиваленты в следующем порядке: сначала делается попытка перевести всю фразу как целостную единицу; далее, в случае неудачи, входящие в ее состав словосочетания; и, наконец, осуществляется пословный перевод тех фрагментов текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полученные всеми тремя способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).
Принципы построения систем фразеологического машинного перевода текстов были впервые сформулированы автором статьи в 1975 году в предисловии к книге Д. Жукова "Мы переводчики" [1]. В более полном виде они были изложены в 1983 году в книге Г. Г. Белоногова и Б. А. Кузнецова "Языковые средства автоматизированных информационных систем". Наконец, в 1993 .году были опубликованы две статьи [2, 3], в которых были описаны система машинного перевода, построенная на этих принципах, и методы автоматизированного составления двуязычных словарей по параллельным (русских и английским) текстам. Важнейшими среди этих принципов являются следующие:
1. Основными единицами языка и речи, которые прежде всего следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы.
2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода следует использовать и так называемые "речевые модели" - фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи.
3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей - тем более. Он должен создаваться прежде всего на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.
4. Наряду с основным политематическим словарем большого объема, в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей).
На основе описанных принципов в ВИНИТИ РАН были построены две системы
фразеологического машинного перевода:
1) система русско-английского перевода (RETRANS)
2) система англо-русского перевода (ERTRANS).
Обе системы имеют одинаковую структуру и примерно одинаковые объемы машинных словарей. Поэтому мы рассмотрим только первую систему.
Система RETRANS имеет следующие характеристики:
1. Область применения, назначение, функциональные возможности. Система предназначена для автоматизированного перевода научно-технических текстов с русского языка на английский. Русско-английский политематический машинный словарь системы содержит терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. В частности, он содержит термины и фразеологические единицы по следующим тематическим областям: Машиностроение, Электротехника, Энергетика, Транспорт, Аэронавтика. Космонавтика, Робототехника, Автоматика и Радиоэлектроника, Вычислительная Техника, Связь, Математика, Физика, Химия, Биология, Медицина, Экология, Сельское Хозяйство, Строительство и Архитектура, Астрономия, География, Геология, Геофизика, Горное Дело, Металлургия и др.
Перевод текстов может осуществляться в автоматическом и в диалоговом режимах.
2. Объем политематического машинного словаря: более 1.300.000 словарных статей; 77 процентов из них составляют словосочетания длиной от двух до семнадцати слов. Объем дополнительных машинных словарей (для настройки системы на различные тематические области) - более 200.000 словарных статей.
3. Тип реализующей ЭВМ: IBM РС/АТ.
4. Операционная система: MS-DOS 6.0 и выше.
5. Скорость перевода: 30 - 50 слов/сек, (зависит от мощности ПЭВМ).
6. Необходимый объем оперативной памяти: 580 КБ.
7. Необходимый объем памяти на жестком диске: 60 МБ.
Системы RETRANS и ERTRANS - самые мощные в мире системы русско-английского и англо-русского машинного перевода. На сегодняшний день это единственные в России системы, ориентированные на перевод политематических текстов и на широкое использование русской и английской фразеологии. Эти системы постоянно совершенствуются, а их машинные словари быстро растут.
Литература
1. Д. А. Жуков. Мы переводчики. "Знание", Москва, 1975.
2. Г. Г. Беленого», Ю. Г. Зеленное, Б. А. Кузнецов, А. П. Новоселов, Н.
А. Пащенко, Ал-др А. Хорошилов, Ал-сей А. Хорошилов. Интерактивная система
русско-английского и англо-русского машинного перевода политематических
научно-технических текстов. Сб. "Научно-техническая информация",
Серия 2, № 3, ВИНИТИ, 1993.
3. Г. Г. Белоногов, Ю. Г. Зеленков,"Б. А. Кузнецов, А. П. Новоселов,
Ал-др А. Хорошилов, Ал-сей А. Хорошилов. Автоматизация составления и ведения
словарей для систем фразеологического машинного перевода текстов с русского
языка на английский и с английского на русский. Сб. "Научно-техническая
информация", Сер. 2, № 12, ВИНИТИ, 1993.
Контактные телефоны: (095)155-43-79, 155-44-40.
Ваши вопросы, отзывы и пожелания |
---|
© Copyright 1997,98 МКТ
Последние изменения 6 февраля 1998 г.