Светлый фон

До момента когда Браун и Мерсер решили заняться переводом, в этой области доминировали программисты, которые на самом деле владели каким-либо иностранным языком. Применяемый ими подход состоял в том, чтобы понять суть языка, разобраться в грамматике и синтаксисе и научить компьютер, что la fllle значит «девочка», a les filles — это множественное число, почти как научить школьника. Но метод Брауна и Мерсера был другим. Они не знали французского, и они не были готовы пробираться через грамматику или синтаксис. Вместо этого они раздобыли записи канадского парламента, где были тысячи страниц парных отрывков на английском и французском. Они скормили материал компьютеру IBM и поставили задачу найти соответствия.

В отличие от результатов Брауна и Мерсера, достигнутых позже в Renaissance, их эксперимент в IBM был опубликован21. Процесс начался с чистки данных: так же как финансовые архивы по ценам должны были проверяться на «плохие связки», то есть места, где цена заявлялась на отметке 16 долларов вместо 61, так и запись из канадского парламента могла содержать опечатки, способные запутать переводческую программу. Следующим шагом компьютер начал сканировать данные на повторяемость шаблонов. Все, что знал компьютер вначале, было то, что любое английское слово могло быть переведено любым из 58 тысяч французских слов в данном образце, но как только компьютер проходил через парные отрывки, он обнаруживал, что большинство английских слов встречались лишь в некоторых из них. Тут же 99 % неопределенности исчезало. Далее компьютер приступал к серии более изощренных сравнений. Например, он предполагал, что английское слово скорее всего будет соответствовать французскому, если они встречаются в предложении на одном о том же месте. К этому моменту начали формироваться явные пары слов, такие как «lait — молоко» и «pourquoi — почему». Но другие корреляции были менее заметны. Чтобы их рассмотреть, нужно было проходить по данным снова и снова, каждый раз немного изменяя алгоритмы. Только так можно было различить такие едва заметные пары, как «marque d’un asterisque — отмеченный звездой» и неуловимые «qui s’est fait bousculer — потрепанный в бою», рассказывали Браун и Мерсер.

У дешифровщиков в Институте оборонного анализа этот метод удивления бы не вызвал22. Действительно, Браун и Мерсер использовали инструмент, называемый «алгоритм максимизации ожиданий» и цитировали его создателя, Леонарда Баума — того самого Баума, который работал на институт и позже на Саймонса23. И хотя идея «статистического машинного перевода» казалась вполне естественной дешифровщикам, создателями традиционных переводческих программ она была встречена в штыки. Один обозреватель язвил, что «грубая сила компьютеров не есть наука», а когда выпуск газеты был представлен на собрании экспертов перевода, один из них вспоминал: «Мы были ошарашены… Люди качали головами и отпускали смешки недоверия или даже враждебности». — «Где же лингвистическая интуиция?» — интересовалась аудитория. Ответом было: «В том то и дело. Ее нет». Фред Желинек, один из менеджеров IBM, который следил за Брауном и Мерсером, подсыпал соли на рану. «С каждым уволенным лингвистом моя система начинает работать лучше», — говорил он скептикам24.