Светлый фон

Телепродюсеры все время жалуются на качество сценариев сериалов. Как правило, в таких проектах нужно выдать десятки серий за несколько недель, не забыв ни одного из героев, не запутавшись в их высоких отношениях и каждые две минуты устраивая захватывающий поворот сюжета. Нужно сделать так, чтобы сериал как две капли воды был похож на хорошо продаваемый аналог и предыдущие опробованные клише, но при этом все-таки отличался. Не удивительно, что авторы сатанеют и либо лепят халтуру, либо бегут от продюсеров куда глаза глядят. Теперь и эта проблема решена: подключайте к работе GPT-2, и он напишет вам сто серий за два часа, учитывая все запросы, а если захотите продолжение, назавтра пришлет еще десять сезонов.

ПОДХОДЫ К ПОНИМАНИЮ ЕСТЕСТВЕННОГО ЯЗЫКА

ПОДХОДЫ К ПОНИМАНИЮ ЕСТЕСТВЕННОГО ЯЗЫКА

Хотя GPT-2 удалось серьезно продвинуться по сравнению с другими языковыми моделями, методика, которую использовали разработчики, не нова. Профессор информатики Стэнфордского университета Перси Лян признает, что прорыв удалось совершить не из-за революционных решений, а прежде всего благодаря большому массиву данных, примененных в обучении нейросети.

Среди прочих, перед GPT-2 ставилась задача понимания естественного языка —того, что называется NLP (natural-language processing). Это необходимо, например, в работе чатботов и виртуальных помощников. Но при всех своих успехах нейросеть все еще не понимает, что пишет. В компьютерном зрении есть подобная проблема: машина может создать реалистичную картинку в хорошем разрешении, при этом она не будет понимать, что на картинке.

Понимание и обработка естественного языка и является главной целью создания подобных языковых моделей. Развитие NLP сейчас определяется четырьмя основными подходами. Каждый из них имеет дело с определенным пониманием языка, если хотите, его философией.

Для обучения модели GPT-2 использовался самый простой подход из этих четырех, известный как статистическая, или распределительная семантика.

Мы узнаем значение незнакомых слов по тому, как они используются в языке. Если бы мы не понимали, что значит «береза», но видели бы, что оно используется примерно в тех же сочетаниях и контекстах, как «сосна», мы бы поняли, что «береза» — это, скорей всего, дерево. Нейросеть найдет, что береза и сосна растут, что есть березовые и сосновые поленья и так далее. Береза и сосна близки по значению. Но вот, допустим, волк не растет, волчьих поленьев тоже нет, поэтому значение слова «волк» далеко от «березы».

Алгоритмы, которые подсчитывают частоту употребления слова в тех или иных сочетаниях и находят в них закономерности, позволяют создать шаблоны словосочетаний, которые потом можно применить для создания предложений. Именно эта модель, кстати, используется для автоматической подсказки, когда вы пишете сообщение в смартфоне. Этот подход сейчас господствует и он развивается. Например, некоторые исследователи работают не со словами, а с последовательностями символов, и их модели могут запоминать сокращения, сленг и все то, что не отражено в словарях. Этот подход позволяет работать и с языками, в которых между словами нет четких границ.