Светлый фон

Благодаря большим данным мы можем получить доступ к огромному количеству не только людей в любом конкретном эксперименте, но и исследований, проведенных в разных местах и в различных условиях. Часто нам нужно объединить результаты этих исследований и перенести их на новые группы населения, которые могут отличаться даже в том, что будет для нас неожиданным.

Процесс перевода результатов исследования из одних условий в другие играет в науке фундаментальную роль. Фактически научный прогресс остановился бы, если бы у нас не было способности обобщать результаты лабораторных экспериментов и переносить их в реальный мир, например из пробирок на животных и на людей. Но до недавнего времени каждой науке приходилось разрабатывать собственные критерии для отделения валидных обобщений от невалидных, а систематических методов для решения проблемы транспортабельности в целом не существовало.

За последние пять лет мне и моему бывшему студенту (теперь коллеге) Элиасу Барейнбойму удалось найти исчерпывающий критерий, чтобы принять решение о том, переносимы ли результаты. Как обычно, необходимое условие для его использования — представить процесс генерации данных в виде диаграммы причинности, на которой отмечены места потенциальных несоответствий. Переносить результат не обязательно означает принимать его в исходной форме и применять в новой среде. Исследователю, возможно, придется откалибровать его, чтобы учесть различия между двумя средами.

Предположим, мы хотим узнать эффект воздействия рекламы в Интернете (X) на вероятность того, что потребитель купит товар (Y), скажем доску для серфинга. У нас есть данные, полученные в результате исследований в пяти разных местах — в Лос-Анджелесе, Бостоне, Сан-Франциско, Торонто и Гонолулу. Теперь мы хотим оценить, насколько эффективной эта реклама будет в Арканзасе. К сожалению, все группы и все исследования несколько отличаются. Например, группа, изученная в Лос-Анджелесе, моложе, чем наша целевая аудитория, а в Сан-Франциско она отличается по количеству переходов по ссылке. На рис. 65 показаны уникальные характеристики каждой группы и каждого исследования. Можем ли мы объединить данные, полученные в далеких друг от друга местах, чтобы оценить эффективность рекламы в Арканзасе? Можем ли мы сделать это, не собрав данные в Арканзасе? Или измерив лишь ограниченное число переменных? Или проведя пилотное наблюдательное исследование?

X Y

 

Рис. 65. Проблема транспортабельности

 

На рис. 66 эти различия переведены в форму графика. Переменная Z представляет возраст, который играет роль осложнителя; молодые люди с большей вероятностью увидят рекламу и с большей вероятностью купят продукт, даже если не видели рекламу. Переменная W отражает переход по ссылке с целью получить дополнительную информацию. Это медиатор — шаг, который необходим, чтобы просмотр рекламы превратился в покупку продукта. Буква S в каждом случае обозначает переменную, «производящую различие», т. е. гипотетическую переменную, которая указывает на характеристики, отличающие две группы. Например, в группе б «Лос-Анджелес» индикатор S указывает на Z, возраст. В каждом из иных городов индикатор указывает на характерную черту группы, приведенную на рис. 65.