Светлый фон
S = $65 000 + 2 500 ¥ EX + 5 000 ¥ ED (4)

S = $65 000 + 2 500 ¥ EX + 5 000 ¥ ED (4)

S EX ED

Уравнение (4) говорит нам, что базовая зарплата сотрудника без опыта и только с аттестатом об окончании средней школы составляет (в среднем) 65,0 тысяч долларов. За каждый год опыта заработная плата увеличивается на 2,5 тысяч, а за каждую дополнительную образовательную ступень (до двух) зарплата увеличивается на 5,0 тысяч долларов. Соответственно, аналитик регрессии заявил бы, что наша оценка заработной платы Элис, если бы та имела высшее образование, составляла $65 000 + $2 500 ¥ 6 + $5 000 ¥ 1 = $85 000.

Простота и привычность таких методов объясняет, почему представление Рубина о причинном выводе как о проблеме отсутствия данных пользуется популярностью. Увы, какими бы безобидными ни казались эти методы интерполяции, они в корне ошибочны. Они основаны на данных, а не на модели. Все недостающие сведения заполняются путем изучения других значений в таблице. Как мы узнали благодаря Лестнице Причинности, любой такой метод обречен с самого начала; никакие методы, основанные лишь на данных (первый уровень), не могут ответить на контрфактивные вопросы (третий уровень).

Прежде чем сравнить эти методы со структурной каузальной моделью, давайте исследуем, почему условный расчет без учета модели не работает. В частности, объясним, почему Берт и Кэролайн, которые идеально соответствуют друг другу в плане опыта, на самом деле могут быть совершенно несравнимы, когда дело дойдет до потенциальных результатов. Еще удивительнее, что рациональная причинно-следственная история (подходящая для табл. 12) показала бы: наибольшее соответствие по зарплате у Кэролайн будет с тем, кто не соответствует ей по стажу.

Для начала нужно понять, что стаж, скорее всего, будет зависеть от образования. В конце концов, сотрудникам, получившим диплом, потребовалось для этого четыре года жизни. Таким образом, если бы у Кэролайн была только одна ступень образования (как у Берта), она могла бы использовать это дополнительное время, чтобы получить больший стаж. В этом случае у нее было бы такое же образование, но стаж солиднее, чем у Берта. Таким образом, мы можем заключить, что S1 (Кэролайн) > S1 (Берт) вопреки тому, что предсказывало бы наивное сопоставление. Мы видим, что, если у нас есть причинно-следственная история, в которой образование влияет на стаж, сопоставление на основе последнего приведет к несоответствию в потенциальной зарплате.

S S

Удивительно, но равный стаж, который вначале выглядел как приглашение к поиску соответствий, теперь превратился в громкое предупреждение против него. Табл. 12, конечно же, продолжит молчать о таких опасностях. По этой причине я не разделяю стремление Холланда рассматривать причинный вывод как проблему отсутствия данных. Наоборот. Недавняя работа Картики Мохан, моей бывшей студентки, показывает, что даже стандартные задачи с отсутствующими данными нуждаются в причинно-следственном моделировании для их решения.