Я не хочу сказать, что интеллектуальный анализ данных бесполезен. Он способен стать важнейшим первым шагом, который позволит найти интересные ассоциативные паттерны и точнее поставить вопросы для трактовки. Теперь можно не спрашивать, существуют ли гены, вызывающие рак легких. Вместо этого достаточно просканировать геном и найти гены, у которых высокая корреляция с раком легких (как в примере с Большим, описанном в главе 9). Потом ставится вопрос, вызывает ли этот ген рак легких (и каким образом). Мы никогда бы не задали вопрос об этом гене, если бы у нас не было интеллектуального анализа данных. Однако, чтобы пойти дальше, необходимо разработать причинную модель, уточняющую, например, на какие переменные воздействует ген, какие здесь возможны осложнители и какие иные причинные пути способны достичь этого результата. Интерпретация данных подразумевает выдвижение гипотез о том, как все происходит в реальном мире.
Еще одна роль больших данных в задачах для причинного вывода открывается в механизме причинного анализа, описанном во вступлении, на последнем этапе его работы (шаг 8), где мы переходим от оцениваемой величины к оценке. Эта стадия статистической оценки принимает нетривиальный оборот, когда число переменных велико, и только современные технологии интеллектуального анализа данных и машинного обучения помогут справиться с проклятием многомерности. Это объясняет, почему большие данные и причинный вывод сегодня играют важнейшую роль в развивающейся персонализованной медицине. Здесь мы пытаемся извлечь выводы из прошлого поведения группы индивидов, как можно более похожих по максимальному набору параметров на данного конкретного человека. С помощью причинного вывода мы отбрасываем нерелевантные характеристики и извлекаем этих индивидов из разнообразных исследований, в то время как большие данные позволяют собрать о них достаточно информации.
Легко понять, почему некоторые люди считают интеллектуальный анализ данных финальным, а не первым шагом. Он обещает решение с использованием имеющихся технологий. Он избавляет и нас, и машины будущего от необходимости рассматривать и формулировать обоснованные предположения о том, как устроен мир. В некоторых областях наши знания находятся в таком зачаточном состоянии, что мы понятия не имеем, как приступить к созданию модели мира. Но большие данные не решат эту проблему. Важнейшая часть ответа должна исходить из модели, нарисованной нами или предложенной и уточненной машинами.
Чтобы не показаться излишне критичным по отношению к работе с большими данными, я хотел бы упомянуть одну новую возможность для их симбиоза с причинным выводом. Она называется транспортабельностью.