Во-первых, информация должна быть полной. В работу нужно брать все, что доступно на настоящий момент, без купюр. Стоит пропустить какой-нибудь массив данных — потом непременно окажется, что именно в нем было все самое интересное и нужное. Биологи просматривают данные абсолютно всех экспериментов, геологи анализируют все пробы, а историки просматривают все архивы и доступные летописные списки. Также информация должна быть актуальной, достоверной, релевантной.
Во-вторых, информацию нужно систематизировать, говоря простым языком, разложить по полочкам. Как бы ни громаден был массив данных, систематизация поможет обработать его без потерь. Систематизированная информация — это уже половина исследования. Разработка принципа систематизации — обязательный этап при первоначальной обработке данных. Даже не самая оптимальная система лучше, чем ее полное отсутствие.
В-третьих. Необходимо подчинить информацию принципу иерархии. Выделить главное и отсеять второстепенное. Выделение главного — это определение узловых точек системы, определяющих ее качество как целого. Так историки ищут протограф всех летописных изводов и сосредотачивают главное внимание на нем, не утрачивая, однако, видения всего массива информации.
Четвертое правило — последовательность. Козьма Прутков писал: «Плюнь тому в глаза, кто скажет, что можно объять необъятное!» Но если работать системно и целенаправленно, это можно сделать. Никто не способен съесть слона целиком, но если откусывать каждый день по кусочку, можно поглотить целое слоновье стадо. То же и с информацией. Заранее намеченный план, выделение четких этапов работы позволяют преодолеть любой путь.
Но традиционные подходы к работе с информацией становятся непригодны, когда приходится сталкиваться с обработкой и использованием так называемых Big Data (больших данных) — совокупности данных с возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа привычными методами[655]. Термин «большие данные» ввел редактор журнала Nature Клиффорд Линч еще в 2008 году в спецвыпуске, посвященном взрывному росту мировых объемов информации. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.
По данным компании IBS, к 2003 году мир уже накопил 5 эксабайт данных (это эквивалентно 5 млрд гигабайтов). Через пять лет этот объем вырос в 37 раз, а в мае 2015 года глобальное количество данных выросло еще в 36 раз. К 2020 году, по прогнозам, человечество должно накопить более 40 зеттабайтов, что эквивалентно 41 000 экзабайтов информации[656]. А к 2025 году эта цифра достигнет 163 зеттабайт (ZB), о чем говорится в докладе «Эпоха данных — 2025» (The Data Age 2025), который был подготовлен аналитиками компании IDC[657]. Если перевести эти цифры в более понятные категории, то 1 зеттабайт данных эквивалентен суммарной памяти 34,4 миллиарда самых современных смартфонов. А если бы каждый терабайт в зеттабайте был километром, то это было бы эквивалентно 1300 поездкам на Луну и обратно (76 800 километров)[658].