Одно из проявлений такой позиции — одержимость количественным анализом, который заменяет мудрость и опыт. Количественное выражение принимает разные формы. Например, движение «измерение себя». Его последователи используют электронные устройства для наблюдения и количественного выражения разных аспектов своего поведения. Движение отражает устойчивую тенденцию к количественному описанию во всем американском обществе: в здравоохранении, образовании, государственной власти и личной жизни. Это уже хорошо знакомые нам «большие данные».
Допущения в основе больших данных
Большие данные связаны с корреляцией, а не с причинной связью. Они могут выявить статистически значимую зависимость, но не объяснить ее. С увеличением наборов данных возрастает риск недостоверных статистически значимых корреляций. В огромном стоге сена может быть спрятана масса иголок. Большие данные предлагают информацию без какого-либо истолкования. Как отметил в 2014 году экономист и журналист Тим Харфорд в статье в Financial Times, «большие данные не решают проблему, которой веками одержимы специалисты по статистике и ученые. Не позволяют понять значение происходящего и определить, как своим вмешательством мы можем изменить систему к лучшему».
Что происходит, когда большие данные используются вместо традиционных методов исследования, а не наряду с ними? Ситуация с Google Flu Trends служит наглядным примером. В 2008 году исследователи Google поставили цель использовать поисковые запросы для предсказания массовых вспышек гриппа. Ученые отслеживали в Google запросы, связанные с заболеванием. Предполагалось, что поисковая система поможет выявлять очаги гриппа быстрее, чем центры по контролю и профилактике заболеваний. С помощью технологии анализа данных в реальном времени и распознавания паттернов исследователи применили свою теорию на практике. Результаты были опубликованы в журнале Nature. Все указывало на грандиозный успех. Запросы Google позволяли прогнозировать вспышки гриппа на две недели быстрее, чем данные центров по контролю и профилактике заболеваний.
Но затем Google Flu Trends стала давать сбой. Она упустила из виду эпидемию вируса H1N1 в 2009 году и серьезно переоценила вспышки гриппа в 2012–2013 годах. За двухлетний период, закончившийся в 2013 году, прогнозы Google Flu Trends были завышены в 100 из 108 недель. Что пошло не так? Среди прочих проблем алгоритм Google был уязвим перед любыми запросами, связанными с сезоном гриппа, но не с самим заболеванием. Таким образом, запросы вроде «студенческий баскетбол»[8] и «куриный бульон» считались сигналом о гриппе, хотя это совершенно случайная корреляция без реальной причинно-следственной связи с заболеванием. Большим данным безразлично, почему сделан запрос: они отражают эмпирический подход. Любые отклонения и искажения при принятии решения людьми отбрасываются. Предпочтение отдается дедуктивному способу рассуждения. Индуктивные методы исследования отвергаются. При достаточном объеме данные говорят сами за себя, и вам не нужна теория. Но в случае с Google Flu Trends для того чтобы придать корреляциям значение и установить причинно-следственную связь, необходим более глубокий анализ. Большие данные не могут просто избавиться от зависимости от традиционных методов исследования. Их смысл по-прежнему зависит от интерпретации. Вопреки всем усилиям Кремниевой долины, большие данные никогда не будут нейтральными.
Несмотря на примеры вроде Google Flu Trends, показывающие ограничения больших данных, сторонники Кремниевой долины продолжают обращать людей в свою веру. Их доводы основаны на легендарной статье «Конец теории» Криса Андерсона, опубликованной в журнале Wired в 2008 году. Якобы то, как мы объясняли действительность в прошлом — с помощью моделей и гипотез, — становится все менее актуальным. Превращается в грубое приближение к истине. В 2008 году интернет, смартфоны и системы управления взаимоотношениями с клиентами уже обеспечивали переизбыток данных. «Цифры говорят сами за себя, — писал Андерсон, цитируя Питера Норвига, директора по исследованиям в Google. — Все модели неверны. И все чаще вы справляетесь с задачей без них». Андерсон развил идеи Норвига и пошел в рассуждениях дальше: «В этом мире огромные массивы данных и прикладная математика заменяют любой другой инструмент, который нам только доводилось использовать. Долой теории человеческого поведения — от лингвистики до социологии. Забудьте таксономию, онтологию и психологию. Кто знает, почему люди поступают так или иначе? Суть в том, что это происходит. И мы можем отследить и измерить все их действия с беспрецедентной точностью. При достаточном объеме данные говорят сами за себя».