Все мы плаваем в море данных, и уровень этого моря стремительно поднимается. Десятки миллионов соединенных друг с другом людей, миллиарды сенсоров, триллионы пересылаемых сообщений — все вместе они создают неимоверные объемы информации. Не меньшее количество данных генерируется людьми, которые просто живут своей повседневной жизнью, создавая то, что в McKinsey Global Institute назвали «цифровым выхлопом». Просматривая страницы в интернете, ища нужную информацию или просто идя по улице со смартфоном в кармане, мы производим этот побочный продукт.
Информация, создаваемая людьми, — лишь часть общей картины, и часть относительно небольшая. Машины и сенсоры, установленные в океанах, в почве, в ящиках с продуктами, в фишках казино, в ошейниках домашних животных и бесчисленном множестве других устройств, постоянно генерируют данные и делятся ими напрямую с «читающими» устройствами и другими машинами, которым для работы не требуется участие человека.
Прогнозы относительно роста объема данных настолько ошеломляющи, что некоторые опасаются, что в обозримом будущем наши системы хранения и передачи цифровых данных перестанут справляться с задачей по поиску места для хранения и перемещения информации.
Государственные деятели, ученые, руководители корпораций, чиновники от здравоохранения и специалисты в области образования хотят знать, не принесут ли новые типы анализа данных нового понимания того, как ведут себя люди; что они хотели бы купить, как могут отреагировать на новую продукцию, сервисы и общественные инициативы.
В марте 2012 г. Управление по научно-технической политике при Белом доме (OSTP) объявило о запуске программы Big Data Research and Development Initiative (Инициатива по изучению и развитию Больших данных), в рамках которой шесть различных управлений американской администрации потратят свыше 200 млн долларов на оптимизацию работы с большими объемами цифровых данных.
Цель проекта — создание технологий по сбору, хранению и управлению гигантскими количествами данных. OSTP планирует использовать эти технологии для ускорения развития в науке, технике, национальной безопасности и образовании, заявляют в Белом доме.
В чем же особое значение Больших данных? В 2011 году глобальная консалтинговая компания McKinsey выпустила доклад, в котором утверждалось, что изобилие данных потенциально может принести пять новых видов выгоды:
1) сделать деятельность организаций более прозрачной, тем самым повысив их эффективность;
2) дать возможность более полного анализа работы сотрудников и систем благодаря использованию экспериментов и обратной связи;
3) сегментировать население, что позволит действовать более адресно;
4) создать автоматические алгоритмы, помогающие или полностью заменяющие человека при принятии решений, не требующих его участия;
5) создавать новые бизнес-модели, продукты и услуги.
И действительно, корпорации все больше и больше стремятся изобрести новые методы анализа и алгоритмы работы с данными. Как пишет Economist:
“Данные становятся новым сырьем для бизнеса, почти таким же фактором производства, как капитал и труд. «Каждый день я просыпаюсь и спрашиваю себя: «как мне управлять потоком данных еще лучше, анализировать данные еще лучше?» — говорит глава Walmart Роллин Форд.”
В той же статье цитируется Крейг Манди, директор Microsoft по исследованиям и стратегии, который рассуждает о возникновении «датацентричной экономики».
И пока энтузиасты говорят об огромном потенциале Больших данных, борцы за свободу частной информации бьют тревогу: собирается все больше и больше данных о людях, которые делятся цифровой информацией о себе как осознанно — например, через публикации в социальных сетях, — так и неосознанно, просто живя своей повседневной жизнью. Их беспокоит не только профайлинг, но и тот факт, что люди, анализирующие большие данные с помощью алгоритмов, могут прийти к ошибочным выводам относительно личности человека, того, как он может повести себя в будущем и того, как применять корреляции, возникающие в результате анализа.
Есть много и чисто технических проблем. Данные, генерируемые сегодня, по большей части «неструктурированы» и очень неуклюже организованы. Их нужно упорядочить для того, чтобы анализировать, и это очень серьезная задача.
Представьте себе, какой может быть ситуация в 2020 году. Участники проекта «Интернет и американская жизнь» Pew Research Center’s и центр «Воображая Интернет» ( Imagining the Internet) при университете Элона попросили игроков цифровой арены оценить два сценария развития событий к 2020 году, выбрать тот, который, по их мнению, более вероятен, и объяснить свой выбор. Один сценарий описывает относительно позитивное будущее, в котором Большие данные собраны вместе, что позволяет улучшить качество общественных, политических и экономических исследований. Согласно другому сценарию, к 2020 году проблем от Больших данных возникнет больше, чем они призваны решить.
Мнения участников опроса разделились очень четко.
53% опрошенных согласились со следующим прогнозом:
39% согласились со вторым утверждением:
Респондентам нельзя было выбрать оба сценария. Вопрос был поставлен таким образом, чтобы спровоцировать их на искренний, хорошо обдуманный и подробный письменный рассказ о будущем, в котором люди и организации имеют доступ к невообразимо огромным объемам данных. Хотя примерно половина отвечавших согласились с утверждением, что Большие данные принесут позитивные результаты, многие из тех, кто выбрал этот вариант, сказали, что он выражает скорее их надежды на будущее, чем уверенность. Значительная часть участников подчеркивают, что, хотя они выбрали либо позитивный, либо негативный сценарий, реальная ситуация в 2020 году будет объединять в себе черты обоих.
Мы попросили респондентов прочитать два альтернативных варианта видения и дать развернутое объяснение своих ответов, используя направляющие вопросы: «Какое влияние будут оказывать Большие данные в 2020 году? Каковы позитивные, негативные и «серые» стороны будущего, которое вы ожидаете увидеть? Как использование Больших данных изменит понимание мира, изменит способы принятия решений в бизнесе, изменит то, как мы понимаем людей?».
К 2020 году использование Больших данных поможет нам лучше понимать самих себя и окружающий мир.
«Наукастинг» — технологии анализа данных в реальном времени и распознавания паттернов однозначно улучшатся.
Позитивные эффекты Больших данных перевесят негативные. В авангарде будут идти пользовательские инновации и аналитика «сделай-сам».
Свободный доступ к инструментам и «прозрачность» данных необходимы людям, чтобы проверять информацию и иметь возможность составить сбалансированное мнение. Но достаточно ли их?
«Интернет вещей» расширит поле для исследований, но придется преодолеть множество технических препятствий.
Люди по-прежнему лучше машин будут извлекать суть и выносить суждения относительно Больших данных. Статистика по-прежнему может лгать.
Снимите розовые очки: Большие данные потенциально ведут к негативным последствиям, возможно неизбежным. Книга «Как лгать с помощью Интернета вещей» будет бестселлером.
К 2020 году у нас не будет достаточных человеческих или технических ресурсов для точного и эффективного анализа Больших данных.
Респондентов беспокоят мотивы правительств и корпораций, а именно они располагают наибольшим количеством данных и имеют желание анализировать их. В сердце их планов на Большие данные — манипуляции и слежка.
Большие данные принесут выгоду богатым, а не бедным.
Образование в области Больших данных может включать в себя рассказы о риске подвергнуться манипуляции. Возможно, людям также стоит рассказывать о доверии.
Но можно ли сказать, что этот принцип «больше поиска — значит больше активности» применим к другим областям? В 2010 году два исследователя из университета Нотр-Дам, Жи Да и Пеньджи Гао, доказали, что данные по поиску информации об определенных компаниях могут, с определенной долей надежности, быть использованы для прогнозирования роста стоимости этих компаний на фондовом рынке.
Во многом Google уже сегодня работает над тем, чтобы стать первой в мире машиной предсказаний, поскольку прогнозы — ключевой элемент бизнес-модели этой компании. Не все догадываются о том, что Google зарабатывает 28% своей выручки на программе AdSense, которая показывает разные рекламные объявления разным людям на основе разных параметров поиска. Улучшенная персонализация показа рекламы — это и есть функция предсказания. Предвидение пользовательского поведения, вопросов и настроений лежит в самом сердце миссии Google по «организации мировой информации».
Такие сервисы, как Facebook и Google+, могут помочь нам намного лучше понять собственную жизнь и наши взаимоотношения, чем мы могли до появления этих сервисов. Однако то видение нашей жизни и нашего взаимодействия с различными социальными кругами, которое предлагает Facebook, всегда будет более четким, чем наше собственное. И тут возникает вопрос: а кто еще сможет заглянуть в микроскоп?
Этот феномен таит в себе опасности. В своей недавней книге «Пузырь фильтров» Элай Парайзер пишет об «информационном детерминизме» как о неизбежном результате чрезмерной персонализации интернета. «»Пузырь фильтров» — это состояние, когда «то, на что вы кликнули в прошлом, определяет то, что вы увидите дальше, — это история посещений, которую вы обречены повторять снова и снова. Вы можете застрять в статичной, вечно сужающейся версии самого себя, бесконечной петле самого себя»».
Google и Facebook — всего лишь наиболее очевидные нарушители. Они заметны, потому что используют данные для того, чтобы продавать вам сервисы. Однако вы всегда можете отказаться от пользования Facebook, как уже поступили миллионы людей. И хотя выкинуть из своей жизни Google сегодня не так легко, как это было десять лет назад, его можно пользоваться анонимно, а можно даже находить информацию вообще не пользуясь им. Мы по собственной воле входим или выходим из этих сетей…
Футуристические машины берут на себя работу по изобретению будущего. Их предсказания имеют последствия для реального мира, потому что наше взаимодействие с будущим — индивидуальное, групповое и национальное — есть выражение нашей личной и национальной идентичности. Независимо от того, что может и чего не может произойти, будущее как идея постоянно формирует наше поведение как покупателей, избирателей и членов общества. Будущее становится все более познаваемым. Мы стоим на рубеже потенциальной революции в науке и технике. Однако даже те аспекты будущего, которые могут принести человечеству наибольшую пользу, могут обернуться ужасными последствиями, если мы не сможем к ним подготовиться.