Кто собирает большие данные и почему?

Осенью 2019 года разразился скандал с сервисом Apple Card: при регистрации он выставил разные кредитные лимиты для мужчин и женщин. Даже Стиву Возняку не повезло:

Годом ранее выяснилось, что платформа Netflix показывает пользователям разные постеры и тизеры в зависимости от их пола, возраста и национальности. За это сервис обвинили в расизме.

Наконец, Марка Цукерберга регулярно ругают за то, что он якобы собирает, продает и манипулирует данными своих пользователей с помощью Facebook. В разные годы его обвиняли и даже судили за манипуляции во время американских выборов, пособничество российским спецслужбам, разжигание ненависти и радикальных взглядов, неуместную рекламу, утечку пользовательских данных, препятствование расследованиям в отношении педофилов.

Сообщение на Facebook от Zuck

При этом онлайн-сервис Pornhub ежегодно публикует отчеты о том, какое порно ищут люди разных национальностей, пола и возраста. И почему-то это никого не волнует. Хотя все эти истории похожи: в каждой из них мы имеем дело с большими данными, которые в XXI веке называют «новой нефтью».

Что такое большие данные

Большие данные – они же большие данные (англ. Big Data) или метаданные – это массив данных, который поступает регулярно и в больших объемах. Они собираются, обрабатываются и анализируются, в результате чего создаются четкие модели и закономерности.

Яркий пример — данные Большого адронного коллайдера, которые поступают постоянно и в больших количествах. С их помощью ученые решают множество проблем.

Но большие данные в сети — это не только статистика научных исследований. С их помощью можно отслеживать, как ведут себя пользователи разных групп и национальностей, на что они обращают внимание и как взаимодействуют с контентом. Иногда для этого собирают данные не из одного источника, а из нескольких, сравнивая и выявляя определенные закономерности.

О том, насколько важны большие данные в сети, заговорили тогда, когда их было действительно много. На начало 2020 года в мире насчитывалось 4,5 миллиарда интернет-пользователей, из них 3,8 миллиарда были зарегистрированы в социальных сетях.

Кто имеет доступ к большим данным

Согласно опросам, более половины наших стран считают, что их данные в сети используются третьими лицами. При этом многие публикуют в социальных сетях и приложениях личную информацию, фотографии и даже номер телефона.

Кто собирает большие данные и почему?
Кто собирает большие данные и почему?
Кто собирает большие данные и почему?
Кто собирает большие данные и почему?

Здесь необходимо объяснить: первый человек — это сам пользователь, который размещает свои данные на любом ресурсе или приложении. При этом он соглашается (ставит галочку в соглашении) на обработку этих данных. вторая сторона – то есть владельцы ресурса. Третья сторона — это те, кому владельцы ресурса могут передать или продать пользовательские данные.. Часто это написано в пользовательском соглашении, но не всегда.

Третья сторона — это государственные учреждения, хакеры или компании, покупающие данные в коммерческих целях. Первые могут получить данные по решению суда или вышестоящего органа. Хакеры, естественно, не используют никаких разрешений — они просто взламывают базы данных, хранящиеся на серверах. Компании (по закону) могут получить доступ к данным только в том случае, если вы сами это разрешили – поставив галочку под соглашением. В противном случае это незаконно.

Почему компании используют большие данные?

Большие данные в коммерческой сфере использовались десятилетиями, просто они не были такими интенсивными, как сейчас. Это, например, записи с камер наблюдения, данные GPS-навигаторов или онлайн-платежи. Теперь, с развитием социальных сетей, онлайн-сервисов и приложений, все это можно соединить и получить максимально полную картину: где живут потенциальные клиенты, что они любят смотреть, куда они ездят в отпуск и какая у них марка автомобиля.

Из приведенных выше примеров видно, что с помощью больших данных компании, в первую очередь, хотят таргетировать рекламу. То есть предлагать товары, услуги или отдельные опции только нужной аудитории и даже кастомизировать продукт под конкретного пользователя. Кроме того, реклама в Facebook и других крупных площадках становится все дороже, а показывать ее всем подряд совсем не выгодно.

Информацию о потенциальных клиентах из открытых источников активно используют страховые компании, частные клиники и работодатели. Первые, например, могут изменить условия страхования, если увидят, что вы часто ищете информацию о тех или иных заболеваниях или лекарствах, а работодатели смогут оценить, склонны ли вы к конфликтам и асоциальному поведению.

Но есть еще одна важная задача, над которой бьются последние годы: приблизиться к самой платежеспособной аудитории. Сделать это не так-то просто, хотя задачу существенно облегчают платежные сервисы и электронные чеки через единого ОФД (оператора фискальных данных). Чтобы подобраться как можно ближе, компании даже стараются выслеживать и «воспитывать» потенциальных клиентов с детства.: через онлайн-игры, интерактивные игрушки и образовательные услуги.

Как это работает?

Наибольшие возможности для сбора данных предоставляют глобальные корпорации, владеющие сразу несколькими сервисами. Сейчас у Facebook более 2,5 миллиардов активных пользователей. При этом компании принадлежат и другие сервисы: Instagram — более 1 млрд, WhatsApp — более 2 млрд и другие.

Но влияние Google еще больше: Gmail используют 1,5 миллиарда человек в мире, еще 2,5 миллиарда — мобильная ОС Android, более 2 миллиардов — YouTube. И это не считая приложений поиска Google и Google Maps, магазина Google Play и браузера Chrome. Остаётся прикрутить свой интернет-банк – и Google сможет знать о вас буквально всё. Кстати, Яндекс в этом плане уже на шаг впереди, но охватывает только русскоязычную аудиторию.



???? В первую очередь компании интересуются тем, что мы публикуем и лайкаем в социальных сетях. Например, если банк увидит, что вы женаты и активно лайкаете девушек в Instagram или Tinder, вам с большей вероятностью одобрят потребительский кредит. И ипотека на семью пропала.

Также важно, на какие объявления вы нажимаете, как часто и с каким результатом.

(Т.е. Следующий шаг — личные сообщения: в них гораздо больше информации. Сообщения слили во «ВКонтакте», Facebook, WhatsApp и других мессенджерах. По их словам, кстати, легко отследить геолокацию в момент отправки сообщения. Наверняка вы замечали: когда вы обсуждаете с кем-то покупку чего-то или просто заказ пиццы, в ленте сразу появляется релевантная реклама.

🚕 Большие данные активно используют и «сливают» службы доставки и такси. Они знают, где вы живете и работаете, что любите, какой у вас примерный доход. Uber, например, показывает цену выше, если вы едете домой из бара и явно переборщили. А когда у вас на телефоне куча других агрегаторов, они, наоборот, предложат более дешевые.

(Т.е. Есть сервисы, которые используют фото и видео, чтобы собрать как можно больше информации. Например, библиотеки компьютерного зрения — у Google есть одна. Они сканируют вас и ваше окружение, чтобы узнать, какой у вас размер и рост, какие бренды вы носите, на какой машине ездите, есть ли у вас дети или домашние животные.

(Т.е. Те, кто предоставляет банкам СМС-шлюзы для своих рассылок, могут отслеживать ваши покупки по карте. – зная последние 4 цифры и номер телефона – а затем продать эти данные кому-то другому. Отсюда и весь этот спам со скидками и пиццей в подарок.

🤷️️ Наконец, мы сами сливаем свои данные в левые сервисы и приложения. Помните тот ажиотаж вокруг Getcontact, когда все были рады ввести свой номер телефона, чтобы узнать, как его написали другие. А теперь найдите их соглашение и прочитайте, что там написано о передаче ваших данных (спойлер: владельцы могут передавать их третьим лицам по своему усмотрению):

Кто собирает большие данные и почему?

Корпорации могут годами успешно собирать и даже продавать данные пользователей, пока дело не дойдет до судебного процесса – как это произошло с тем же Facebook. И тут решающую роль сыграло нарушение компанией GDPR — закона ЕС, который ограничивает использование данных гораздо строже, чем американский. Еще один недавний пример — скандал с антивирусом Avast: один из дочерних сервисов компании собирал и продавал данные от 100 до 400 миллионов пользователей.

Но есть ли во всем этом какие-то преимущества для нас?

Как большие данные помогают всем нам?

Да, есть и светлая сторона.

Большие данные помогают ловить преступников и предотвращать теракты, находить пропавших детей и защищать их от опасности.

С их помощью мы получаем крутые предложения от банков и персональные скидки. Благодаря им мы мы не платим за многие сервисы и социальные сети, которые зарабатывают только на рекламе. В противном случае один только Instagram обошелся бы нам в несколько тысяч долларов в месяц.

Только у Facebook 2,4 миллиарда активных пользователей. При этом их прибыль за 2019 год составила $18,5 млрд. Получается, что с каждого пользователя компания зарабатывает до $7,7 в год за счет рекламы.

Наконец, иногда это просто удобно: когда сервисы уже знают, где вы находитесь и чего хотите, и вам не придется самостоятельно искать нужную информацию.

Еще одна перспективная область применения больших данных — образование.

В одном из американских университетов Вирджинии было проведено исследование по сбору данных о студентах так называемой группы риска. Это те, кто плохо учится, пропускает занятия и вот-вот бросит учебу. Дело в том, что в штатах ежегодно отчисляют около 400 человек. Это плохо как для университетов, у которых понижен рейтинг и урезано финансирование, так и для самих студентов: многие берут кредиты на образование, которые после вычета все равно придется возвращать. Не говоря уже о потерянном времени и карьерных перспективах. С помощью больших данных можно вовремя выявить отстающих и предложить им репетитора, дополнительные занятия и другую адресную помощь.

Это, кстати, подходит и для школ: тогда система оповестит учителей и родителей — мол, у ребенка проблемы, давайте поможем ему вместе. Большие данные также помогут вам понять, какие учебники работают лучше и какие учителя легче объясняют материал.

Еще одним положительным примером является профилирование карьеры.: это когда подросткам помогают определиться с будущей профессией. Здесь большие данные позволяют собрать информацию, которую невозможно получить с помощью традиционных тестов: как ведет себя пользователь, на что обращает внимание, как он взаимодействует с контентом.

В тех же США существует программа профориентации – SC ACCELERATE. Оно, помимо прочего, использует технологию CareerChoice GPS: анализирует данные о характере учеников, их склонностях к предметам, сильных и слабых сторонах. Затем данные используются, чтобы помочь подросткам выбрать подходящие для них колледжи.


Подписывайтесь и следите за нами в Яндекс.Дзен — технологии, инновации, экономика, образование и обмен в одном канале.

Оставьте комментарий