«Коммерческие данные — это кровь интернета»
Сооснователь платформы Segmento, куратор магистратуры Вышки «Коммуникации, основанные на данных» Роман Нестер поделился с РБК мыслями об этике в цифровом сегменте, о пользовательском лицемерии и опасности данных в руках государства.
Лишние люди
Что сейчас представляет собой рынок больших данных?
Компании заявили про большие данные на четыре года раньше, чем стали их рутинно использовать. К 2020 году бизнес наигрался в заявления «я собираю данные и их использую». Теперь все спрашивают, где эффект и результат. На рынке переизбыток дата-сайентистов, аналитиков и специалистов, умеющих применять технологии. При этом существует колоссальный кризис института бизнес-заказчиков. Рынку с огромным количеством технических специалистов не хватает людей, которые могут правильно поставить им задачу. Моя цель — сформировать такой класс.
Тот факт, что аналитик хорошо умеет работать с данными, вовсе не означает, что это приносит пользу компании. Польза для компании, запрос и оценка генерируются в бизнес-подразделениях. Менеджеры часто ставят фантазийные цели, взятые из головы. Если задача сформулирована неправильно, то получаются упреки: «Данные не те, аналитики плохие». Такой вот перенос ответственности. Но от аналитиков стали требовать, чтобы они понимали бизнес и приходили с готовыми решениями. Так не работает.
Что значит переизбыток дата-сайентистов? Это же очень сложная специализация.
Важный спойлер: уже не нужно столько дата-сайентистов, сколько ими пытаются стать. Мировые ИТ-гиганты уже практически превратили работу с данными в автоматизированное решение — нажал кнопку и все получил. Сейчас предрекают, что программисты уйдут в прошлое, а код будет писать себя сам. Но в обработке данных прогресс идет еще быстрее. Работа дата-сайентиста часто рутинное применение алгоритмов, перебор одного массива данных за другим в надежде, что выскочит нужный результат. Это можно автоматизировать.
Неудобные запросы
Пять лет назад гораздо чаще говорили про большие данные, чем в 2020-м. Да и каких-то интересных и эффективных публичных бизнес-кейсов мы в последнее время не видели. С чем вы это связываете?
Думаю, с двумя причинами. Во-первых, эта тема вышла из моды. А во-вторых, стало страшно об этом говорить в силу вопросов этики. Пользователи нервничают, когда компании заявляют, что извлекают ценность из знаний о клиентах. Был период, когда бизнес не стеснялся этого. Затем возникли скандалы с утечками персональных данных, которые на самом деле к коммерческим данным отношения не имеют. В голове пользователей все смешалось, а компании предпочли тихо работать с большими данными и не делать громких заявлений.
Нужно понимать, что есть четыре вида компаний и, условно говоря, два вида данных. Проблема не в том, что бизнес стал больше обрабатывать информации или данные стали куда-то утекать. Есть персональные данные, которые содержат ваши Ф.И.О. Их больше всего внутри банков, телекоммуникационных корпораций и у государства. И есть поведенческие данные, которые фактически описывают характеристики браузера, а не конкретного человека. Этих данных гораздо больше — на них сделали бизнес «Яндекс», Google и Mail.ru Group.
Есть интернет-компании, ДНК которых — создание цифрового продукта. Они используют данные, чтобы продукт стал лучше. Второй тип — маленькие компании и рекламные агентства. Третий тип — банки, операторы и провайдеры, которые работают с персональными данными. И четвертый тип — госорганы и окологосударственные компании. Второй и четвертый — самые страшные сегменты, работающие с данными. На мой взгляд, безопаснее всего для пользователя — техногиганты.
Почему?
Им дорого обходятся ошибки в обработке данных. Если что-то случится, рынок быстро и больно накажет. В свою очередь, небольшие компании и госорганы ни перед кем ни за что не отвечают. Как данные защищены? Кого накажут, если что-то произойдет? Как исправят ошибку? Непонятно. Эта проблема гораздо существеннее, чем Google, который «подсматривает».
В конце октября «Яндекс» впервые назвал количество запросов госорганов о раскрытии пользовательских данных. С января по июнь 2020 года российский ИТ-гигант получил 15 376 таких обращений, причем 2 468 (16%) из них было отклонено. Для сравнения: Google, опубликовавший подобные сведения во втором полугодии 2019-го, отказал по 26% запросов (из 81 785 обращений госорганов со всего мира).
Наибольшее количество запросов (8 867) — по пользователям сервисов «Яндекс.Почта» и «Яндекс.Паспорт» (в последнем хранятся основные регистрационные данные клиентов). «Яндекс.Такси» получил 5 280 запросов, «Яндекс.Драйв» — 706, «Яндекс.Еда» — 300, прочие сервисы — 223 запроса.
Опыт Китая, России или США показывает, что бизнес очень легко передает государству сведения о своих клиентах. Также у ИТ-гигантов есть доступ к реальным именам пользователей. Для людей сотрудничество корпораций с государством тоже риски в области свободы слова.
Тут вопрос к законодателям, а не к компаниям. Но эта тема, как минимум, вышла в публичное поле, по ней снимают фильмы, мы с вами ее обсуждаем. Это хорошо и правильно.