«Защита персональных данных — как приватизация. Людям просто лень этим заниматься»

Образовательный курс
«Цифровая журналистика»

Игорь Ашманов, генеральный директор компании «Ашманов и партнеры»

— Какая сейчас ситуация с Центром мониторинга атак в Иннополисе, который вы делаете совместно с Натальей Касперской?

Работа ведется, первые результаты будут осенью, я думаю. Все развивается постепенно, но нужно найти денег, чтобы это заработало. Infowatch стал резидентом Иннополиса, «Крибрум» пока нет. Мы сейчас ждем решения от крупного инвестора, который, возможно, поможет нам развернуться. (В интервью Игорь off the record сообщил, что речь идёт об инвестфонде Минкомсвязи. Сегодня эта информация появилась в СМИ).

— А сам центр — коммерческий проект или государственный?

Я думаю, в конце концов его форма определится, как некое частно-государственное партнерство. Это такой способ для нас и для республики реализовать поручение президента. Будет хорошо, если кроме государственных получится привлечь еще какие-то деньги. Мы ищем инвесторов.

Но основной интерес — в самой площадке, которая имеет гораздо больше возможностей (площадей, железа, кадров), чем мы можем себе позволить, как частная компания. Это же поисковик по соцсетям и блогам, он жрет серверное железо, как слон. А тут должен появится ещё один центр выкачки социальных сетей, в том числе иностранных, для нас это полезно.

Мы уже сделали подобное с Томским университетом, там есть совместная с «Крибрумом» лаборатория социальных исследований. Они нам дали в пользование свой суперкомпьютер и много серверов для выкачки, «Крибрум» поставляет им данные из социальных сетей, блогов и СМИ, у них социологи и программисты анализируют эти данные и создают разные интересные отчеты.

Например, уже появился первый отчет по экстремизму. Они вычисляют структуру террористических групп и их формы. А скажем, группа в форме звезды имеет явного лидера, а группа в форме паутины имеет несколько лидеров, и связи там слабее.

Пример социального графа, источник: MyShared

— Вы только текст анализируете?

Тексты, действия пользователей (лайки, шеры, комментарии), а также социальные графы. Кроме традиционных методов прикладной лингвистики и ИИ, в ближайшее время будем подключать нейронные сети к распознаванию спама, разных социальных структур. Мой сын запустил стартап по нейронным сетям, получил грант от Фонда Бортника. Они там написали свою нейронную сеть и сейчас распознают лица, печати.

Нам нейронная сеть нужна даже скорее не для того, чтобы фотки людей распознавать, хотя и это возможно. Мы, скорее всего, возьмем эту технологию для «Крибрума», нам она пригодится для распознавания спамеров для «ВКонтакте», Twitter и Facebook, для выявления клик и группировок. Infowatch уже распознаёт печати на документах при перехвате, мы, возможно, туда тоже эту нейронную сеть встроим.

— Как-то работаете со стартапами?

Да нет. Мы же не венчурный фонд. Конечно, у нас есть много своих домашних стартапов, но мы с ними работаем как стратегические инвесторы — запускаем, ждем, пока выстрелит или не выстрелит, и выкупаем технологию. Мы — стратег, который хочет развивать технологии в нашем технологическом секторе, мы не вкладываемся в массу каких угодно проектов с целью выйти оттуда и заработать на их продаже денег, как венчурный фонд.

Для нас критерием является не монетизация проекта, а то, чтобы планируемая технология заработала. Не все наши технологические стартапы срабатывают. Иногда бывает и так, что бизнес развился, но мы с ним работать не будем, потому что не сошлись с основателем. Бывает, что технология работает, но она нам пока особо и не нужна. Это не венчурный бизнес.

— Как поживает SEO? После «Минусинска»?

За последние годы было несколько катастроф на рынке поискового маркетинга. Отмена учета ссылок в Yandex — только одна из них. Основное содержание этих катастроф — что большинство оптимизаторских контор имеют психологию быстрой наживы, это такой цыганский бизнес.

Они полагаются на модные прямо сейчас приемы обмана поисковиков — массу сателлитов, накрутку поведенческих факторов, прокликивание рекламы, покупку ссылок, насыщение страниц длинными простынями «оптимизаторской тошноты».Когда поисковик наконец замечает эту серую или чёрную зону — случается очередная катастрофа, сайты клиентов падают или банятся, оптимизаторские конторы платят штрафы, массово разоряются.

Мы в этом празднике жизни не участвуем ни в его спокойные периоды «рубки бабла», ни в его катастрофических падениях. Что касается ссылок и «Минусинска», а также прочих новаций в поиске. Мы последние 8 лет развиваем публичный сервис Analyzethis.ru. Это бесплатный, неприбыльный проект, который сейчас измеряет качество поисковиков по 50 параметрам.

Фото города Минусинск, название которого совпадает с новым алгоритмом Yandex, который, по заверению компании, не учитывает ссылок

Для поисковиков это важно, потому что это — единственный независимый тест качества на рынке, кроме подсчёта доли поисковых запросов в Liveinternet. Специалисты поисковиков постоянно с нами в контакте, указывают, если мы что-то у них посчитали неправильно, если сменился дизайн страницы или что-то у нас покосилось.

Замечу, что Yandex, когда выходил на IPO, в своём инвестиционном меморандуме ссылался только на три внешних источника оценки своего бизнеса — счётчик Liveinternet.ru Германа Клименко (который считал доли переходов с поисковых запросов), «Черный квадрат» Алексея Тутубалина, который тогда вычислял распространённость систем контекстной рекламы в Рунете и наш анализатор качества поиска Analyzethis.ru.

Это некоммерческий проект, который иногда получает гранты, но, в основном, просто тратит наши деньги. В определённый момент, когда Yandex начал изменения, я сказал разработчикам анализаторов: «Так, вы давно ничего не зарабатываете, давайте вы хотя бы для нашего отдела построите сервис анализа факторов ранжирования».

И они построили вторую машину анализа, для внутреннего использования, которая сейчас анализирует 350 факторов ранжирования в поисковой выдаче (коммерческие, текстовые, внешние). Это факторы, важные для наших коммерческих клиентов.

У Yandex, например, всего этих факторов больше 800, их использует алгоритм машинного обучения Matrixnet. Он берет эти 800+ факторов, обучается на данных оценки поисковой выдачи тысячами ассессоров Yandex и строит кривую коэффициентов факторов, которая показывает, какой из них влияет на релевантность в данной предметной области.

Но чтобы построить этот «эквалайзер» из 800 движков, они должны сначала наличие этих факторов на странице распознать. Понять, что на странице есть телефон, что он на нужном месте, что там есть видео, что есть биографии врачей или данные о доставке в регионах.

Споры вокруг учета ссылок Yandex не утихают до сих пор

Мы также научились распознавать 350 факторов и по сути дизассемблируем алгоритм поисковика: распознав наличие фактора на странице, берем верхние 30 результатов поиска по всем запросам данной предметной области (семантическому ядру) и устанавливаем корреляцию места каждой веб-страницы в этой тридцатке результатов поиска со степенью проявленности этого фактора на веб-странице. То есть, по факту, мы восстанавливаем алгоритм Yandex, Google и других поисковиков, делаем такой реверс-инжиниринг.

Потом мы даем почти автоматические рекомендации клиентам: советуем, по какому фактору нужно больше видимости добавить, где нужно биографии сотрудников написать, где видео добавить, где телефон передвинуть, где и вписать данные о доставке. Оптимизатор добавляет свои рекомендации по юзабилити и посылает клиенту. У нас теперь есть почти точное знание о том, как работает алгоритм писка в основных поисковиках прямо сейчас.

Например, последние три года мы знаем, что Yandex несколько лукавит когда говорит, что теперь не учитывает ссылки. Мы знаем, что половина этого — просто пиар и запугивание оптимизаторов. Они обрушили биржу ссылок SAPE, но они обрушили ее в основном пиаром среди ее потребителей-оптимизаторов.

— Эта система самообучается?

Нет, она просто каждый день прогоняет выдачу поисковиков. На каждый фактор есть несколько сотен страниц, каждый раз по одним и тем же запросам и каждый раз заново переоценивает. У Yandex формула поменялась — и мы сразу это увидели. Два года назад на рынке была паника, никто не понимал, что делать. Нам нужно было понять, что такое «новое SEO». Теперь у нас есть эта машина, и мы можем быть более-менее спокойны, что понимаем состояние дел.

Другие оптимизаторы, за нехваткой аналитической мощи, решают эти проблемы иначе — например, дают гарантии по трафику, и, если не укладываются в обязательства с поисковым трафиком, «добивают» его другими средствами. Кто-то просто контекст дешевый закупает, кто-то — вообще ботов, лишь бы показать, что трафик есть. Они так хеджируются.

— Конкурентны ли наши системы искусственного интеллекта по сравнению с западными?

Да, мы довольно долго лидировали в научном ИИ. У нас были такие зубры, как Адельсон-Вельский, Ландис, Кронрод, Брудно, Миша Донской. Они, кстати, в незапамятные времена сделали первого чемпиона мира по шахматам Каиссу. Вообще, в целом у нас ИИ-науки были (и сейчас есть) не на последнем месте. Это видно и по количеству практических проектов: Yandex у нас появился раньше Google, учет ссылок в «Апорт» был сделан раньше, чем в Google.

У нас в стране несколько своих поисковиков, несколько систем машинного перевода, распознавания речи. Это довольно большая редкость в современном мире. Скажем, Европа этим похвастаться не может. Мы регулярно выигрываем мировые Олимпиады по программированию и математике. Надо не забывать также, что наши баллистические и крылатые ракеты, системы ПВО управляются ИИ еще с 60-70-х годов.

В области ИИ произошла очень интересная вещь — был придуман особый вид нейронных сетей. Их называют сверточные глубокие сети. Они, наконец, заработали, спустя 25 лет развития технологии. Если раньше ко мне приходил человек и говорил, что занимается нейронными сетями, то я думал: «Ну, наверное, фрик какой-то». Потому что сети не работали, то пару лет назад произошел взрыв, когда они, наконец, научились распознавать.

Сейчас, чтобы сделать свою систему ИИ на коленке, ничего сложного не требуется — нужно почитать несколько статей, выкачать код сетки в исходниках и развивать её дальше. Качество ее будет почти не хуже, чем у мировых лидеров. Вот Findface, например — нейронная сеть, сделанная в России, не потребовала сотен человекочасов. Он хорошо работает с «Вконтакте» (для Facebook его пока все равно не сделаешь, там закрыт API). Prisma — другой пример. Сейчас будет взлетать много громких проектов на нейронных сетях. У нас в этой сфере, конечно, мировой уровень.

Сервис Findface, который позволяет найти человека Вконтакте по фотографии

— Вы говорили, что для контроля за персональными данными россиян стоит создать две организации: одна будет собирать всю информацию, а другая даст возможность, при необходимости, запросить эти данные.

Про первую организацию, то есть оператора больших пользовательских данных — это не моя идея, про нее уже несколько раз говорили в Думе и других важных организациях. По поводу персональных данных — тоже не моя идея, она тоже довольно очевидна: у нас 40 тысяч операторов данных. Любая скидочная система, например, в «Спортмастере», собирает твои данные при регистрации карты.

Даже вахтер почти где угодно (в спортзале, министерстве, стрелковом клубе), может попросить тебя сфотографироваться, например, на постоянный пропуск.
Хотелось бы понимать, что они с этим потом делают. У кого эти данные есть и как они хранятся. Хотелось бы иметь какой-то сервис, где можно это посмотреть, то есть какой-то центр контроля персональных данных.

— Но получается, что эти компании должны быть разделены, потому что иначе тут конфликт интересов. Организация, которая все хранит, наверняка захочет скрыть часть собранных данных от пользователя.

Я советую прочитать книгу Дейва Эггерса The Circle (в русском переводе она называется «Сфера»). По сюжету, гигантская мировая компания, следующая за Facebook и Google, покупает их обоих, со всеми тремя миллиардами пользователями. Причем там нет анонимов — регистрация происходит по паспорту. А далее она идет к мировому доминированию — над обществом, правительствами и государствами, пытаясь заменить их всех.

Там сюжет довольно простой, но блестяще описана вся демагогия наращивания прозрачности, и показано, как происходит сдвигание окна Овертона (окно возможностей, рамки допустимого с точки зрения общественной морали спектра мнений в публичных высказываниях).

В результате неприемлемая, абсолютная, выжигающая прозрачность становится нормой. Каждый человек оказывается снабжён камерой, окружён миллионами камер, вынужден постоянно писать в соцсеть, чтобы повышать свой рейтинг, все про себя рассказывать, быть постоянно со всеми, в тусовке, и скрыться некуда.

Мне это не нравится. А кому это понравится?

— Если не можешь бороться с движением, то надо его возглавить?

Пользовательские данные надо запретить хотя бы западникам собирать и выкачивать за рубеж. И наших провайдеров, медийные площадки, счетчики, поисковики, рекламные сети — тоже регламентировать в смысле оборота больших пользовательских данных. Предупреждать пользователей, сделать нормальное, законное пользовательское соглашение, единое для всех, без ссылок на законы США, например. В общем, на территории России работать по нашим законам.
А то там сейчас просто дикое поле.

Так работают сверточные сети — подход, который совершил прорыв в ИИ

— А чем Россия лучше, чем западники? Это то же самое государство.

Государство — это зло, получается?

— Нет, я имею в виду то, что не логичнее ли дать возможность пользователям самим контролировать, собирать и хранить о себе данные.

Большинство людей не захочет этим заниматься, им это не нужно. И квалификации не хватает. Настройкой своего гаджета или ноутбука, настройкой опций приложений занимается 1–2% людей за все время. Остальные никогда ничего не делают и не будут делать. Они все используют «как есть», по дефолту, как говорится. О них должен кто-то еще позаботиться.

— Я только хочу сказать, что у людей должна быть альтернатива — так то, что вы говорили про воду. Не хотите возиться с фильтрами воды — вот вам водопровод.

Ну да, можете пойти купить бутылку воды в «Азбуке Вкуса» или контрафактный алкоголь купить и отравиться. Но из-под крана в любом случае течет питьевая вода. Может, не такая вкусная, как в бутылке или в ресторане, но безопасная.

Движение Anonymous «хоронит» приватность личной жизни

— Или сами пусть покупают и создают систему фильтрации, закупают уголь.

У нас стоит задача создать свою скважину и систему фильтров. Центральное водоснабжение должно быть качественным. А дальше каждый волен пойти и изваляться в грязи, попить из козлиного копытца, если захочется.

— Но, если вспомнить все эти судебные тяжбы, когда человек отсуживает возможность удалить данные о себе из корпораций.

Так и закону о забвении ещё нет и года. Люди скоро придумают как у Yandex деньги отнимать. В Штатах же это вообще обычная история — там сконцентрировано 50% всех юристов мира, им нужны лужайки и бассейны, нужно кормить бывших жен и покупать тачки. Гоняться за крупными компаниями по надуманным поводам, подавать коллективные иски на миллиарды — это у них национальный спорт.

— Я бы вот, например, хотела бы полностью иметь под контролем данные о себе. Либо чтобы мне проценты отчисляли за пользование.

Да, но вы не репрезентативны. Вряд ли это будет массовым. Люди не хотят заниматься вроде бы очевидными вещами, даже сопряженными с риском для них самих. Не хотят эти риски снижать. Есть простой пример — был механизм приватизации квартир, которые достались людям с СССР. Это процесс растянулся более, чем на 15 лет, его все переносили и переносили, и до сих пор остались квартиры на балансе у государства. Не идёт народ приватизировать собственное жилье. Им лень, не хочется, непонятно. Приватизированное жилье потребует уплаты налога.

Также и с данными. Никто особенно не будет этим заниматься лично. Как мы знаем, люди выкладывают в соцсети вообще все, а разного рода заинтересованные сущности (коллекторы, мошенники, рекламщики, продавцы, сектанты, спецслужбы, политики) этим уже вовсю пользуются. Государство должно их защитить.

Теги: Google, Twitter, ВКонтакте, Интернет, Крибрум

Новости smi2.ru

Комментарии 0

Зарегистрируйтесь или , чтобы оставлять комментарии.