Мнение специалиста от 03 октября 2012 года | Конструктивная кибернетика

Yet another Conference 2012. Что это было?


Возможно, Вы уже знаете, что 1 октября 2012 г., в Москве, в Павильоне 75 ВВЦ/ВДНХ, прошла 3-я технологическая конференция компании Яндекс (Yet another Conference 2012, Yandex). На форуме присутствовало порядка 2 500 человек (число ориентировочное, получено из размера заполненного гардероба для верхней одежды и некоей оценки соотношения одетых/«раздетых» участников). Если Вы посетили данное мероприятие, то скорее всего, у Вас сложилось определённое к нему отношение. Сложилось оно и у меня, но отношение, честно говоря, весьма противоречивое.

Компания Яндекс большая и опытная, и её трудно назвать новичком в деле организации и проведения массовых мероприятий, даже из названия обсуждаемого форума следует, что это уже третья по счёту технологическая конференция. Однако, организационные накладки были такого характера, что невольно задаёшься различными вопросами. Итак, основные орг. минусы.

Время стояния в очереди за едой на обеде доходило до 50-ти минут, на кофе-брейке – до 20-ти. Еда, напитки, в основной массе, кончались к середине обеда/кофе-брейка, т.е. многие, кто честно слушал доклады до конца, просто в итоге оставались голодными. Ситуация очень сильно напомнила похожие очереди в продуктовых магазинах СССР конца 80-х. Столов для еды было тоже очень мало, люди за ними толпились. Многие просто стояли в зале, балансировали с тарелками на весу, уворачивались от проходящих мимо, и пытались всё же как-то поесть. Да, гости пытались общаться на профессиональные темы, хотя обстановка: очередь и пустой желудок – к этому очень сильно не располагала. Что было на пиво-пати, не знаю, ушёл раньше, как только выработал содержательную часть YaC'2012.

Было открыто подключение к интернет по Wi-Fi, но оно постоянно падало, соединения зависали. Согласитесь очень не солидно для Интернет компании, которая претендует на звание флагмана (справедливости ради стоит заметить, что в аспекте поиска данных в русскоязычном сегменте сети, на данный момент, она ещё лидер).

Многие залы для выступлений были очень маленькие, слушатели сидели на стульях, на ступенях, на поручнях, стояли в проходах и толпились у входа в зал. То есть, теоретически, возможность оперативно переместиться и послушать доклад по соседнему направлению, конечно существовала, но на практике это выливалось в давку, расталкивание локтями и отаптывание ног. И вот здесь подходим к самому интересному. Регистрация на мероприятие закрывалась 28 сентября, за 2 дня до его начала. Что мешало организаторам посчитать количество людей, интересующихся тем или иным направлением (всего их было семь: Облачные технологии, Фронтенд, Интернет-математика, Yandex Mobile Camp, Тестирование, Администрирование, Безопасность), добавив всего один вопрос в регистрационную форму? Это осталось загадкой. Хотя кое-какие ответы на этот вопрос дали доклады, но об этом чуть позже.

Из орг. плюсов – честно говоря ничего не запомнилось, разве что вежливая и достаточно бдительная охрана на входе/выходе.

Естественно, что главное достояние любого форума, конференции – это доклады. И если они захватывают, будоражут, то можно даже забыть про всяческие мелкие неудобства из числа вышеописанных. Если...

Я Вам конечно «за всю Одессу» не скажу, но о направлениях «Интернет-математика», и, частично, «Облачные технологии», кое что расскажу.

Итак, 3-я технологическая конференция компании Яндекс. Направление «Интернет-математика» – прослушаны все четыре доклада: Nikolaj Bjorner, Microsoft Research, Program Analysis and Testing using Efficient Satisfiability Modulo Theories Solving; Михаил Хохлов, Яндекс, Математические модели, которые помогли Яндекс.Пробкам; Виктор Лобачев, Яндекс, Простой способ поиска уникальных особенностей во временных рядах; Дмитрий Мольков, exFacebook, Corona – новый способ Мапить и Редьюсить. Направление «Облачные технологии» – прослушаны четыре доклада из семи: Кирилл Коротаев, Parallels, Облачное распределенное хранилище данных для виртуальных машин (и не только); Андрей Сибирев, Яндекс, Ваше собственное облако – война за независимость; Рим Зайдуллин, Яндекс, Эффективная маршрутизация в вычислительном облаке; Денис Зайцев, Яндекс, Как управлять облаками.

Общее впечатление от докладов. Конференция заявлена как технологическая, на официальной странице мероприятия YaC'2012 указано: «Мы ждём разработчиков, технических специалистов и студентов технических вузов». Названия и абстракты докладов интригуют, настраивают на серьёзное восприятие. В итоге, после прослушивания, возникает ощущение, что некоторые научно-популярные лекции (для не подготовленной публики) в лектории Политехнического музея Москвы и то читают на более высоком научно-техническом уровне.

Чтобы не утомлять, подробно коснусь всего двух докладов: Михаил Хохлов, Яндекс, Математические модели, которые помогли Яндекс.Пробкам; Виктор Лобачев, Яндекс, Простой способ поиска уникальных особенностей во временных рядах. Тем более, что это как раз очень близко к нашим профессиональным направлениям: математические модели и алгоритмы.

Честно говоря, оба доклада вызвали двоякое ощущение, которое не прошло до сих пор: либо это жёсткий троллинг и Яндекс сбивает с толку потенциальных и реальных конкурентов, путая следы; либо у Яндекса с направлением: прогнозы и обнаружение скрытых зависимостей во временных рядах – действительно всё очень плохо. Что ещё бросилось в глаза, так это какое-то мистически благоговейное отношение к методам машинного обучения, как к панацеи почти от всех бед.

Первый докладчик рассказывая о краткосрочном прогнозе пробок в Москве (на период до 1-го часа), завораживал цифрами: дорожный граф весит свыше 100 GB; объём накопленной статистики превышает 10 TB. Показывая, при этом, на слайде, некий граф, лежащий по всей территории материка Евразия, и говоря о сложности постоянного пересчёта параметров модели для таких огромных наборов данных. Таким образом докладчик обосновывал выбор в пользу авторегрессионной модели первого порядка. Да, я понимаю, что полный пересчёт можно и нужно периодически делать, чтобы выявлять общие закономерности и ловить некие тренды, но постоянный пересчёт, для краткосрочного прогноза в Москве, данных всего пространства Евразии – это честно говоря за гранью моего понимания. Ведь грамотно уменьшив количество данных (применив методы типа Dimension Reduction, Hisrory Reduction, Principal Manifolds) – можно, при тех же самых вычислительных затратах, существенно поднять сложность модели и потенциально значительно улучшить её качество. Тем более известно, что простая авторегрессия, не самый лучший способ прогноза (даже краткосрочного) нелинейных, случайных и нестационарных процессов, да к тому же ещё и в распределённых системах с нерегулярной топологией (к коим несомненно относятся большинство дорожных графов).

Возможно, для Яндекса, простая авторегрессия – это действительно лучшая предсказательная модель, но доказательства этого прозвучали какие-то не убедительные. Ещё что-то говорилось про обучение. В этом аспекте орг. промахи с вместимостью залов, с объёмом пространства и количеством еды для кофе-брейка и обеда выглядят как-то симптоматично. Правда понравилась одна идея: оперировать не средней скоростью движения по участку дороги, а средним временем прохождения данного участка.

Второй докладчик начал с очень и очень интересной, даже в чём-то академической, постановки задачи: находить уникальные события во временных рядах (выбросы, разрывы, изломы) не имея эталона и априорных сведений о процессе и системе его порождающей. При этом ряд нестационарный, зашумлён неизвестной помехой, и требуются быстродействующие (простые) методы, правда обнаружение требуется не скорейшее, а апостериорное. Постановка задачи, в таком виде, выглядит как актуальнейшая математическая проблема, имеющая большое теоретическое значение и поистине огромное поле прикладного применения. Отметим, что в общем виде она конечно не решена, но по отдельным вопросам имеются существенные продвижения.

Итак, по ходу презентации, автор постоянно цитировал Альберта Эйнштейна, неоднократно подчёркивая, что всё должно решаться очень просто, но не проще чем нужно. И в итоге, всё свёл к расчёту парного коэффициента корреляции Пирсона между скалярным временным рядом и эталоном – однопиковым процессом по типу символа Кронекера. При детектировании «разрывов» использовал конечные разности 1-го порядка, с неустойчивостью процедуры численного дифференцирования боролся при помощи линейного фильтра третьего порядка. Ошибками детектирования первого/второго рода не оперировал. Возникло стойкое ощущение: до упрощался!

Конечно подход, предложенный автором, имеет место быть, и он действительно что-то обнаруживает. Но метод принципиально не ловит событий лежащих на уровне шума и под шумом, не видит эффекты, связанные с изменением дисперсии процесса и более высших моментов, не способен детектировать изменение динамической структуры процесса, не использует информацию смежных компонент в сложных, многомерных процессах. Возможно Яндексу этих тонкостей (выявления скрытых тенденций и событий, вероятностного анализа гипотез) и не нужно, и компания вполне обходится рассмотрением только явных, лежащих на поверхности, вещей. Но зачем тогда такая «суровая», амбициозная постановка исходной задачи в докладе (см. выше)?

Правда автор сообщения обмолвился парой слов: систему развиваем в направлении обнаружения причинно-следственных связей, и что другая группа ведёт разработку систем обнаружения уникальных событий во временных рядах на основе методов обучения. В этой связи позволю пару ремарок. Первое. Если причинно-следственные связи будут обнаруживать описанным выше алгоритмом, то система будет видеть только так называемые «банальные эффекты», а наиболее интересные – слабо наблюдаемые эффекты будет с успехом пропускать. В чём практическая ценность подобной системы? Видимо у Яндекса есть на это какие-то скрытые мотивы, возможно она её будет продавать конкурентам. Второе. Методы машинного обучения. Это конечно круто, это мейнстрим, это завораживающе действует на неподготовленную публику (как же, ещё один шаг и искусственный интеллект предстанет перед нами во всей своей мощи и красе). Не спорю! Но ведь можно вспомнить автора доклада и его напоминание, что всё должно решаться очень просто, но не проще чем нужно. Так вот, можно вполне обойтись грамотным комбинированием высокоэффективных и относительно простых непараметрических методов. В их числе: диагностика точек статистической разладки; оценивание параметров стохастических выбросов; текстурный анализ структуры временных рядов; нелинейные обобщения метода главных компонент; логико-вероятностное моделирование. При этом если задачу ещё решать правильно – как проверку статистических гипотез (учитывая ошибки первого и второго рода), то Заказчик вполне может узреть «чудо» и без Machine Learning.

Пару слов об «Облачных технологиях». Понравился доклад компании Parallels – с цифрами, фактами и по делу. В триаде докладов компании Yandex про Cocaine – адаптивную облачную платформу для выполнения приложений, этих самых цифр, фактов и дела не хватало, хотя система сама по себе интересная.

В общем, спасибо что дочитали до конца! В качестве сухого остатка. На мой взгляд проблема Yet another Conference 2012 в не проработанном до конца формате мероприятия, в желании за один раз и в одном месте презентовать принципиально разные разработки и идеи, и в смешении целевой аудитории. При этом, даже если основной упор делался на студентов технических вузов, то их тоже нужно уважать, а очереди за обедом и практически отсутствующие столы, переполненные залы – это как раз неуважение. Многие из этих студентов уже являются неплохими специалистами, имеют и знания и реальный опыт. Сегодня, или буквально завтра, они начнут искать работу, а отношение к компании уже будет сформировано. Что касается двух подробно рассмотренных докладов, то очень хочется чтобы это оказалось троллингом и/или розыгрышем со стороны Яндекса.

Ошибки и неудачи бывают у всех. Надеюсь следующее мероприятие пройдёт в ином формате и на ином уровне. Остаётся только пожелать компании Яндекс успехов в деле совершенствования поисковых и иных технологий!

03 октября 2012 года 2012 года.

Андрей Макаренко,
группа «Конструктивная Кибернетика».

Обсуждение: contact@rdcn.ru

Ключевые слова: Яндекс, Yet another Conference, Облачные технологии, Интернет-математика, прогноз пробок, диагностика событий.