Мнение специалиста от 19 октября 2012 года | Конструктивная кибернетика

Форум Технологий Mail.ru Group. На голову выше.


В принципе незаметно, 17 октября 2012 г., в Москве, в центре «Инфопространство», прошёл осенний Форум Технологий Mail.Ru Group 2012. На форуме присутствовало где-то 500–700 человек (число ориентировочное, получено из размера заполненного до предела гардероба для верхней одежды). Причём пришло примерно 2/3 зарегистрированных участников (судя по количеству бейджиков оставшихся нерозданными под конец мероприятия).

В отличии от ранее прошедшего мероприятия другой компании, см. нашу заметку, данная конференция действительно была более технологической и без существенных орг. минусов. Не было проблем с обедом и кофе-брейками, меню было разнообразным, очереди короткие (4-7 минут), еды и напитков хватило всем, количество столов позволяло хоть и стоя, но нормально поесть. И, главное, мест в залах хватало с запасом, все сидели на стульях, а не где и на чём придётся.

Что касается содержательной части форума, то и здесь всё было неплохо. В-первых, целевая аудитория была достаточно однородная: «тусни», как таковой, было очень мало (во всяком случае она не бросалась в глаза). Во-вторых, доклады и докладчики, конечно не опускались до математических и алгоритмических дебрей технологий, но и не глянцевали их (по крайней мере из числа заслушанных сообщений). А хитросплетения, теми кому это было нужно или просто интересно, активно обсуждались со спикерами в кулуарах.

Из всей массы докладов, подробнее остановимся на трёх, составивших содержательное ядро посещения Форума Технологий Mail.Ru. Итак, доклады: Алексей Романенко, Ведущий программист, Mail.Ru Group, MapReduce: алгоритмы и приемы использования; Pavlo Baron, Lead architect, Codecentric, The Big Data Developer; Алексей Воропаев, Руководитель группы ранжирования поисковой системы Поиск@Mail.Ru, Машинное обучение. Как это работает?

Первый доклад (MapReduce: алгоритмы и приемы использования) представил из себя неплохое введение в идеологию MapReduce. Основные её положения были проиллюстрированы простыми примерами использования на псевдокоде. Главный плюс этого доклада в том, что докладчик не пытался представить MapReduce как панацею для всех задач Больших вычислений (Big Computation), а взвешенно изложил минусы и плюсы этой технологии и обрисовал оптимальную область её применения. Это на самом деле очень редкое явление в мире Больших данных (Big Data), где в основном преобладают хвалебные оды MapReduce, и у не очень опытных специалистов создаются весьма ложные представления о возможностях этого решения. Да, конечно, минусы тоже обсуждаются, но, как правило, на очень технических (даже скорее научных) конференциях и семинарах. Определённая заслуга докладчика, что он «не побоялся» привести доводы по использованию MapReduce и ЗА: готовая распределённая система; горизонтальная масштабируемость; обработка больших данных; асинхронность; read-once, пакетная обработка; fault tolerance из коробки; и ПРОТИВ: плохая стыковка с C/C++ кодом; не подходит для real-time систем; не оптимальность схемы обработки для многих типов алгоритмов (например на графах); слабо эффективен для задач вычислений с общими данными; практически невозможно применять для вычислений требующих синхронизации процессов; не оптимален для CPU-band операций. И, да, доклад также весьма тонко рекламировал систему Поиск@Mail.Ru.

Кстати, если Ваши задачи как раз против MapReduce, а Вам необходимо с чего-то начинать Большие вычисления, то можете прочитать вот эту нашу заметку.

Второй доклад (The Big Data Developer) продолжил «забивать гвозди в крышку» укрывающую глянец как Big Data в целом, так и Apache Hadoop в частности. Докладчик в очень язвительной и саркастической манере прошёлся по Big Data Developer, усиливая волну первого доклада: не всё так гладко в царстве Больших данных и Больших вычислений. Действительно: open-source решения нужно «пилить» и «пилить» (а те, кто умеет доводить бесплатные решения до нужной Вам степени кондиции стоят немалых денег); проприетарные решения – сами по себе стоят немалых денег, и для своего обслуживания требуют специалистов вновь стоящих немалых денег; hardware требуется либо особенное, либо типовое, но его тогда должно быть много, что опять же тянет за собой немаленький бюджет. А обилие технологических проблем и вопросов способно повергнуть в шок. В числе основных: надёжное распределённое хранение слабоструктурированных данных; быстрый и эффективный доступ к ним; устойчивость параллельной распределённой обработки данных в принципиально неустойчивой среде; иллюзии noSQL связанные с JOIN запросами; обработка графов; маршрутизация запросов; поддержание целостности системы; малая производительность сетей передачи данных; энергопотребление и охлаждение Дата Центров; и т.п., и т.д.

Но Вы что хотели? Больших данных за маленькие деньги и маленькими усилиями? Так не бывает. Природу (физику) не обманешь, и, вечный двигатель не построишь. В этом полная солидарность с докладчиком. Не верьте обещаниям маркетологов, что можно просто скачать Apache Hadoop, купить на ...ском рынке десяток ПК, и будет Вам счастье. Нет! Не верьте, что уход в облака (cloud computing) Вас спасёт. Девиз «все в облако» чем-то напоминает известную фразу «Все в сад». В общем надо понять: Большие данные требуют Больших денег.

Докладчик в принципе вплотную подвёл аудиторию к сакраментальному вопросу: где располагаются физические границы возможного при обработке Больших данных? Ответа правда на этот вопрос он не дал, но прорекламировал язык программирования Erlang от компании Ericsson, как средство для распределенных и параллельных вычислений.

Третий доклад (Машинное обучение. Как это работает?) рассказывал о Machine Learning без формул, но в картинках. Было рассказано и показано, как алгоритмы машинного обучения решают вопросы ранжирования документов в выдаче Поиск@Mail.Ru, помогают отсеивать материалы порнографического характера, и классифицируют пользователей поиска от mail.ru. Докладчик упомянул широкий спектр алгоритмов и подходов: деревья принятия решений – в задаче разбивки текста на предложения (деревья оперируют примерно 40 правилами); boosting – улучшение качества классификации и борьба с переобучением; наивный байесовский классификатор – в задаче фильтрации порнографического контента; k-means и SOM (самоорганизующаяся карта Кохонена) – кластеризация пользователей и документов; поиск ассоциативных правил – объединение документов в поисковой выдаче. Было также упоминание и сравнительно новой и мощной технологии Deep Learning, но правда без привязки к контексту решаемых задач. В общем ненавязчивая реклама Поиск@Mail.Ru удалась.

Докладчик привёл интересные цифры и факты: каждый документ описан вектором из 1 600 параметров; размер обучающей выборки ~1 млн. документов; при работе применяется несколько тысяч деревьев небольшой глубины; реализована раскладка документов по тематикам; кластер для Machine Learning имеет порядка 100 узлов, на нём поднят MPI (значит стоит не Apache Mahout).

По докладу было много интересных вопросов. Их интенсивность и содержание показали, что Машинное обучение всё активней проникает в российский сегмент ИТ-разработчиков. Это не может не радовать. Правда был один специфический вопрос: про Wolfram|Alpha и его повторение в Поиск@Mail.Ru в ближайшей перспективе. К чему был задан этот вопрос – осталось не выясненным, возможно сам задающий слабо понимает что это системы совершенно разных классов, и их назначение, и целевая аудитория также сильно разнятся.

Вопросами, Алексея Воропаева, продолжили бомбардировать и после доклада, в кулуарах. Подавляющее большинство из них – носили сугубо технический и/или научный характер и касались как преимуществ/недостатков тех или иных алгоритмов Machine Learning, так и реализаций и применения систем искусственного интеллекта в Поиск@Mail.Ru. Но от представителя отдела науки ИД «Эксперт» была серия интересных (в чём-то даже провокационных) вопросов другого характера, как-то (воспроизводится не дословная формулировка, а основной смысл): применение фильтрации и ранжирование результатов поиска для управления настроениями, эмоциями и психологическим состоянием общества; мониторинг запросов конкретных лиц и знаковых персон с целью анализа и предсказания информационных и событийных трендов в политике, экономике и других сферах жизни общества; и т.п.

В общем, осенний Форум Технологий Mail.Ru Group 2012 оставил только положительные впечатления. Несомненно, мероприятие удалось. А раздача новых Apple iPhone за лучшие вопросы докладчикам – это мощная маркетинговая фишка. Но главное конечно не это. Фиксация целевой аудитории, сильные докладчики и не менее сильные доклады, разносторонний и критический взгляд на многие устоявшиеся вещи, продемонстрировал высокий уровень компании. Это, несомненно, играет на привлечение в её ряды новых квалифицированных специалистов, что потенциально создаёт основу для усиления позиций Mail.Ru Group на рынке различных Интернет сервисов.

19 октября 2012 года 2012 года.

Андрей Макаренко,
группа «Конструктивная Кибернетика».

Обсуждение: contact@rdcn.ru

Ключевые слова: Mail.Ru Group, осенний Форум Технологий, Большие данные, MapReduce, Машинное обучение.