Маленькие наблюдения за большими данными

После наблюдений с позиции дилетанта и некоторого опыта с «машинным обучением на больших данных» очень быстро стали очевидными следующие вещи:

  • С точки зрения практика, математика вся довольно простая (первые пара лет той же Бауманки максимум). Навскидку из нетривиальных методов вспоминается только нелинейный SVM, для полноценного осознания которого нужно всё же представлять себе бесконечномерные пространства.

  • При прочих равных, хорошие данные гораздо полезнее хороших алгоритмов (которые всё равно быстро становятся известны всем). А больше данных лучше чем мало.

  • Мелким игрокам с каждым годом всё труднее тягаться с «системообразующими» пылесосами вроде Google и Facebook или хотя бы рядовыми рекламными сетями, опутывающими десятки сайтов.

    Смешно выглядят предложения некоторых крупных компаний «демократизировать искусственный интеллект» с помощью размещённых на чужих мощностях модулей обучения, предоставляемых в обмен за деньги и данные.

  • Когда стартап покупают, главный вопрос это «какие данные накопали», а не «как используете». Соответственно, в таких условиях интереснее всего офицерам разведки, которые сидят на магистральных узлах обмена трафиком.

  • В «глубинном обучении» куча людей тупо перебирает разнообразные комбинации слоёв, оптимизаторов и их параметры.

    — А почему вы выбрали слои с полями 64×64 и 32×32?
    — Да вот просто на моей задаче это сработало лучше. ¯\_(ツ)_/¯

    То есть этап развития области пока скорее алхимический. Невыпуклая оптимизация это не шутки.

Настоящие трудности в работе «прикладного» специалиста по перегонке данных скорее нетехнические:

  • Не уйти со своими чудо-метриками в отрыв от окружающей реальности (бизнеса), в которой оптимизационный ландшафт сложнее и включает в себя политические факторы, которые минимизацией ошибки так сразу не решишь.

    После общения с замечательной Козырьковой стало понятно, что с этой проблемой сталкиваются очень многие практики.

  • В борьбе за предыдущий пункт легко натолкнуться на обычное сопротивление системы, только приправленное (смешными) страхами о восстании машин (особенно у людей, вошедших в фазу постоянного оправдания собственной нужности). То есть что-то вроде няньки для «искусственного интеллекта» с одной стороны и одновременно для людей, которым платят за работу, с другой. «Пудинг, это Алиса».

git