?

Log in

No account? Create an account
не катет

Что важнее: экспертиза в области или машинное обучение?

Давно волновавший меня вопрос обсуждается на Strata conference: видео имеет смысл с 18 минуты, когда начинают говорить эксперты. Формат - любимые мной дебаты. Если лень смотреть видео, можно прочитать короткое описание.

Самый главный вопрос, который всегда меня волновал и который я тоже всегда хотел задать победителям соревнований по machine learning, задает первый же спикер: "Why did your model win? Can you interpret results of that in any meaningful way?". Как-то, во времена моего пребывания в школе анализа данных, я задавал яндексоидам вопрос: если в яндексе есть очень много статистических данных о разных аспектах пользовательского поведения при поиске и просмотре рекламы, и эти данные успешно используются для улучшения пользовательского счастья, почему еще не получены модели поведения пользователя? Почему эти результаты не использованы научно? В итоге все ответы сводились к тому, что это никому не интересно, потому что и так работает, а проинтерпретировать полученные результаты - очень сложно.

Понятно, что в некоторых отдельных случаях интерпретировать результаты легко. Например, если мы используем регрессию с бинарными признаками. Тогда мы по сути получим логическую формулу - гипотезу, которую мы сформулировали автоматически на основе имеющихся у нас наблюдений и можем использовать для предсказания поведения мира в случаях, которые мы никогда не наблюдали. У нас были предметы классов C1 и C2, обладающие свойствами P1, P2, P3. И мы поняли, например, что P1 & не P3 -> C2 почти всегда выполняется на нашей обучающей выборке. Такой результат человеком интерпретируется сразу, потому что разговор ведется в терминах определения класса объекта по его наблюдаемым свойствам.

Хотелось бы иметь какой-то способ получать подобные интерпретации для любого результата работы алгоритмов машинного обучения. Нечто чрезвычайно релевантное написано вот тут. Интересно, этим кто-то еще занимается?

Comments

Ну, мы занимаемся. Кстати, в приложении к каталогам :-)
А почему не пишете об этом?
Мы о многом чём не пишем, но делаем. Мы не можем писать о работе с клиентскими данными. Но мы уже делаем эксперименты по formal concept analysis. Не только же о мэппингах думать :-)

(Anonymous)

Была книжка, не помню как называется... Там люди забыли, как выполнять арифметические действия, все это делали только компьютеры. А еще людей было очень много, а ресурсов очень мало. И вот однажды пришел ученый и сказал, что может сложить и перемножить любые числа без компьютера. Его сделали героем, и все энергоемкие вычислительные машины заменили на людей с ручками и бумажками.
Так что проблемой "как нам понять, что мы получили, откуда и как" занимаются классики-фантасты уже не один век :)
А еще в какой-то степени ей занимались Гильберт с Тьюрингом, когда они пытались понять, какие алгоритмы можно реализовать, а какие нет, и каков необходимый набор этих алгоритмов.
Айзек Азимов. Чувство силы
http://lib.ru/FOUNDATION/feelpowr.txt

Отличный рассказ, да:)