Category: технологии

Category was added automatically. Read all entries about "технологии".

не катет

Здорово было

За свой двадцать третий год я переехал в Цюрих и перевидал столько новых и интересных для себя вещей, что и не упомнить. Вот самые интересные:


  1. Сделали с Кириллом snya.li - индексируем предложения о сдаче квартир с ВКонтакте. Число посетителей невелико, но медленно растет само собой, и набирается довольно аппетитная статистика по кликам :) Скоро буду смотреть. Еще нужно бы воспользоваться моментом перед началом семестра и написать в какие-нибудь старт-аперские места, реклама сама, видимо, не купится. С точки зрения технологий может выйти крутая шутка - если вдруг денег дадут :)

  2. Сделали проект по СтатсЛабу. Нам принесли данные обследований пациентов с повреждениями позвоночника и попросили найти самый эффективный способ их сжать до нескольких цифр, чтобы докторам было удобнее на них смотреть. Сделать то мы сделали - презентация, понятный отчет, полный отчет, код - было интересно и полезно научиться нормально писать на R. Но, если по чесноку, данные нужно докторам представлять не в качестве цифр, а в качестве рисунков. Я упомянул это в разговоре с врачами, и им понравилось - попросили написать которкую статью о проекте, на самом деле - предложить способ. Посмотрим, что выйдет, может им понравится моя идея.

  3. Думал по поводу статистического консалтинга. Очень странные сейчас средства по анализу данных, если честно. Весь код пишется в одном файлике Analysis.R, выводы и субъективные суждения не регистрируются, а результаты записываются в отчет часто без всякого обоснования. Вот если бы придумать такой git (скорее даже не git, a changes tracking), чтобы куски кода для получения статистик/графиков перемежались с аннотациями человека, на это смотрящего и делающего выводы о том, куда смотреть дальше. Тогда можно было бы восстанавливать и воспроизводить всю логику проекта начиная с данных. Я что-то такое предложил на семинаре, мне сказали, что если одному данные анализировать, все и в голове помещается. Нужно бы поинтересоваться, где люди в командах данные анализируют.

  4. Устроился на работу в Институт Компьютерной Лингвистики - очень классные ребята. У них есть тысячи био-медицинских статей на разных языках, размеченные аннотациями из domain-specific онтологии. Почти все время до этого я прогал на питоне и баше тулзы для alignment'a, а теперь буду пробовать реализовать crowdsourcing-платформу для решения разных задач типа устранения неоднозначности аннотаций. Не совсем мой любимый ontology engineering, но близко, буду стараться двигаться в этом направлении.

  5. Написал несколько русскоязычных текстов - мало, но почти все мне нравятся. Кроме здешних помню только комментарии к посту Кати Казбек - я там про творческую и техническую интеллигенцию и разницу подходов к моральным вопросам. Надо бы скопировать в ЖЖ, потеряется ведь.

  6. Прочел Zen and the Art of Motorcycle Maintainance. Предлагаемая автором монистическая философия мне очень понравилась, так он здорово разрешил "конфликт" стремлений к красоте и технологическому прогрессу. Самая запомнившаяся часть книги - рассказ про "застревание" в процессе решения технической задачи. Ведь застревание на самом деле - самое креативное время - когда действительно непонятно, что делать дальше, и нужно это как-то придумать, непонятно как. Это - самый творческий момент.

  7. Понял, что так и не обнаружил никакого культурного или языкового барьера в общении по-английски. Шутки потихоньку шутятся, намеки понимаются, всем все ясно. Чем дальше, тем лучше.

В общем, сконцентрироваться на чем-то одном (например, учебе) не удалось, и я не сильно расстраиваюсь по этому поводу :) Мой файлик main.org предлагает в дальшейшем думать, в добавок к вышеописанному, в сторону:


  1. Анализа данных из snya.li. Есть несколько неплохих, как мне кажется, идей.

  2. Gamification of crowdsourcing tasks (глупо как-то переводить было). Мой нынешний прототип платформы исполнен в духе времени (толстый клиент на JS + REST API) - воткнуть визуализации заместо вопросов в нужный момент будет просто.

  3. Causal graphs как инструмент в статистическом консалтинге.

И стараться писать почаще, полезное это дело.

не катет

Что такое семантика?

Очерк с таким глупым названием логичнее всего начать с мыслей о мозге :)
Сложный вопрос - как представлять себе мыслительную часть мозга? Каким образом он обрабатывает входящие символьные последовательности и генерирует исходящие? Вопрос этот, очевидно, занимает ученых в сфере искусственного интеллекта, и самая сочная дискуссия на эту тему, с которой я столкнулся, это дискуссия о китайской комнате. Я тут придерживаюсь мнения, описанного на странице так: никакой семантики не существует в принципе: все, что происходит в мозгу, всего лишь манипулирование синтаксисом, которое осуществляется и в компьютере. Вот как я к нему пришел.
Представим, что мозг животного - это нейросеть. На входы она получает данные от органов чувств, а на выход выводит реакцию, скажем, "прыгнуть" или "есть". Если представлять себе логику работы искусственной нейросети, адекватность такой модели становится очевидной. Теперь представим, что у нас появилась необходимость коммуникации с другими животными. В этом случае логично было бы объединить в кластеры те группы нейронов, которые часто активируются одновременно, и, скажем, издавать какой-то звук при их активации. Понятно, что это действие тоже осуществляется нейросетевыми механизмами - во время определения этих кластеров тоже происходит обучение, и результатом его являются взвешенные связи элементов каждого кластера с каким-нибудь выходом-реакцией, скажем, звуком. Этот процесс можно назвать рефлексивным, так как нейросеть обучается, наблюдая за собой. Теперь в нашей нейросети, помимо механизма определения дальнейших действий по данным из внешней среды, есть еще и механизм некого примитивного речевого процесса - он позволяет как-то называть сложившиеся в нашей голове образы. При виде мяса наше животное не только станет его есть, но еще и выдаст какой-то звук, оповещающий коллег о еде. По-моему, прекрасно, с эволюционной точки зрения.
В то время, как наши коллеги научились выдавать последовательности символов, описывающих их понимание окружающего мира, нам необходимо научиться их понимать. Уместно предположить, что обработка символов, полученных от сородичей, должна занимать в нашей нейросети особое место, поскольку эти символы относятся не непосредственно к реальному миру, по состоянию которого мы строим свою мотивацию, а к его описанию. Как же мы будем учиться говорить? Как сказано выше, наши сородичи издают какие-то звуки, когда активируется некий кластер нейронов в их нейросетях. Если нейросети у нас устроены одинаково, тот же кластер активируется и у нас. Тогда, тем же рефлексивным способом, что и раньше, мы постепенно ассоциируем кластеры с символами таким же образом, как это делают животные вокруг нас.
Мы научились говорить! Более того, огромную часть нейронов нашей сети теперь нужно пустить на обработку именно символов, приходящих от сородичей. В этой части нейросети тоже будут кластеры, и мы тоже станем давать им имена, и будем строить слова не только на объектах мира, но и на других словах!
Построенная модель, по-моему, вполне соответствует моим представлениям о человеческом мозге. Структура нашей нейросети описывает синтаксические правила вывода символьных последовательностей из других символьных последовательностей.
На самом деле, я описал, как я себе это представляю только с одной целью - задать вопрос. Что такое семантика? Что такое смысл высказываний? Все, что мы можем сказать о конкретном слове - это правила, по которым оно применяется в предложениях, весьма нечеткие и у всех разные. У меня создалось впечатление, что желание искать смысл в словах вытекает из идей о наличии абсолютного, общего для всех смысла, которые очень плохо работают в современных, перемешанных обществах.