You are viewing itman

Поисковик-затейник's Journal
 
[Most Recent Entries] [Calendar View] [Friends]

Below are the 20 most recent journal entries recorded in Поисковик-затейник's LiveJournal:

    [ << Previous 20 ]
    Thursday, January 1st, 2037
    4:11 am
    ОТМАШКА: Рекомендуется к прочтению

    Я пишу на тему технологий, новых сервисов, программирования, алгоритмов и иногда "за жизнь". То, что я пишу – это лично мой взгляд на вещи, мое мнение, которое базируется, на общедоступной информации. Это всегда лично мое мнение, которое никак не связано с мнением моего работодателя.

    Краткая сводка с Западного фронта: (не)регулярный дыбр, (анти)корпоративные заметки, (анти)кризисные наблюдения, шутки юмора. «Языковые» заметки: квази-фонетика и семи-лингвистика. Информационно-поисковые домыслы живут здесь. У кого проблемы с орфографией добро пожаловать к доктору.
    Да, и про гибридные машинки нового поколения читать здесь и тут.

    Обратите особое внимание, что имеются специальные теги для интересующихся алгоритмами, программированием (в частности на c++), информатикой и математикой. Часто рассматриваемые алгоритмы имеют отношение к поиску и сортировке, но далеко не всегда.

    Замечание по поводу спама: рекомендуется не вставлять ссылки в комментарии. В противном случае постарайтесь, чтобы это не выгляделом спамом. Потому как все, что исходит от незнакомых пользователей и выглядит как спам, беспощадно удаляется. Авторы также беспощадно банятся.

    Замечание по поводу хамства: персональные наезды на автора журнала, а также его читателей будут пресекаться, вплоть до бана без предупреждения. Набор запретных тем достаточно стандартный: прямые оскобления, этнические, расовые, и сексисткие заявления. При этом, считается нормальным критиковать ход мыслей, вплоть до довольно резкого, если оный не переходит в оскорбления. Если Вы считаете, что бан был несправедлив, можно написать мне письмо с пояснениями.

    Политика в отношение анонимных пользователей: в целях борьбы со спамом жизнь анонимусов была осложнена. Они должны вводить капчу. Прощу прощение за это возможные неудобства, но уж слишком много валится спама. Обратите внимание, что сейчас необязательно заводить учтеную запись в ЖЖ, чтобы комментировать. ЖЖ поддерживает самые различные формы авторизации, включая Фейсбук и Твиттер.
    Tuesday, April 15th, 2014
    2:56 pm
    Про "Томита" парсер
    Томита-парсер, на самом деле, это просто алгоритм для эффективного разбора контекстно-свободных грамматик. Особенно быстро парсер работает, когда грамматика "почти детерминированная". Применять к обработке естественного языка, конечно же, можно, но прежде надо написать грамматику для каждого случая ручками. А как создавать эти ручные правила и как получать confidence value?

    Народ в комментариях писает кипятком и предвещает приход русского Ватсона. Кстати, в Ватсоне тоже куча ручных правил. Айбиэмовцы написали порядка шести тысяч правил на Прологе для разбора запроса. Но эти правила не оперируют на "сыром" тексте, сначала делается синтаксический разбор (dependency parse) предложения. А вот на синтаксическом разборе, как раз, можно весьма сэкономить в плане человеческого труда, если натренировать парсер на аннотированных текстах.
    Wednesday, April 9th, 2014
    3:18 pm
    ECIR 2014
    Ого, товарища plakhov втянули в производство статей для *IR конференций. Интересно, сильно ли он сопротивлялся? :-)
    Saturday, April 5th, 2014
    10:02 am
    Приколы в Джаве: загрузик классов можно подвесить на взаимной блокировке
    Оказывается, если постараться, то в Джаве можно зависнуть на загрузке классов. Ситуация довольно-таки извращенная, но разбработчики Люсина умудрились это сделать. Насколько я понял суть такая: есть два дочерних класса, которые создаются в двух разных потоках. В базовом классе, есть статически инициализируемый кусок. Если в этом куске создать объект дочернего класа, то можно зависнуть.
    Friday, April 4th, 2014
    1:25 pm
    Шоколадный заец-гигантец
    Мы продолжаем серию телепередач на тему: "в Омерзительной Омерике все большое". С предыдущими выпусками можно ознакомиться вот здесь. На этот раз, наша телепередача сфоткала отраду диабетика, киллограмового шоколадного зайца.


    Read more...Collapse )
    Thursday, April 3rd, 2014
    3:12 pm
    man shred
    Век живи, век учись.
    Sunday, March 30th, 2014
    2:27 am
    Нас просят подучить собачек
    Подруга жены сказала, что нам стоит поработать над ее собакой, потому что собака выполняет меньше команд, чем наша кошка. При этом, кошку начали обучать уже в довольно солидном возрасте (8 лет).
    Tuesday, March 18th, 2014
    4:06 pm
    На всякий случай
    Поддавшись всеобщей панике. Если что, то читать меня можно:
    Твиттер: https://twitter.com/srchvrs
    Гы-плюс: https://plus.google.com/+LeonidBoytsov/posts
    Блог: http://searchivarius.org/blog
    Thursday, March 13th, 2014
    10:19 pm
    ACL conference в Балтиморе
    О, есть подозрение, что на ACLе соберется довольно большая русско-говорящая тусовка.

    Проходить конференция будет в Балтиморе, при поддержке небезызвестного Johns Hopkins, где работал покойный ныне пионер статистистечких методов распознования речи Fred Jelinek. Про конференции в Балтиморе и Фреда есть следующая байка:
    Riley [at workshop planning meeting]: “Could they hold the summer workshop in some nicer place than Baltimore to help attract people?”
    Fred: “Riley, we’ll hold it in Rome next year and get better people than you!”
    

    читать баек про F.J.
    9:10 pm
    Серийному электромобилю больше 100 лет.
    Anderson Electric Car Company built 13,000 electric cars from 1907 to 1939. The cars were advertised as reliably getting 80 miles (130 km) between battery recharging, although in one test a Detroit Electric ran 211.3 miles (340.1 km) on a single charge.

    Production of the electric automobile, powered by a rechargeable lead acid battery, began in 1907. For an additional US$600, an Edison nickel-iron battery was available from 1911 to 1916.

    Detroit Electric.
    Thursday, March 6th, 2014
    11:17 pm
    Wednesday, March 5th, 2014
    7:23 pm
    Отличный обзор SGD
    Отличный обзор методов для stochastic gradient descent.
    Sunday, March 2nd, 2014
    11:32 pm
    Тренируем огромную нейронную сеть подручными средствами
    Используя только лишь подручные средства, можно натренировать сложнейшую нейронную сеть (в тысячу раз больше гугловой) дома. Процесс сходимости весьма длительный и отстутствуют какие-либо теоретические гарантии. Однако в случае успеха, модель позволяет добиться очень высокой точности в распознавании речи и изображений.
    Friday, February 28th, 2014
    6:00 pm
    Еще немного по поводу LSH
    В результате подзуживания отдельных теоретиков, удалось-таки наконец-то получить представление почему они считают, что в анализе LSH нет проблем и пробелов. Оказывается, есть мнение, что это некий adversarial approach, в котором данные выбираются "назло" хеш таблице и получается как бэ оценка сверху путем усреднения по всем случайно выбранным хешам. Лично мне подобная позиция показалсь неубедительной. Если кому интересно, то свои сомнения я суммировал вот здесь в последнем большом комментарии.

    Копия:

    Read more...Collapse )

    Если изъясняться на пальцах, то это не кошерно считать вероятность успеха выполнения запроса, при том, что сам запрос фиксирован. Для вероятности, ИМХО, нужно пространство событий, в котором запросы выбираются случайно. По поводу настоящего adversarial тоже весьма сомнительно. Дело в том, что для него враг выбирает один раз запросы, один раз генерируется случайный набор хеш-функция. А анализ LSH выглядит так, как будто набор функций случайно генерируется отдельно и независимо для каждого запроса. Если кто думает, что это все не так, пусть выскажет свое аргументированное мнение.

    В ветке по ссылке Суреш дает понять, что аналогичный "adversarial" analysis часто применяется в теории. Если анализ LSH действительно имеет проблемы, то, скорее всего, аналогичные проблемы имеются и в куче других анализов для рандомизированных алгоритмов.
    Thursday, February 27th, 2014
    2:25 am
    Есть ли ошибка в анализе locality-sensitive hashing? (LSH)
    Некие товарищи опубликовали статью на CIKM, в которой утверждается о наличие фатального (их термин) бага в анализе LSH. Решив, что рецензенты, наверное, были не идиоты, я внимательно прочитал их статью и пришел к выводу, что их наезды небеспочвенные. Вчерась на лекции преподаватель рассказывал про approximate counting с помощью LSH и я произвел небольшой эксперимент по донесению сути проблемы. Оказалось, что достаточно было произнести одну фразу, как товарищ профессор тоже засомневался в правильности анализа. Поэтому я решил написать об этом подбробнее. В общем и целом, похоже, что анализ получается несколько упрощенный, но раньше (похоже) об этом мало кто задумывался. Имеет ли это серьезные последствия на практике? Вопрос непростой, но я думаю, что вряд ли.
    Tuesday, February 25th, 2014
    11:55 am
    Большой белый обман
    В комнате, где работают инженер, химик и статистик загорается корзина с мусором. Инженер говорит: нам нужно залить коризину водой. Химик, утверждает, что лучше ее накрыть так, чтобы не было доступа кислорода. Тогда оно само потухнет.

    Пока химик с инженером яростно спорят, статистик бегает по лаборатории и поджигает разные предметы. Когда спорящие осознают происходящее, они с ужасом восклицают: что ты делаешь? Статистик отвечает: если вы хотите выяснить какой метод лучше, вам нужна выборка большего размера!

    Мораль: иногда мне кажется, что машинное обучение - это большой белый обман.
    источник.
    Monday, February 24th, 2014
    2:10 am
    Еще немного про старые тесты GPU & CPU
    Якобы я все неправильно понял. Кроче, смотрите и делайте выводы сами:
    http://www.gpgpu.ru/articles/sgemm-7.html
    Я подозреваю, что Goto BLAS - это тесты только для процессора, но не уверен на все 100.
    12:39 am
    Underfitting in GBRT
    Впорос залу: а кто-нибудь сталкивался с суровым underfitting в GBRT. Настолько суровым, что даже самый первый метод машинного обучения, придуманный аж триста лет назад, имеет лучший fit. Данных вроде бы много: порядка 30 тысяч. Сравнивается обычная линейная регрессия (с весами) и гаусовский GBRT. Возможно важная деталь: данные с весами. Используется R package GBM.

    Какие попытки делались для улучшения fit:
    1) Уменьшался learning rate
    2) Вводились interactions
    3) Пробовали quantile regression, но результаты примерно такие же.
    Помогает, но не очень сильно.

    Если у кого есть советы, работники лаборатории of evil Russians будут рады их услышать. Спасибо!
    12:29 am
    Теперь и в нашем городке
    Никак гуглеры прикупили:
    Read more...Collapse )
    Friday, February 21st, 2014
    7:59 pm
    Мимоходом
    Meanwhile, we would also like to bring to the attention that, while GPUs are known to efficiently exploit Single Instruction Multiple Data (SIMD) computing power, modern CPUs are also equipped with Vector Processing Units (VPUs) (Hennessy and Patterson, 2012) . The SIMD widths have steadily increased from 2-wide (MMX) to 4-wide (SSE) and 8-wide (AVX). This makes it attractive to utilize SIMD computing power on CPUs. Although neither the zlib nor our BQ-Tree technique uses SIMD computing in this study, we expect that the CPU+VPU implementations can potentially be competitive or are able to achieve even better performance than the current generation GPUs.

    // source

    И еще одна любопытная статья, в которой показано, что разница между CPU и GPU зачастую не так велика, как принято считать.
[ << Previous 20 ]
My Website   About LiveJournal.com