You are viewing [info]itman's journal

Поисковик-затейник's Journal
 
[Most Recent Entries] [Calendar View] [Friends]

Below are the 20 most recent journal entries recorded in Поисковик-затейник's LiveJournal:

    [ << Previous 20 ]
    Thursday, January 1st, 2037
    4:11 am
    ОТМАШКА: Рекомендуется к прочтению

    Я пишу на тему технологий, новых сервисов, программирования, алгоритмов и иногда "за жизнь". То, что я пишу – это лично мой взгляд на вещи, мое мнение, которое базируется, на общедоступной информации. Это всегда лично мое мнение, которое никак не связано с мнением моего работодателя.

    Краткая сводка с Западного фронта: (не)регулярный дыбр, (анти)корпоративные заметки, (анти)кризисные наблюдения, шутки юмора. «Языковые» заметки: квази-фонетика и семи-лингвистика. Информационно-поисковые домыслы живут здесь. У кого проблемы с орфографией добро пожаловать к доктору.
    Да, и про гибридные машинки нового поколения читать здесь и тут.

    Обратите особое внимание, что имеются специальные теги для интересующихся алгоритмами, программированием (в частности на c++), информатикой и математикой. Часто рассматриваемые алгоритмы имеют отношение к поиску и сортировке, но далеко не всегда.

    Замечание по поводу спама: рекомендуется не вставлять ссылки в комментарии. В противном случае постарайтесь, чтобы это не выгляделом спамом. Потому как все, что исходит от незнакомых пользователей и выглядит как спам, беспощадно удаляется. Авторы также беспощадно банятся.

    Замечание по поводу хамства: персональные наезды на автора журнала, а также его читателей будут пресекаться, вплоть до бана без предупреждения. Набор запретных тем достаточно стандартный: прямые оскобления, этнические, расовые, и сексисткие заявления. При этом, считается нормальным критиковать ход мыслей, вплоть до довольно резкого, если оный не переходит в оскорбления. Если Вы считаете, что бан был несправедлив, можно написать мне письмо с пояснениями.

    Политика в отношение анонимных пользователей: в целях борьбы со спамом жизнь анонимусов была осложнена. Они должны вводить капчу. Прощу прощение за это возможные неудобства, но уж слишком много валится спама. Обратите внимание, что сейчас необязательно заводить учтеную запись в ЖЖ, чтобы комментировать. ЖЖ поддерживает самые различные формы авторизации, включая Фейсбук и Твиттер.
    Sunday, May 27th, 2012
    6:07 am
    Вся жизнь - борьба
    В борьбе между кошкой и клавиатурой часто побеждает кошка. Я не перестаю удивляться, как она может комфортно спать при том, что одна моя рука лежит на ее спине и вибрирует, когда я печатаю!
    Tuesday, May 22nd, 2012
    10:45 pm
    Статистика
    Having retrained as a statistician, H. Scheffe began a second career as a university teacher, but this time he taught statistics rather than mathematics.
    2:49 pm
    Революционное мобильное устройство
    А Рентген, вообще, Иван Грозный придумал:
    Read more... )
    Monday, May 21st, 2012
    8:52 pm
    Бойтесь русских
    Жене сегодня в офис заходит начальник и видит мою фотографию на столе.
    Босс: Что это за фотография?
    Жена: Муж.
    Босс: А чего это он похож мафиози?
    Жена: Да он не мафиози, он программист.
    Иэээх, надо было ей отвечать, что он и есть мафиози. Пусть боятся русскую мафию! Ведь и правда мафия: пол-NCBI оккупировали.

    Еще немного фольклора. Покупаем крепкие напитки перед поездкой в Россию. Говорим, что повезем на историческую родину. Товарищ нас предупреждает:
    - There may be a limit, something like 2 liters of hard liquor per person.
    Жена тут не растерялась:
    - We are going to Russia: This limit does not apply.

    А однажды, все было совсем наоборот: я "обозвал" ирландца алкоголиком. Мы оба присутствовали на банкете, где ирландец поинтересовался, а действительно ли русские выпивают бутылку водки каждый день. На что я ему объяснил, что сейчас молодежь, вообще, к водке охладела и пьет, в основном, пиво. И что это не очень хорошо, потому как люди пьют пару бутылок в день и думают, что это нормально. В то время, как это может быть самый настоящий пивной алкоголизм. По лицу товарища ирландца было видно, что две бутылки в день не кажутся ему чем-то экстраординарным :-)))
    3:09 pm
    Голосование для читателей из США
    Отмазка: из Гугль-аналитики я знаю, что таковых довольно много. Большая просьба проголосовать на сайте Белого дома за открытый доступ к результатам исследований, сделанных на деньги налогоплательщиков. Также весьма приветствуется дальнейшее распространение этой ссылки.
    Friday, May 18th, 2012
    12:09 am
    Даешь суеверия!!!
    Радует, что цифры перевернуты (последняя строчка). Что внушает надежду:
    Read more... )
    Wednesday, May 16th, 2012
    12:21 pm
    У кого там тик?
    A recent CareerCast.com study ranked software engineer as the top job for 2012 based on five criteria, including salary, stress levels, hiring outlook, physical demands, and work environment.

    Конечно, лучше, чем в Макдональдсе работать, кто бы спорил.

    The U.S. Bureau of Labor Statistics recently found that the median pay for software engineers was $90,530 per year in 2010. In addition, the demand for software engineers is on the rise, with an estimated growth rate of 30 percent between 2010 and 2020. "Over the last few years there's definitely been a 20 percent to 25 percent uptick in salary for software engineers," says Monetate's Tom Janofsky.

    Том просто clueless. Когда я приехал 6 лет назад, средняя зарплата разработчика в США уже тогда была почти 90К. Куда она там выросла, если сейчас это те же 90К, непонятно. Кстати, тем, кто думает, что кнопконажимательство - такая уж элитная профессия, стоит посмотреть, например, на зарплаты математиков. Стоит также помнить, что существует разделение программистов на старших пацаков и младших пацаков с зарплатой на 25% процентов ниже. Конечно, мы все себя считаем старшими пацаками, но начальство-то часто думает по-другому.
    Monday, May 14th, 2012
    6:07 pm
    Майкрософт Ворд
    Испльзующим Ворд для научных публикаций следует знать:
    1) Формулы в Ворде рисуются настолько убого, что это может серьезно сказываться на качестве понимания;
    2) Поддерживать ссылки и библиографию - это адский труд. В частности, специализированное приложение EndNote - безбожно глючное.
    3) Встраивать в Ворд таблицы и графики извне - развлечение не для слабонервных. Самое главное, надо помнить, что один раз сгенерировал - потом не переделываешь!
    PS: Спонсором этого выпуска является пункт 1, но, вообще, это давно уже надо было написать.
    Sunday, May 13th, 2012
    4:10 pm
    Overfitters against Domain Experts: The Battle Continues
    Вот еще интересные соображения на тему машинного обучения, которые навеяны недавней заметкой Нетфликса.

    Продолжаю тему классификации (ох не удается пока ее закрыть :-). Я недавно имел глупость ввязаться в дискуссию на тему сложных классификаторов супротив простых. В результате лишний раз убедился, что да, наивный Байес - это не лучший метод, но разница между наивным Байесом и мудрым нелинейным SVM меньше десяти процентов. При этом, если существует значительная неопределенность в тренировочных данных, то разница и того меньше. Линейный SVM в моем случае сработал не лучше наивного Байеса.
    Friday, May 11th, 2012
    4:05 pm
    +1
    Ну, вот из двух дедлайнов один приняли, второй надо будет штурмовать повторно. Судя по реакциям рецензентов, он близок к капитуляции. К тому же, штурмую я не один, а с весьма квалифицированным со-автором, обладающим глубокими познаниями в статистике. Так что, если мы не поеедем на Гаваи, то навестим холодную Москву следующим мартом.

    Ну, теперь о совсем положительном. Тема нечеткого словарного поиска по сходству получила довольно ожиданное продолжение, о котором я буду докладывать на SISAP в Торонто. To whom it may concern: речь идет о более компактном представлении словарей в методе Мора-Франкеля. Революцию я тут не совершил, идеи были известные. Но вот скобминировать их и протестировать оказалось не совсем тривиально.

    Побочный эффект данного забега: я теперь умею создавать идеальные хеши для строковых данных практически произвольного размера и количества. В большинстве случаев эта задача решается с помощью замечательной библиотеки cmph имени Fabiano Cupertino Botelho и коллег (запомните эту ссылку!!!). К сожалению, cmph не может создавать хеши для определенных наборов данных, содержащих немногим больше 100 млн строк (есть подозрение, что может, если строки длинные, например URLs, но не может, если они длиной 6-10 символов). И тут на помощь приходит чисто российская кувалда: делим множество строк на подмножества с помощью обычного хеша, и создаем идеальный хеш внутри каждого подмножества. Данный подход не самый эффективный, зато (почти) всегда работающий.
    10:32 am
    Семинар Михаила Агеева «Моделирование успешного поиска на основе поведения пользователя»
    Семинар состоится 23 мая 2012 года в московском офисе Яндекса.

    В рамках Цикла научных семинаров выступит Михаил Агеев, кандидат физико-математических наук (с 2005 г.), старший научный сотрудник научно-исследовательского вычислительного центра МГУ им. М.В.Ломоносова.

    Работа, в которой Михаил был основным автором получила приз, как лучшая работа на SIGIR 2011.

    10:25 am
    На тему награждения невиновных и наказания непричастных
    Закончил чтение "How to survive in Academia" со-открывателя структуры ДНК, Джеймса Ватсона. Местами довольно забавно и небезынтересно. Тем, кто не любит Л. Толстого, читать Ватсона не рекомендуется.

    Некоторые из нас очень любят сказку, что, мол, настоящих индейцев работодатель всегда ценит и вознаграждает. Этот миф всячески поощряется работодателем, но, конечно же, воплощается в жизнь оооочень приблизительно. Например, на момент получения Нобелевской премиии, господин Ватсон работал в Гарварде. В этот злополучный год, Гарврад не увеличил Ватсону зарплату и даже не удосужился объяснить с чем это связано (пока Ватсон не устроил маленький скандальчик).

    Также любопытно было узнать, что Ватсону пришлось уйти из Гарварда потому, как ему отказались продлять разрешение на совмещение двух должностей (директора Колд Спринг Лабз и лектора в Гарварде). Прошу заметить, что он получал зарплату только за одну должность! Другому профессору не только позволили занимать две должности, но и также получать две зарплаты (за каждую должность).

    Вот она настоящая благодарность работодателя.
    Wednesday, May 9th, 2012
    2:18 pm
    История Информационного Поиска
    Составлено на основе статьи Сандерсона и Крофта:

    1. Первый каталог книг был создан более тысячи лет назад, за 300 лет до начала нашей эры.
    2. Первая работающая автоматическая информационно поисковая система была сделана в 20-х годах прошлого столетия. Система совмещала возможности поиска и просмотра (документы хранились в виде микрофильмов).
    3. Небезызвестный Ванновер Буш (не путать с президентом), написавший футуристическую статью про Memex, вместе с одним из студентов также реализовал аналогичную систему для автоматического поиска микрофильмов.
    4. Господин Лун в 1950-ом году продемонстрировал электромеханическую машину, которая могла искать по подстроке, а не только по целому слову. Лун больше известен как основоположник "взвешенного" поиска, который учитывает частоты слов. Он предположил, что при поиске полезно игнорировать слишком частые и слишком редкие слова.
    5. Первая компьютерная программа поиска работала на машине Юнивак (Univac).
    6. Знаменитые Крэнфилдские эксперименты (50-60-ые годы) показали, что автоматический поиск по ключевым словам работает лучше, чем каталогизация или поиск по ключевым словам, которые вручную подобраны библиотекарями. Самое смешное, что я видел библиотекарей, которые до сих пор в это не верят.
    7. 60-80-ые годы. Было показано, что веса Луна на основе частот (TF) работают лучше, чем булевский поиск. Почти все коммерческие поисковые системы игнорировали это открытие вплоть до 90-х. Карен Спарк Джонс придумала IDF (Inverted Document Frequency). Так родился TF * IDF. В это же самое время было придумано много интересных подоходов таких, как relevance feedback, кластеризация, машинное обучение, и др.
    8. В начале 90-х стартовали конференции TREC, которые помогли улучшить TF * IDF. Так родился BM25 (Робертсон) и probabilistic language models (Ponte, Croft, Hiemstra).

    Обратите внимание, что с пункта 4 до пункта 8 прошло 40 лет. Как утверждают отдельные представители, BM25 мог бы придумать даже обычный школьник. Но вот беда, видимо, все эти 40 лет школьники были так заняты приготовлением уроков, что на BM25 у них времени не нашлось.
    Friday, May 4th, 2012
    6:21 pm
    Zerg rush
    Случайно набрал в Гугле zerg rush и оооо :-))))
    1:25 pm
    Как Гугл убил Инктоми
    Инктоми, собственно, сам сдался без боя:

    In short, Google had realized that a search engine wasn't about finding ten links for you to click on. It was about satisfying a need for information. For us engineers who spent our day thinking about search, this was obvious. Unfortunately, we were unable to sell this to our executives. Doug built a clutter-free UI for internal use, but our execs didn't want to build a destination search engine to compete with our customers.

    Инженеры Инктоми понимали, что нужно для того, чтобы конкурировать с Гуглом, но руководство проигнорировало их доводы. Еще не то бывает, когда нанимают всяких самозванцев.

    Любопытно также, что в записе по ссылке есть пассаж о том, как Инктоми использовал ссылки для улучшения ранжирования. Как я уже писал раньше, учет ключевых слов в гиперссылках по мнению многих дает гораздо большую прибавку в качестве поиска, чем использование PageRank.
    11:53 am
    Фейсбук выходит на IPO
    В 2011 году оборот компании составил 1.3 млр долларов, при общей рентабельности в 27%. Ожидается, что IPO компании состоится 18 мая и будет крупнейшим в истории софтварных компаний. Также предполаагется, что valuation компании будет в районе 70-90 млрд долларов. Сумасшедшая цифра.
    Thursday, May 3rd, 2012
    4:42 pm
    Простые методы рулят
    Одно из соревнований Kaggle выиграл linear discriminant analysis!
    12:16 pm
    И приз уходит...
    Прощай Яху-лабз, здравствуй Майкрософт-лабз в Нью-Йорке.
    Tuesday, May 1st, 2012
    3:55 pm
[ << Previous 20 ]
About LiveJournal.com