Home
Поисковик-затейник's Journal
 
[Most Recent Entries] [Calendar View] [Friends]

Below are the 20 most recent journal entries recorded in Поисковик-затейник's LiveJournal:

    [ << Previous 20 ]
    Thursday, January 1st, 2037
    4:11 am
    ОТМАШКА: Рекомендуется к прочтению
    Если Вам понравилась какая-нибудь заметка, то не сочтите за труд поставить ссылку :-)

    Прошу учесть, что сейчас я не являюсь разработчиком поисковых сервисов для компаний Гугл, Яндекс и прочих гигантов поиска. Я пишу на тему технологий, новых сервисов, программирования, алгоритмов и иногда "за жизнь". То, что я пишу – это лично мой взгляд на вещи, мое мнение, которое базируется, на общедоступной информации, иногда на моих воспоминаниях в той части, где они не затрагивают чужую интеллектуальную собственность.
    Краткая сводка с Восточного фронта: (не)регулярный дыбр, (анти)корпоративные заметки, (анти)кризисные наблюдения, шутки юмора. «Языковые» заметки: квази-фонетика и семи-лингвистика. Да, и про гибридные машинки нового поколения читать здесь.
    Thursday, July 2nd, 2009
    10:46 am
    Gmail WTF
    В Gmail была прекрасная экспериментальная фича: метки с правой стороны экрана. Пару дней назад ее убили и перенесли метки в обычное место (левая часть экрана). Проблема в том, они там все не помещаются, даже на 19-ти дюймовом мониторе.
    Зато (внимание), вместо этого сделали drag-n-drop меток! Сделайте Ctrl+F5, если хотите, чтобы это все нормально работало. Можно перемещать метки на письма и письма на метке. В результате, письмо помечается соответствующей меткой и архивируются.
    Я, конечно, понимаю, что Google очень гордится своей технологией поиска и верит, что скоро оно заменит телефон, театр и телевизор, но многие ретрограды (как тут недавно выразились программисты средних лет, всю жизнь писавшие на Си) привыкли пользоваться метками. А тот, кто не привык, пусть мне объяснит на пальцах, как быстро находить письма по одной теме, не имеющие общих ключевых слов.
    Monday, June 29th, 2009
    2:16 pm
    Про юбилеи
    Немного странно поздравлять с шестым юбилеем и желать успехов в учебе. Если уж в 60 лет учиться не поздно, то в 34-35 и подавно.
    Thursday, June 25th, 2009
    10:37 am
    Господа из Сан-Франицско
    Два бомжа из Сан-Франциско поспорили на тему квантовой физики. Один из них в запале ударил оппонента скейтбордом. Интересно, а российские бомжи принимают квантовые эффекты также близко к сердцу?
    Wednesday, June 24th, 2009
    8:09 am
    Monday, June 22nd, 2009
    1:57 pm
    Born to manage Mail
    Роем.ру сообщает, что Павел Завьялов будет управлять почтой Mail.ru.:


    Дмитрий Гришин, гендиректор Mail.ru, по поводу прихода Павла думает следующее: "Мы рады тому, что Павел - человек с большим опытом работы и пользующийся огромным уважением в индустрии - присоединился к нашей команде. Почта - ключевой сервис портала, поэтому для Mail.Ru стратегически важно вверить руководство его развитием серьезному профессионалу".

    Серьезный профессионализм Павла несомненен - до 2006-го года он отвечал за почту "Яндекса".


    Паша, поздравляю!
    Thursday, June 18th, 2009
    6:22 pm
    Беды российских программистов
    Знаете, какие две основные беды российских программистов?
    1) Постоянные позывы переписать все с нуля;
    2) Преждевременная оптимизация и планирование то, что называется хорошим английским словом over-engineering.
    Monday, June 15th, 2009
    9:59 pm
    Уплотняется ли язык? Дилемма спелчекера
    Недавно на Роеме была жаркая дискуссия на тему того, нужны ли спелчекеру большие словари. С одной стороны, чем больше словарь, тем больше слов он знает, и тем меньше вероятность ложного срабатывания и попыток исправить корректное слово. С другой стороны, чем больше размер словаря, тем больше вероятность того, что случайная опечатка порождает вполне легитимное слово.
    Как пишет Kukich в "Technique for automatically correcting words in text":
    длинная английская цитата )
    Другими словами, английский язык становится "плотнее", и чтобы уменьшить процент не найденных ошибок, нужно уменьшить размер словаря. Это известная рекомендация, но она не "бесплатная", потому что как говорят профессиональные разработчики спелчекеровTM пользователи начинают страдать от большое числа ложных срабатываний.

    Подобную ситуации промоделировали Дамерау и Мейс (см там же у Kukich) и обнаружили, что увеличив размер словаря с 50 до 60 тысяч, можно сократить количество не узнанных спелчекером слов на 1348. При этом количество не обнаруженных спелчекером ошибок увеличится всего лишь на 23. Выигрыш очевиден. Казалось бы, увеличивай размер словаря - и точка.

    Но, тут не все так понятно. Что, например, будет, если увеличить размер словаря до полумиллиона? А если еще 100 тысяч? Лично мне было довольно очевидно, что количество ложных срабатываний от того только увеличится. Просто в силу теории вероятности. Но нашлись люди, которые в это не верят и утверждают, что это верно только для английского языка, но не для русского.

    Имея на руках, генератор словоформ, очень похожих на русские, я произвел небольшой эксперимент.

    Результаты экспериментов )

    Из результатов следует, что русские язык скорее всего, не только уплотняется, но происходит это довольно быстро. Обратите внимание, что русский язык флективный, поэтому миллион различных словоформ соответствует примерно ста тысячи основ в английском языке. И на этом рубеже (согласно результатам симуляции), примерно половина слов отличается от какого-то другого словарного слова на одну букву или перестановку букв.

    Именно поэтому весь прогрессивный мир уже давно не пытается решить проблему только лишь силовыми методами, за счет увеличения размена словаря, а использует контекст. В базовом варианте это реализовано в английском Ворде (если я не путаю). Еще один пример, недавно анонсированный спелер в Волне Гугл.

    PS: )
    Sunday, June 14th, 2009
    11:22 pm
    Wednesday, June 10th, 2009
    11:42 am
    Все корпорации одинаковы
    Вдогонку и в качестве преамбулы: если подзаряжаемый от розетки гибрид перемещается практически все время в электрическом режиме (до работы и обратно < = 10 для рассматриваемой модели), то расход топлива падает < до примерно литра на сто километров. (170 миль на галлон).

    Тойота заявила, что не считает подключаемые гибриды перспективным направлением. В частности, утверждается, что предполагаемые 100 миль на галлон, которые "якобы" достигаются за счет использования электричества, - байки, а реальные цифры - 50 миль на галлон, что не лучше Приуса третьего поколения! (недавно вышедшего в продажу, дешево и сердито 32 штуки в полной комплектации)
    Что меня во всем это беспокоит, так это очевидная ложность этого утверждения.
    Read more... )
    Примечание: 50 миль на галлон - 4.7 литров на сто километров. 1 фунт - 0.43 кг. Сорри, цифры в голове, лень пересчитывать и оперировать дробями.
    Monday, June 8th, 2009
    12:05 pm
    Лингвистическо-программистское про exploit
    Из словаря :
    deed, act ; especially : a notable or heroic act
    Из Википедии
    An exploit ... is a piece of software, a chunk of data, or sequence of commands that take advantage of a bug, glitch or vulnerability in order to cause unintended or unanticipated behavior to occur on computer software, hardware, or something electronic (usually computerized). This frequently includes such things as violently gaining control of a computer system or allowing privilege escalation or a denial of service attack.
    9:15 am
    Погиб один из первых инвесторов Google Rajeev Motwani
    Следствие еще не закончено, но похоже, что он просто утонул в собственном бассейне. Раджив, как и многие индусы, не умел плавать.
    Sunday, June 7th, 2009
    7:15 pm
    Вот что случается...
    С котами, которые впервые в жизни вышли на прогулку.
    Read more... )
    Friday, June 5th, 2009
    11:33 am
    Thursday, June 4th, 2009
    11:10 pm
    Page Speed
    Если кому интересно, Google подарил миру плагин для оптимизации загрузки страниц сайта.
    Wednesday, June 3rd, 2009
    4:37 pm
    Bing 411
    У Goog 411 появился конкурент от Майкрософт. Распознает голос вполне прилично. По результатам моих тестов работает не хуже Goog 411.
    4:31 pm
    Square it
    Google Squared, поисковик, выдающий результаты в табличном виде запущен в Google Labs. Результаты, хоть и не идеальные, но вполне заслуживающие внимания. Google Squared действительно неплохо справляется с задачей извлечения таких данных, как
    * мощность двигателя автомобиля
    * дата выпуска альбома
    * автора и издателя книги
    Ну, не без курьезов, разумеется. С Сергеем Брином дела обстоят немного получше, но тоже далеко не идеально. Ну, и с названием собственной компании могли бы постараться.
    1:42 pm
    Plugin Prius в лизинг
    В конце этого года и в начале следующего, небольшое количество счастливчиков получат возможность арендовать подзаряжаемую от сети (plugin) Тойтоту Приус. Это будет первая модель Тойоты на основе новых, литий-ионных аккумуляторов. Пока чисто "электрический" пробег машины будет не очень большим: около 10 миль, что в несколько раз меньше у не существующего пока в природе Шеви Вольт. Маленький пробег, как мне кажется, объясняется дороговизной литиевой батареи (которая может давать эдак четверть стоимости авто). По всей видимости, Тойота, в отличие от GM, хочет продавать действительно авто для народа, а не экзотику за сорок тысяч долларов.
    PS: Если, кто не слышал, бывший король автомира GM начал процедуру банкротства.
    Tuesday, June 2nd, 2009
    4:18 pm
    Еще немного про приколы Гугл
    Кстати, я не сразу обратил внимание, что кроме видео, в рекламе GSA есть еще один прикол.
    1:17 pm
    Google Search Appliance зажигает
    Иногда реклама Гугла зажигает по-настоящему. Воистину, шутка на тему того, что менеджеры не знают чем занимаются программисты удалась. А программисты научились масштабировать поисковые машинки, которые Гугл продает бизнесу (Google Search Appliance) так, что миллиард документов им теперь не помеха. И нужно-то для этого около пяти стоек или эквивалент примерно ста одноюнитных серверов.
    Было бы неверно думать, что приколы на этом закончились. Вовсе нет. Картинка из блога создает ощущение экспоненциальной мощи, как будто бы мощности перемножаются:

    На эту наживку повелся ТехКранч, видимо, даже не подозревая, что операция возведения в степень далеко не всегда означает возведение в степень! В некоторых случаях, он обозначает повторение. Например, a5 может означать строку из пяти букв a. В общем, хочется сказать браво. Редко, когда мне нравятся шутки гугловцев, но это - редкое исключение.
[ << Previous 20 ]
About LiveJournal.com