Я пишу на тему технологий, новых сервисов, программирования, алгоритмов и иногда "за жизнь". То, что я пишу – это лично мой взгляд на вещи, мое мнение, которое базируется, на общедоступной информации. Это всегда лично мое мнение, которое никак не связано с мнением моего работодателя.

Краткая сводка с Западного фронта: мелочевка печатается в Твиттере, и Гугль-плюсе, техничесие эссе на английском публикуются в моем английском блоге (и, в основном, транслируются в ЖЖ), (не)регулярный дыбр, (анти)корпоративные заметки, (анти)кризисные наблюдения, шутки юмора. «Языковые» заметки: квази-фонетика и семи-лингвистика. Информационно-поисковые домыслы живут здесь. У кого проблемы с орфографией добро пожаловать к доктору.
Да, и про гибридные машинки нового поколения читать здесь и тут.

Обратите особое внимание, что имеются специальные теги для интересующихся алгоритмами, программированием (в частности на c++), информатикой и математикой. Часто рассматриваемые алгоритмы имеют отношение к поиску и сортировке, но далеко не всегда.

Замечание по поводу спама: рекомендуется не вставлять ссылки в комментарии. В противном случае постарайтесь, чтобы это не выгляделом спамом. Потому как все, что исходит от незнакомых пользователей и выглядит как спам, беспощадно удаляется. Авторы также беспощадно банятся.

Замечание по поводу хамства: персональные наезды на автора журнала, а также его читателей будут пресекаться, вплоть до бана без предупреждения. Набор запретных тем достаточно стандартный: прямые оскобления, этнические, расовые, и сексисткие заявления. При этом, считается нормальным критиковать ход мыслей, вплоть до довольно резкого, если оный не переходит в оскорбления. Если Вы считаете, что бан был несправедлив, можно написать мне письмо с пояснениями.

Политика в отношение анонимных пользователей: в целях борьбы со спамом жизнь анонимусов была осложнена. Они должны вводить капчу. Прощу прощение за это возможные неудобства, но уж слишком много валится спама. Обратите внимание, что сейчас необязательно заводить учтеную запись в ЖЖ, чтобы комментировать. ЖЖ поддерживает самые различные формы авторизации, включая Фейсбук и Твиттер.

Tags:


Оказывается, с недавних пор записанные видео выкладываются на YouTube в открытый доступ. Криса Манинга, к сожалению, не выложили. Но есть Ричард Сошер (Socher), Брус Крофт, и Крисс Калиссон-Бёрч (Chris Callison-Burch). Криса очень рекомендую. Он рассказывает про парафразы и это кажется очень перспективным направлением. Криса много раз безуспешно звали работать в наш (не)скромный институт.

Гугл уходит из России


Похоже, что Гугл (как и некоторые другие компании) собирается закрыть офисы в России.

Tags:


Не без некоторого удивления обнаружил авторов, пишущих в духе печально известной фрактальной теории хаоса, только на NLP темы. Кто хочет посмеяться от души, добро пожаловать сюды. Так вот, эти перцы регулярно отмечаются на AAAI конференции с аналогичным бредом. Как выясняется, серьезные люди больше не читают труды этой конференции, потому что труды этой конференции часто хорошо плавают. А, те что не плавают, то качество тоже, как правило, не ахти. Как обманчива природа.

Tags:

XML 1.1


Господа, а Джава действительно умеет парсить несуществующий стандарт 1.1 или только притворяется? Я по дурости вставил 1.1 вместо 1.0 в преамбулу и пять часов ловил баг в лучших традициях Си++. Джава берет под козырек, не выдает никаких исключений, но выдача получается откровенно corrupted. Опять-таки, в лучших традициях Си++ не всегда corrupted, не сильно corrupted.

Я это оформил в виде минимально работающего кода под Линух, кому интересно посмотрите:
https://github.com/searchivarius/BlogCode/blob/master/2014/10/JavaXMLbug/README.md
Очень возможно, что я что-нибудь не понимаю в волшебных пузырьках.

Отдельно доставляет тот факт, что в стандартном Джавовском айпиае нет стандартной функции: взять строку, распарсить, и сделать из нее DOM объект. Есть очевидные варианты конвертации строки в InputStream, но кажется не все правильно работают с UTF8. По-крайней мере, есть такое подозрение. Видимо, что-то вроде такого ужаса должно работать всегда правильно:
.... parse(new ByteArrayInputStream(xml.getBytes("UTF-8")));

Короче, с кодировками и XML в Джаве получе, чем в Си++, но все равно как-то коряво.

Tags:


Майкл Джордан выступил с любопытным интервью (на тему ИИ), в котором настоятельно рекомендовал "приглушить турбины" по части першпектив больших данных. Ле Кунн на это ответил (мой вольный перевод), что у нас у всех случаются приступы безумия. Я сделал небольшую подборку октябрьских тезисов Джордана.

Есть довольно устойчивое суеверие, что предложения в английском нельзя заканчивать предлогом! На самом деле, можно, а здесь я описал, как это суеверие возникло.

Странные языки


В русском языке "активная единица" в сочетании с переходными и непереходными глаголами является подлежащим. Подлежащее имеет именительный падеж, дополнение имеет винительный падеж. Например:
* Мальчик (имен) спит.
* Мальчик (имен) читает книжку (вин).

Русский это язык номинативного строя. Оказывается, далеко не все языки такие. Есть эргативные языки, в которых "книжку" во втором предложении будет подлежащим. При этом для падежа используют специальное название: абсолютив. То бишь, вместо "Мальчик читает книжку", произносится что-то вроде:
Книжка (абсолютив) читается мальчиком (эргатив).
Для непереходных глаголов, падеж подлежащего будет абсолютив:
Мальчи (абсолютив) спит.

Еще любопытно, что есть языки без прилагательных. Или есть языки, в которых набор прилагательных ограничен (как ограничен набор предлогов в русском). Остальные прилагательные выражаются, например, с помощью придатачных предложений. Вместо:
добрый мальчик
Может быть что-то вроде:
мальчик, который творит добро

Одно время даже считалось, что есть языки, в которых нет различия между глаголами и существительными! Однако, при внимательном рассмотрении выяснилось, что отличия все-таки есть, но на первый взгляд не видны.

Поскольку документация Солра несколько фрагментарная, написал небольшой howtow на тему замены имени поля в Солре. Операция, к сожалению, иногда актуальная, а стандартного и простого способа замены я не нашел. Можно (относительно несложно) с помощью реимпорта. Но пути наши, как водится, усеяны граблями.

Tags:

Profile

itman
Поисковик-затейник
Website

Latest Month

December 2014
S M T W T F S
 123456
78910111213
14151617181920
21222324252627
28293031   

Tags

Syndicate

RSS Atom
Powered by LiveJournal.com
Sponsored by Cisco