Я пишу на тему технологий, новых сервисов, программирования, алгоритмов и иногда "за жизнь". То, что я пишу – это лично мой взгляд на вещи, мое мнение, которое базируется, на общедоступной информации. Это всегда лично мое мнение, которое никак не связано с мнением моего работодателя.

Краткая сводка с Западного фронта: мелочевка печатается в Твиттере, и Гугль-плюсе, техничесие эссе на английском публикуются в моем английском блоге (и, в основном, транслируются в ЖЖ), (не)регулярный дыбр, (анти)корпоративные заметки, (анти)кризисные наблюдения, шутки юмора. «Языковые» заметки: квази-фонетика и семи-лингвистика. Информационно-поисковые домыслы живут здесь. У кого проблемы с орфографией добро пожаловать к доктору.
Да, и про гибридные машинки нового поколения читать здесь и тут.

Обратите особое внимание, что имеются специальные теги для интересующихся алгоритмами, программированием (в частности на c++), информатикой и математикой. Часто рассматриваемые алгоритмы имеют отношение к поиску и сортировке, но далеко не всегда.

Замечание по поводу спама: рекомендуется не вставлять ссылки в комментарии. В противном случае постарайтесь, чтобы это не выгляделом спамом. Потому как все, что исходит от незнакомых пользователей и выглядит как спам, беспощадно удаляется. Авторы также беспощадно банятся.

Замечание по поводу хамства: персональные наезды на автора журнала, а также его читателей будут пресекаться, вплоть до бана без предупреждения. Набор запретных тем достаточно стандартный: прямые оскобления, этнические, расовые, и сексисткие заявления. При этом, считается нормальным критиковать ход мыслей, вплоть до довольно резкого, если оный не переходит в оскорбления. Если Вы считаете, что бан был несправедлив, можно написать мне письмо с пояснениями.

Политика в отношение анонимных пользователей: в целях борьбы со спамом жизнь анонимусов была осложнена. Они должны вводить капчу. Прощу прощение за это возможные неудобства, но уж слишком много валится спама. Обратите внимание, что сейчас необязательно заводить учтеную запись в ЖЖ, чтобы комментировать. ЖЖ поддерживает самые различные формы авторизации, включая Фейсбук и Твиттер.

Tags:

XML 1.1


Господа, а Джава действительно умеет парсить несуществующий стандарт 1.1 или только притворяется? Я по дурости вставил 1.1 вместо 1.0 в преамбулу и пять часов ловил баг в лучших традициях Си++. Джава берет под козырек, не выдает никаких исключений, но выдача получается откровенно corrupted. Опять-таки, в лучших традициях Си++ не всегда corrupted, не сильно corrupted.

Я это оформил в виде минимально работающего кода под Линух, кому интересно посмотрите:
https://github.com/searchivarius/BlogCode/blob/master/2014/10/JavaXMLbug/README.md
Очень возможно, что я что-нибудь не понимаю в волшебных пузырьках.

Отдельно доставляет тот факт, что в стандартном Джавовском айпиае нет стандартной функции: взять строку, распарсить, и сделать из нее DOM объект. Есть очевидные варианты конвертации строки в InputStream, но кажется не все правильно работают с UTF8. По-крайней мере, есть такое подозрение. Видимо, что-то вроде такого ужаса должно работать всегда правильно:
.... parse(new ByteArrayInputStream(xml.getBytes("UTF-8")));

Короче, с кодировками и XML в Джаве получе, чем в Си++, но все равно как-то коряво.

Tags:


Майкл Джордан выступил с любопытным интервью (на тему ИИ), в котором настоятельно рекомендовал "приглушить турбины" по части першпектив больших данных. Ле Кунн на это ответил (мой вольный перевод), что у нас у всех случаются приступы безумия. Я сделал небольшую подборку октябрьских тезисов Джордана.

Есть довольно устойчивое суеверие, что предложения в английском нельзя заканчивать предлогом! На самом деле, можно, а здесь я описал, как это суеверие возникло.

Странные языки


В русском языке "активная единица" в сочетании с переходными и непереходными глаголами является подлежащим. Подлежащее имеет именительный падеж, дополнение имеет винительный падеж. Например:
* Мальчик (имен) спит.
* Мальчик (имен) читает книжку (вин).

Русский это язык номинативного строя. Оказывается, далеко не все языки такие. Есть эргативные языки, в которых "книжку" во втором предложении будет подлежащим. При этом для падежа используют специальное название: абсолютив. То бишь, вместо "Мальчик читает книжку", произносится что-то вроде:
Книжка (абсолютив) читается мальчиком (эргатив).
Для непереходных глаголов, падеж подлежащего будет абсолютив:
Мальчи (абсолютив) спит.

Еще любопытно, что есть языки без прилагательных. Или есть языки, в которых набор прилагательных ограничен (как ограничен набор предлогов в русском). Остальные прилагательные выражаются, например, с помощью придатачных предложений. Вместо:
добрый мальчик
Может быть что-то вроде:
мальчик, который творит добро

Одно время даже считалось, что есть языки, в которых нет различия между глаголами и существительными! Однако, при внимательном рассмотрении выяснилось, что отличия все-таки есть, но на первый взгляд не видны.

Поскольку документация Солра несколько фрагментарная, написал небольшой howtow на тему замены имени поля в Солре. Операция, к сожалению, иногда актуальная, а стандартного и простого способа замены я не нашел. Можно (относительно несложно) с помощью реимпорта. Но пути наши, как водится, усеяны граблями.

Tags:


Пытаюсь пустить в дело старые добрые ТРЕКовские данные для вопросов-ответов. Для примерно 150 вопросов есть список релевантных документов, а также регулярные выражения для определения ответа. Но мне нужны предложения, которые сами по себе дают ответ на вопрос. И, как водится, раньше это уже делали, но данные потерялись. Поэтому развлекаемся заново.

Алгоритм такой. Можно разбить все документы на предложения и посмотреть, а соответствуют ли какие-то предложения регуляркам для ответа. Увы, в примерно 90% случаев, подобные совпадения случайны. Либо предложение, вообще, не релевантно, либо содержит недостаточно информации.

Ну, вобщем, приходится разгребать фильтровать список из чуть более пяти тысяч предложений. Несколько нудно, но периодически возникает забавное развлечение. Дело в том, что эти вопросы в ТРЕКе довольно зажигательные. Спрашивают про известных спортсменов, президентов, самые большие в мире деревья, самые высокие горы, и пр...

Просто невозможно удержаться от просмотра соответствующих статей в Википедии с последующим перепостом в каком-нибудь Фейсбуке.

Рассказываю супруге. Супруга: ну твой научный руководитель тоже любит викторины. Она ведь даже с друзьями регулярно собирается с целью поиграть в них. Видимо, это профессиональное заболевание.

Многие лингвисты считают причастия отлагольной формой. Причастия обладают отдельными граматическими фичами, однако встречаются обычно в тех же контекстах, что и прилагательные, а также весьма похожи на них морфологически. В частности, согласуются с существительными в числе, падеже, и роде. При этом, правда, никогда не образуют сравнительных степеней.

С другой стороны, далеко не каждое прилагательное образует сравнительные степени. В частности, отглагольные прилагательные не имеют сравнительной степени. А происходят отглагольные прилагательные зачастую именно от причастий.

Иногда, мы даже не в состоянии отличить одно от другого. Имеется, скажем, классический пример:
раненый боец (одно н прилагательное)
и
раненный в руку боец (два н причастие)

Налицо мы имеем некоторое искусственное разделение на прилагаетельные и причастия, с искуственным введением двойного н. А что будет в английском? Кто-нибудь знает? Я попробовал разные теггеры. И все, кроме Стенфордского всегда выдавали wounded тег VBN (форма глагола).

Но Стенфордский был похитерее.
В предложении "I see a soldier wounded in the left shoulder." wounded выделен как VBN (глагол). Однако, в предложении "I see a wounded soldier", wounded становится уже JJ (прилагательным).

Мораль сей басни такова. Разделение на части речи несколько условное, это раз. Можно использовать для обучения школьников и теггеров, но четких границ между частями речи нет.

Часть речи зачастую может определяться контекст использования слова. В частности, есть ли у слова дополнения, итд итп... И в свете этого наблюдения, правило определения части речи причастие-подобного слова в русском языке не кажется уже больше таким уже бессмысленным.

В силу школьного образования, всегда считал, что причастие и деепричастие - это самостоятельные части речи в русском языке. Оказывается, это спорная точка зрения и чуть ли не большинство лингвистов считают, что (дее)причастие это особые формы глагола (хотя и они не обладают всеми грамматическими свойствами глаголов).

Ну, а другой интересный спорный момент: является ли ы самостоятельным звуком. Я, кажется, уже про это писал. Так вот, звук наше ухо различает, на письме мы используем отдельную букву... Однако, большинство лингвистов считает, что и и ы - это просто аллофоны.

При этом Московская школа поддерживает теорию аллфонов, а Питерская школа (по-крайней мере отдельные ее представители) доказывали, что ы и и - это разные звуки.

Profile

itman
Поисковик-затейник
Website

Latest Month

November 2014
S M T W T F S
      1
2345678
9101112131415
16171819202122
23242526272829
30      

Tags

Syndicate

RSS Atom
Powered by LiveJournal.com
Sponsored by Cisco