автор |
сообщение |
Paf
философ
|
7 марта 2008 г. 14:53 [нажмите здесь чтобы увидеть текст поста]
|
creator по Паланику еще Katy пройдется "вручную". Там посмотрим, на сколько точно я с выводами попал Насчет качества перевода, можно, думаю, проверить первую часть Дюны. Перевод есть и хороший (который я лично читал) и тот, в котором "Атридисам" домом служила "груда камней"
|
|
|
Paf
философ
|
|
Katy
магистр
|
8 марта 2008 г. 13:53 [нажмите здесь чтобы увидеть текст поста]
|
Paf Ну, не совсем, все-таки перевод Кормильцева и в твоем анализе, и в моем оказался на высоте :) А вообще надо искать еще какие-то критерии.
|
|
|
jk-programmer
новичок
|
6 октября 2008 г. 22:56 [нажмите здесь чтобы увидеть текст поста]
|
to creator Здравствуйте, уважаемый ,creator. Собственно, у меня возник вопрос: как вы производите расчет удельного активного словарного запаса? Например, имеется текст в 50000 тысяч слов и текст в 5000 тысяч слов. Как будет производится УАСЗ? Я конечно понимаю, что у вас полно других дел, но все же надеюсь, что вы ответите.
|
|
|
kon28
миродержец
|
7 октября 2008 г. 07:21 [нажмите здесь чтобы увидеть текст поста]
|
jk-programmer, creator сейчас на отдыхе, сдублируйте Ваш вопрос к нему в личку, чтобы не потерялся. Придется подождать возвращения.
|
––– «На патриотизм стали напирать. Видимо, проворовались». (М.Е. Салтыков-Щедрин) |
|
|
creator
магистр
|
8 октября 2008 г. 17:04 [нажмите здесь чтобы увидеть текст поста]
|
УАСЗ-3000 вычисляется методом скользящего окна размером в 3000 слов. Т.е. сначала берутся слова от первого до 3000го, вычисляется число уникальных. Затем от 2го до 3001го, и так далее. Потом считается среднее.
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Verner
активист
|
4 октября 2012 г. 13:50 [нажмите здесь чтобы увидеть текст поста]
|
Простите а где в сети можно найти ваш (или подобный) лингвоанализатор, который проверял бы словарный запас автора (количество уникальных слов)?
|
|
|
SpBerkut
философ
|
9 декабря 2016 г. 16:28 [нажмите здесь чтобы увидеть текст поста]
|
creator, а нет ли ошибок в алгоритме определения профиля? Чисто случайно я посмотрел профиль "Холодных берегов" Лукьяненко. Там сказано, что в произведении нет кратких прилагательных. Открываю текст, а там буквально в первых строках "Для надсмотрщика он и впрямь был стар — лет сорок, пожалуй." Или: "Ох, здоров Шутник!"
|
|
|
Fyodor
авторитет
|
16 июля 2018 г. 09:08 [нажмите здесь чтобы увидеть текст поста]
|
Добрый день. Возможно я чего-то не до понял в лингвистическом анализе... Посмотрел несколько авторов и меня удивило, почему в разделе Части речи — глаголов меньше 1% от общего числа определенных частей речи?
|
|
|
Victor31
философ
|
16 июля 2018 г. 17:26 [нажмите здесь чтобы увидеть текст поста]
|
цитата Fyodor почему в разделе Части речи — глаголов меньше 1% от общего числа определенных частей речи?
Похоже, это общая картина. Какое произведение ни возьми, всюду схожая статистика. Так же печально или еще печальнее обстоит дело с причастиями и деепричастиями. Проблема, видимо, начинается с того, что алгоритм не может определить морфологическую группу примерно четверти (!) слов. Из того, что он может определить, более четверти слов распознаны как "служебные слова". Так что где-то здесь "потерялись" глаголы, деепричастия и пр. Да и относительно других групп могут быть вопросы. Похоже, в базе полнейший мусор в разделе лингвистического анализа.
|
––– "Сумерки, осень и бешеный дождь, Я подошёл и спросил - что ты ждёшь." |
|
|
creator
магистр
|
17 июля 2018 г. 10:09 [нажмите здесь чтобы увидеть текст поста]
|
Глаголы попадали в инфинитивы. Исправил. Запустил на всякий случай массовый пересчёт. Часть речи "инфинитив" удалил. Часть речи "краткое причастие" перенес в "причастие" и тоже удалил.
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Victor31
философ
|
17 июля 2018 г. 16:08 [нажмите здесь чтобы увидеть текст поста]
|
creator, да, изменения заметные. У многих произведений доля глаголов теперь внезапно > 25%. Это перебор. Для литературных текстов ориентир где-то 15%. В НКРЯ приведена статистика на очень большом корпусе текстов: 17%. И к "глаголам" они относят и (дее-)причастия.
|
––– "Сумерки, осень и бешеный дождь, Я подошёл и спросил - что ты ждёшь." |
|
|
Fyodor
авторитет
|
18 июля 2018 г. 00:40 [нажмите здесь чтобы увидеть текст поста]
|
creator Спасибо за разъяснение и исправление. Теперь понятнее и интереснее. Victor31 Может 25 % глаголов — нормальное значение. Мне вспоминаются статьи А.Н. Толстого, который утверждал, что глагол — основа языка произведения.
|
|
|
Zlogorek
миродержец
|
|
creator
магистр
|
18 июля 2018 г. 08:27 [нажмите здесь чтобы увидеть текст поста]
|
Victor31 можно разобрать на конкретном произведении. Покажу какие слова определились как глагол, какие нет. Может, и правда что-то найдём.
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Victor31
философ
|
18 июля 2018 г. 08:45 [нажмите здесь чтобы увидеть текст поста]
|
creator, да, дело за примером теперь и за лог-файлами. Я бы сначала на загадочную группу НОЧР посмотрел. Ведь это четверть слов, а все последующие доли вычисляются от ОЧР. Если в НОЧР попадают все части речи более-менее пропорционально, то это одно дело, а если есть перекос "в пользу" какой-то определенной группы, то это уже другое распределение. Четверть всей лексики в категории unknown — очень много.
|
––– "Сумерки, осень и бешеный дождь, Я подошёл и спросил - что ты ждёшь." |
|
|
creator
магистр
|
18 июля 2018 г. 11:18 [нажмите здесь чтобы увидеть текст поста]
|
Victor31, я посмотрел на предмет НОЧР. Ошибки тут нет. Это слова, по которым код не может однозначно определить какая это часть речи. Это можно сделать только по контексту предложения, и я пока не представляю как это вообще возможно запрограммировать.
Вот примеры слов, на которых анализатор у меня даёт неоднозначность, т.е. возможные варианты. Первое же слово — "стать". Это существительное или глагол?..
Я, конечно, мог впихнуть все в первый вариант, но это ж неправильно.
+{СТАТЬ}Г|+{СТАТЬ}С +{ТАК}ЧАСТ|+{ТАК}СОЮЗ|+{ТАК}Н +{ПОТ}С|+{ПОТОМ}Н +{И}МЕЖД|+{И}СОЮЗ +{МЫТЬ}Г|+{МОЙ}МС-П +{ДАЖЕ}СОЮЗ|+{ДАЖЕ}ЧАСТ +{КАЖЕТСЯ}ВВОДН|+{КАЗАТЬСЯ}Г
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Victor31
философ
|
18 июля 2018 г. 21:53 [нажмите здесь чтобы увидеть текст поста]
|
creator, на языке НКРЯ это неснятая омонимия. Статистику с 17% глаголов они дают, кстати, по текстам, где омонимия снята. Странновато, что омонимов так много. Но если туда все "И" и пр. попали, то тогда это можно понять.
|
––– "Сумерки, осень и бешеный дождь, Я подошёл и спросил - что ты ждёшь." |
|
|
creator
магистр
|
19 июля 2018 г. 07:12 [нажмите здесь чтобы увидеть текст поста]
|
цитата Victor31 Но если туда все "И" и пр. попали, то тогда это можно понять.
Думаю, можно вручную пробежаться по самым распространённым словам типа "и", да определить их. То же "и" — в союзы. Процент НОЧР, возможно, сильно уменьшится.
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Victor31
философ
|
19 июля 2018 г. 10:47 [нажмите здесь чтобы увидеть текст поста]
|
creator, думаю, это шаг в правильном направлении. Даже если те же "И" попадут сначала просто в новую графу "Распознаны, но омонимия не снята", то при вычислении доли тех же глаголов их вклад в числитель точно 0, а в знаменатель их все следует добавлять, даже не зная, союз они или междометие.
|
––– "Сумерки, осень и бешеный дождь, Я подошёл и спросил - что ты ждёшь." |
|
|