Лингвистический анализ и ...


Вы здесь: Форумы fantlab.ru. > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

Лингвистический анализ и распознавание автора

 автор  сообщение


философ

Ссылка на сообщение 7 марта 2008 г. 14:53  
creator по Паланику еще Katy пройдется "вручную". Там посмотрим, на сколько точно я с выводами попал ;-)
Насчет качества перевода, можно, думаю, проверить первую часть Дюны. Перевод есть и хороший (который я лично читал) и тот, в котором "Атридисам" домом служила "груда камней" :-)))


философ

Ссылка на сообщение 7 марта 2008 г. 21:15  
С БК Паланика попал в "молоко" :-(


магистр

Ссылка на сообщение 8 марта 2008 г. 13:53  
Paf Ну, не совсем, все-таки перевод Кормильцева и в твоем анализе, и в моем оказался на высоте :) А вообще надо искать еще какие-то критерии.


новичок

Ссылка на сообщение 6 октября 2008 г. 22:56  
to creator
Здравствуйте, уважаемый ,creator. Собственно, у меня возник вопрос: как вы производите расчет удельного активного словарного запаса? Например, имеется текст в 50000 тысяч слов и текст в 5000 тысяч слов. Как будет производится УАСЗ?
Я конечно понимаю, что у вас полно других дел, но все же надеюсь, что вы ответите.


миродержец

Ссылка на сообщение 7 октября 2008 г. 07:21  
jk-programmer, creator сейчас на отдыхе, сдублируйте Ваш вопрос к нему в личку, чтобы не потерялся. Придется подождать возвращения.
–––
«На патриотизм стали напирать. Видимо, проворовались». (М.Е. Салтыков-Щедрин)


магистр

Ссылка на сообщение 8 октября 2008 г. 17:04  
УАСЗ-3000 вычисляется методом скользящего окна размером в 3000 слов. Т.е. сначала берутся слова от первого до 3000го, вычисляется число уникальных. Затем от 2го до 3001го, и так далее. Потом считается среднее.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


активист

Ссылка на сообщение 4 октября 2012 г. 13:50  
Простите а где в сети можно найти ваш (или подобный) лингвоанализатор, который проверял бы словарный запас автора (количество уникальных слов)?


философ

Ссылка на сообщение 9 декабря 2016 г. 16:28  
creator, а нет ли ошибок в алгоритме определения профиля? Чисто случайно я посмотрел профиль "Холодных берегов" Лукьяненко. Там сказано, что в произведении нет кратких прилагательных. Открываю текст, а там буквально в первых строках "Для надсмотрщика он и впрямь был стар — лет сорок, пожалуй." Или: "Ох, здоров Шутник!"


авторитет

Ссылка на сообщение 16 июля 2018 г. 09:08  
Добрый день. Возможно я чего-то не до понял в лингвистическом анализе... Посмотрел несколько авторов и меня удивило, почему в разделе Части речи — глаголов меньше 1% от общего числа определенных частей речи?


философ

Ссылка на сообщение 16 июля 2018 г. 17:26  

цитата Fyodor

почему в разделе Части речи — глаголов меньше 1% от общего числа определенных частей речи?


Похоже, это общая картина. Какое произведение ни возьми, всюду схожая статистика. Так же печально или еще печальнее обстоит дело с причастиями и деепричастиями. Проблема, видимо, начинается с того, что алгоритм не может определить морфологическую группу примерно четверти (!) слов. Из того, что он может определить, более четверти слов распознаны как "служебные слова". Так что где-то здесь "потерялись" глаголы, деепричастия и пр. Да и относительно других групп могут быть вопросы. Похоже, в базе полнейший мусор в разделе лингвистического анализа.
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."


магистр

Ссылка на сообщение 17 июля 2018 г. 10:09  
Глаголы попадали в инфинитивы. Исправил. Запустил на всякий случай массовый пересчёт.
Часть речи "инфинитив" удалил. Часть речи "краткое причастие" перенес в "причастие" и тоже удалил.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


философ

Ссылка на сообщение 17 июля 2018 г. 16:08  
creator, да, изменения заметные. У многих произведений доля глаголов теперь внезапно > 25%. Это перебор. Для литературных текстов ориентир где-то 15%. В НКРЯ приведена статистика на очень большом корпусе текстов: 17%. И к "глаголам" они относят и (дее-)причастия.
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."


авторитет

Ссылка на сообщение 18 июля 2018 г. 00:40  
creator Спасибо за разъяснение и исправление. Теперь понятнее и интереснее.
Victor31 Может 25 % глаголов — нормальное значение. Мне вспоминаются статьи А.Н. Толстого, который утверждал, что глагол — основа языка произведения.


миродержец

Ссылка на сообщение 18 июля 2018 г. 07:45  

цитата Fyodor

глагол — основа языка произведения
Угу. Каноническое "Решили послать сходить купить выпить" и прочие примеры (рассказ из одних глаголов).
–––
«Не могли бы вы угостить крекером моего дроматерия?»


магистр

Ссылка на сообщение 18 июля 2018 г. 08:27  
Victor31 можно разобрать на конкретном произведении. Покажу какие слова определились как глагол, какие нет. Может, и правда что-то найдём.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


философ

Ссылка на сообщение 18 июля 2018 г. 08:45  
creator, да, дело за примером теперь и за лог-файлами. Я бы сначала на загадочную группу НОЧР посмотрел. Ведь это четверть слов, а все последующие доли вычисляются от ОЧР. Если в НОЧР попадают все части речи более-менее пропорционально, то это одно дело, а если есть перекос "в пользу" какой-то определенной группы, то это уже другое распределение. Четверть всей лексики в категории unknown — очень много.
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."


магистр

Ссылка на сообщение 18 июля 2018 г. 11:18  
Victor31, я посмотрел на предмет НОЧР. Ошибки тут нет.
Это слова, по которым код не может однозначно определить какая это часть речи. Это можно сделать только по контексту предложения, и я пока не представляю как это вообще возможно запрограммировать.

Вот примеры слов, на которых анализатор у меня даёт неоднозначность, т.е. возможные варианты.
Первое же слово — "стать". Это существительное или глагол?..

Я, конечно, мог впихнуть все в первый вариант, но это ж неправильно.

+{СТАТЬ}Г|+{СТАТЬ}С
+{ТАК}ЧАСТ|+{ТАК}СОЮЗ|+{ТАК}Н
+{ПОТ}С|+{ПОТОМ}Н
+{И}МЕЖД|+{И}СОЮЗ
+{МЫТЬ}Г|+{МОЙ}МС-П
+{ДАЖЕ}СОЮЗ|+{ДАЖЕ}ЧАСТ
+{КАЖЕТСЯ}ВВОДН|+{КАЗАТЬСЯ}Г
–––
+7(996)730-00-00, Telegram https://t.me/crealist


философ

Ссылка на сообщение 18 июля 2018 г. 21:53  
creator, на языке НКРЯ это неснятая омонимия. Статистику с 17% глаголов они дают, кстати, по текстам, где омонимия снята. Странновато, что омонимов так много. Но если туда все "И" и пр. попали, то тогда это можно понять.
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."


магистр

Ссылка на сообщение 19 июля 2018 г. 07:12  

цитата Victor31

Но если туда все "И" и пр. попали, то тогда это можно понять.

Думаю, можно вручную пробежаться по самым распространённым словам типа "и", да определить их. То же "и" — в союзы.
Процент НОЧР, возможно, сильно уменьшится.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


философ

Ссылка на сообщение 19 июля 2018 г. 10:47  
creator, думаю, это шаг в правильном направлении. Даже если те же "И" попадут сначала просто в новую графу "Распознаны, но омонимия не снята", то при вычислении доли тех же глаголов их вклад в числитель точно 0, а в знаменатель их все следует добавлять, даже не зная, союз они или междометие.
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."
Страницы: 12345    🔍 поиск

Вы здесь: Форумы fantlab.ru. > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

 
  Новое сообщение по теме «Лингвистический анализ и распознавание автора»
Инструменты   
Сообщение:
 

Внимание! Чтобы общаться на форуме, Вам нужно пройти авторизацию:

   Авторизация

логин:
пароль:
регистрация | забыли пароль?



⇑ Наверх