автор |
сообщение |
Victor31
философ
|
19 июля 2018 г. 13:39 [нажмите здесь чтобы увидеть текст поста]
|
Есть еще вопросы по презентации данных. Вот, например, страничка "Петербурга":
https://fantlab.ru/work293513/lp
Как интерпретировать отсутствие Андрея Белого в списке потенциальных авторов? У него нет "лингвистического паспорта"? Но в таком случае иногда бывает предупреждение (Пушкин). Или "паспорт" есть, но Белый отсутствует в списке, потому что "не открыт"?
|
––– "Сумерки, осень и бешеный дождь, Я подошёл и спросил - что ты ждёшь." |
|
|
creator
магистр
|
|
creator
магистр
|
|
Victor31
философ
|
|
creator
магистр
|
|
creator
магистр
|
20 июля 2018 г. 07:41 [нажмите здесь чтобы увидеть текст поста]
|
И всё равно трудности. Вот слово "а" — это союз, частица или междометие? А когда как. Так к чему мне его причислить? (
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
creator
магистр
|
20 июля 2018 г. 08:32 [нажмите здесь чтобы увидеть текст поста]
|
Итак, я кое-что в словаре оптимизировал, теперь неопределённых частей речи будет становиться меньше. Сейчас их 25% в среднем. Запустил пересчёт. Ожидается, что станет 19-20%.
Кстати. Для определения части речи у меня используется словарь. В исходном виде это текстовый файл с почти двумя миллионами строк (слов). Могу отдать на доработку, устранение неоднозначностей и ошибок. С меня, как минимум, спасибо. Желающим — велкам.
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
say2014
магистр
|
28 июля 2018 г. 12:52 [нажмите здесь чтобы увидеть текст поста]
|
creator, доброго дня!
А можно ли прислать на проверку пару файлов fb2 с разным авторством (оба автора — нераскрытые псевдонимы, увы)? Есть подозрение, что оба текста написаны одним из этих псевдонимов, тем более, что второй автор-псевдоним открещивался от того текста, который издательством приписывался ему...
|
|
|
Fyodor
авторитет
|
29 июля 2018 г. 10:31 [нажмите здесь чтобы увидеть текст поста]
|
creator Добрый день, есть предложение, не знаю насколько вас заинтересует. Есть такой параметр, как индекс удобочитаемости. Может включить его в анализ?
|
|
|
creator
магистр
|
30 июля 2018 г. 10:28 [нажмите здесь чтобы увидеть текст поста]
|
say2014, присылайте в личку. Fyodor, в формуле индекса удобочитаемости (если брать вот эту) использованы средняя длина предложения и средняя длина слова в слогах. Первое уже обрабатывается у нас. Второе, действительно, не используется. Можно считать его как среднее между (кол-во гласных в слове / длина слова). Попробую на досуге. Но нужно понимать, что этот параметр а) очень сильно коррелирован с (средняя длина слова), что у нас уже есть и б) затеряется в тысяче других параметров и особой пользы не принесёт. Но спасибо за наводку!
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Fyodor
авторитет
|
31 июля 2018 г. 17:26 [нажмите здесь чтобы увидеть текст поста]
|
creator Спасибо. Сейчас читаем с ребенком Алису Селезневу, и я обратил внимание, насколько легко понятен текст Булычева — короткие предложения, короткие слова. В предложении иногда 2-3 слова. Но такие же короткие предложения у него и во "взрослых" рассказах. Например в "Умении кидать мяч": "Наши били штрафные. Мне интересно было наблюдать за Курловым. Интереснее, чем за экраном. Он поморщился. Ага, значит, промах. Потом кивнул. Доволен. Между таймами я приготовил кофе. Обнаружил в буфете бутылку венгерского ликера." (Думаю иностранцам, изучающим русский язык, Игорь Всеволодович подошел бы в самый раз). Поэтому мне стало интересно сравнить индекс удобочитаемости Булычева с другими авторами, которых начинаешь читать, но не прёт. И еще наблюдение. Я тренируюсь слепому десятипальцевому методу печати и сижу часто на клавогонках. Там генерируются случайным образом отрывки из произведений разных авторов. Некоторые отрывки легко "пробегаются", а через другие пробираешься с трудом и после замечаешь, что автор "трудных текстов" любит длиннющие слова, причастия, деепричастия, да еще вместо того, чтобы разбить предложение на два, разделяет его точкой с запятой...
|
|
|
Fyodor
авторитет
|
27 ноября 11:58 [нажмите здесь чтобы увидеть текст поста]
|
creator Доброго дня. А возможно ли в лингвистическом анализе добавить долю подчинительных союзов? Объясню, почему меня это заинтересовало. Я обратил внимание (и читал про это тоже), что многие писатели, ставшие классиками, пытались избавляться от подчинительных союзов (особенно таких как "что", "чтобы", "который"). Об писал, например, А.Н. Толстой. И Г. Флобер. В одной англоязычной статье про Хемингуэя прочитал, что Хемингуэй фанатично избавлялся от подчинительных союзов (и следовательно, от сложноподчиненных предложений; превращал их в сложносочиненные) и постоянно переписывал свои тексты. Я как-то сам анализировал ("вручную") анализировал М. Булгакова, Ю. Коваля и детские рассказы Мамина-Сибиряка, и у них в произведениях было удивительно низкое число таких подчинительных союзов, как "что и чтобы"... Так что мне показалось интересным добавить это в лингвистический анализ....
|
|
|