![]() | |||||
![]() |
![]() |
18 февраля 2008 г. 08:14 | |||
Лингвистический анализ и распознавание автора текста В Лаборатории Фантастики открывается бета-версия одного из серьёзнейших проектов, который разрабатывался больше года, и должен окончательно закрепить за сайтом статус лаборатории — лингвистический анализ. Проект охватывает два направления: 1. Лингвистические характеристики произведения и рейтинги. Встроенный в сайт лингвоанализатор обрабатывает загружаемые в базу тексты русскоязычной фантастики и запоминает более тысячи их числовых характеристик — от словарного запаса и доли диалогов до частоты фразовых биграмм и буквенных пар. Из всего множества показателей на сайте доступны для просмотра лишь некоторые, наиболее интересные. В разделе «Рейтинги» появился новый подраздел «Лингвистический рейтинг и корреляция характеристик», где не только можно ознакомиться с отсортированным по выбранной лингвистической характеристике списком произведений (например, узнать лидеров и аутсайдеров по словарному запасу), но и посмотреть результаты корреляционного анализа двух характеристик. Например, как вы объясните, что большое количество глаголов в тексте, как правило, повышает его среднюю читательскую оценку, а большое количество прилагательных — понижает?.. 2. Распознавание автора текста. На основе всех проанализированных книг автора формируется авторский лингвопрофиль — совокупность числовых характеристик, описывающих в определённой степени авторский стиль. Имея уже довольно большой багаж авторских лингвопрофилей, лингвоанализатор может распознать автора неизвестного текста, при условии, что в базе имеется лингвопрофиль истинного автора. Вероятность верного распознавания автора романа на данный момент составляет 98.79%, повести/рассказа — 84.32% (авторы свои рассказы, как правило, скрупулёзно выписывают, ломая свой естественный авторский стиль). Эти числа получены эмпирически на основе «прогонки» через анализатор 1222-х произведений. Распознавание автора текста, казалось бы, имеет смысл только для текстов, чей автор не установлен. Но у нас, на фантлабе, таких нет, так ведь? Или мы всё же заблуждаемся?.. Не скрою, что хотел бы сделать сейчас заявление в подобном духе: «Как показали исследования, в базе данных фантлаба есть книги, официальный автор которых на самом деле эти книги не писал!». Но, в силу тактичности, дипломатичности и прочих исторически привитых Лаборатории Фантастики качеств, я вынужден написать в более мягкой форме: «Как показали исследования, в базе данных фантлаба есть книги, которые по всем показателям не подходят под лингвопрофиль официально заявленного издателем автора». Имея под рукой целую кипу результатов, должен сказать, что есть среди них как весьма предсказуемые (например, доказательство того, что Анатолий Брусникин = Борис Акунин, а Орловский = Никитин — для тех, кто ещё сомневается), так и совершенно неожиданные — например, все показатели «кричат», что Ольга Ларионова не писала «Леопард с вершины Килиманджаро» (44-е место по совпадению профиля). И хоть ты тресни. Проверял неоднократно, отключая и включая разные категории характеристик. Когда Ларионова пишет сама, это видно. И Зиновий Юрьев даже и близко не подходит Ларионовой по стилю. Тогда почему в «Леопарде» засветился именно он? Возможно, эти выявленные несоответствия стилей говорят о скрытом от читателя соавторе книги, либо о том, что автор писал произведение очень и очень давно, и с тех пор у него просто-напросто сломался стиль, как ломается в юношестве голос (любопытные примеры — «Общага-на-крови» Алексея Иванова и «Приключения майора Звягина» Михаила Веллера), или и то и другое. Для Ларионовой это ведь тоже первый роман в библиографии. Тем не менее, хоть цифры ничего и не утверждают наверняка, они всё же не врут, не придумывают, и если стилистическое отклонение текста от общего стиля автора наблюдается, значит с чем-то это всё-таки связано. Я предлагаю всем посетителям Лаборатории Фантастики, зажмурив один глаз, окунуться в реку новой информации, и, быть может, кто-то из вас найдёт эту тему для себя интересной. Возможно, среди Вас есть лингвисты, математики — Ваша помощь была бы весьма кстати. Более-менее подробно о методике анализа и распознавания я написал в статье «Лингвистический анализ текста и распознавание автора», и со временем напишу ещё более подробно, когда будут готовы научные труды. На все вопросы могу ответить в личной переписке или в специальной теме на форуме. | |||||
| |||||
Комментарии посетителей
(2008-02-18) Dark Andrew: Ура! Поздравляю с окончанием (пусть и промежуточным) грандиозной работы! |
(2008-02-18) Uldemir: Проделанная работа весьма и весьма впечатляет! И пусть литература для большинства из нас и цифры, ее характеризующие, — вещи не всегда совместимые, результаты лингвоанализа очень интересны. Статью — к обязательной публикации в солидном журнале! |
(2008-02-18) kkk72: Даешь диссертацию! |
(2008-02-18) kkk72: Интересно, ошибался ли Лукин по поводу глаголов или вводил читателей в заблуждение? |
(2008-02-18) кириллыч: Как можно помочь и поучаствовать в такой работе? |
(2008-02-18) creator: Помочь могут профессиональные математики (по части мат. статистики) и лингвисты. В остальном всего хватает. |
(2008-02-18) stogsena: Работа действительно большая и интересная. И результат функционирует. Пожелания. Может, для удобства неплохо бы уметь проводить анализ не по всей базе, а по группам — типа, произведения с RATI >8, одного автора, одного жанра, и т.п. С такой базой и аппаратом возможно и корреляционный анализ авторских пар по различным параметрам проводить, например, SLUJ Акунина против SLUJ Брусникина. В принципе, это косвенным образом упоминается в статье, но в действующей версии этой feature я не заметил... |
(2008-02-18) benommen: Очень интересно, но я половину текста так и не понял |
(2008-02-18) Ялини: Оп-ля!!! Молодец, creator!!! |
(2008-02-18) niksite: И мои поздравления ;o) |
(2008-02-18) wolobuev: Браво!!! |
(2008-02-18) WiNchiK: Вот это да! Браво!!! Интересная, смелая работа и классная идея. |
(2008-02-18) Claviceps P.: С открытием долгожданного проекта! |
(2008-02-18) levich: Первосходно. Есть пища для анализа. Пошел изучать толком что и как. |
(2008-02-18) kastor: Алексей! Это действительно впечатляет. И если подробности метода — не для слабого ума, то возможность им пользоваться есть у всех. Несомненно, исследователи найдутся. Отдельно о "Леопарде" любимой в юности писательницы. То, что Ларионова сама у себя оказалась на 44 месте, весьма сложно объяснимо с позиций формальной логики. Зиновий Юрьев, автор политических памфлетов "про капитализм" вряд ли здесь "при чем". С другой стороны, "Леопард", как ни крути, так и остался в творчестве Ларионовой вершиной, покорённой лишь однажды, через некоторое время последовал медленный, но неотвратимый спуск. Со всем прочим его роднит лишь сила женских образов и мощная лирическая струя. Но ведь роднит! Тем не менее, зерно сомнения посеяно. Думаю, все же из двух Ваших предположений больше похоже на правду второе. "Ранняя" Ларионова тогда воспринималась читателями цельно. Свидетельствую |
(2008-02-18) Ksavier: Вот это ДА !!! Неожидал такого ! |
(2008-02-18) creator: kastor, тут мог запросто наложиться ещё тот фактор, что первые свои произведения авторы, как правило, вылизывают, правят по сто раз, просят помощи у знакомых редакторов, писателей и пр. И в итоге от родного автору стиля остаётся уже не так много. Смысл остаётся, а лингвистические конструкции меняются в корне. |
(2008-02-18) kastor: Сказал мысль, а теперь её думаю... Наверное, есть смысл "препарировать" совсем раннюю Ларионову, 60-х годов, не дальше. В районе сборника "Остров мужества". Возможно, кое-что и прояснится. Еще раз спасибо за работу. Такие возможности! |
(2008-02-18) creator: Если есть тексты Ларионовой, присылайте. Хотелось бы её детально исследовать. |
(2008-02-18) creator: Кстати, по поводу компроматов. Пожалуй, помимо перечисленных, есть только одно значительное отклонение от авторского стиля. Это последний роман Сергея Щеглова "Жертвы Звездного Храма". Остальное я бы не стал называть даже. |
(2008-02-18) kastor: Тексты-то есть, но не в электронном виде. А я сейчас посмотрел, вы использовали для базы то, что написано не менее, чем через 20 лет после "Леопарда". Так что вопрос остаётся. Писатели — они тоже люди, и подвержены изменениям. Хорошо бы сравнить, скажем, раннего Булгакова и позднего. Однозначность в выводах вряд ли присутствовала бы. Но все это чрезвычайно увлекательно. |
(2008-02-18) GerD: Офигенно. Очень крутая работа. Мои поздравления |
(2008-02-18) Petro Gulak:
|
(2008-02-18) irish: Фантлаб не устает удивлять. |
(2008-02-18) Katy: Молодчина, Леша! |
(2008-02-18) elfy: Поздравляю, Алексей! Работа проделана громадная, а идея вообще сногсшибательная. |
(2008-02-18) creator: http://lib.aldebaran.ru/author/bushkov_al... Я просто хохотал над тем как народ поливает грязью Бушкова, как распространяет идиотские слухи и приводит левые доказательства того, что Бушков "уже давно пишет не сам". Порадовал только рецензент HEKPOH: "Сплетни, как бабки на базаре, честное слово". Подписываюсь — ещё хуже, чем бабки. "Студенты за Бушкова пишут..." эх и бред! Кто-то вообще понял, что это не Бушков, по первым двум строкам и читать дальше не стал. Бушков пишет сам! Прогонял тексты через лингвоанализатор как по всем характеристикам, так и по отдельности. Сомнений в авторстве Бушкова не возникло. Вот прицепились к дядьке... |
(2008-02-18) Abuzz: Грандиозно! |
(2008-02-18) wayfarer: Впечатляет! |
(2008-02-18) PetrOFF: Зачем оно надо вообще? |
(2008-02-18) creator: "Зачем оно надо вообще?" Прогнал эти 4 слова через лингвоанализатор. Оказалось, что под псевдонимом Петрофф скрывается Дарья Донцова! Боже мой, какая шокирующая развязка! |
(2008-02-18) PetrOFF: "Оказалось, что под псевдонимом Петрофф скрывается Донцова! Боже мой, какая шокирующая развязка!" Где? Что? Как? Не может быть |
(2008-02-18) Kamima: Грандиозная, потрясающая работа!!! Присоединяюсь к поздравлениям! |
(2008-02-18) Yazewa: Чертовски интересно!! Мимоходом еще можно посмотреть показатели некоторых авторов, чей стиль, кажется, находится под влиянием мэтров, — насколько объективно это восприятие? Уши Стругацких, например, нередко торчат... |
(2008-02-18) Kalkin: Титаническая работа. creator, мои поздравления!!! |
(2008-02-18) sanchezzzz: Закидайте меня хм мокрыми тряпками, но я так и не понял для чего мне, простому читатель это надобно? вдруг узнать предположительно, что Шекли допустим какой нить рассказ не сам написал? не пойму. объяснять, пожалуйста, не надо. |
(2008-02-18) creator: Тогда для последователей. Я писал этот раздел потому, что это интересно мне и многим другим. Остальным вроде как и не навязывается. Каждому своё. Я ж не говорю, что всем теперь счастье настало. |
(2008-02-18) saYmNQDRzU: Невероятная работа!!! Сама прикладную математику заканчиваю, но это... просто нет слов. Круто! |
(2008-02-18) cyborg: Шекспира нужно проверить, кто там за него писал – не Лукьяненко ли? |
(2008-02-18) sanchezzzz: Да безусловно, труд грандиозен. я же не спорю. но я пока не уверен, что мне оно пригодится |
(2008-02-19) Эдди: Алексей! Гранд-поздравления! Великолепно!!! Очень интересно будет сравнить, например, Джордана с теми, кто закончит эпопею "Колеса..."! |
(2008-02-19) mist: Если переводную литературу прогнать можно будет узнать только переводчика или просочится авторский стиль? |
(2008-02-19) creator: С переводной литературой я пока не баловался, то подозреваю, что нельзя будет узнать ни переводчика, ни автора. |
(2008-02-19) creator: На форуме я выложил детальное исследование творчества Бушкова с целью определения его подлинного авторства. |
(2008-02-19) Tairis_Hamster: Спасибо Алексею за такую интересную разработку! Но есть принципиальный вопрос по поводу раздела "Лингвистические характеристики произведения и рейтинги": Алексей, насчёт глаголов и прилагательных в тексте, влияющих на рейтинговую оценку... ну это же не выдерживает никакой критики. Да, можно закодировать части речи и провести статистический анализ — только сама по себе корреляция между такими качественными характеристиками объекта ни о чём ведь не скажет. Перво-наперво, тут не учтён целый ряд латентных факторов, среди которых главнейшие — "мастерство", "талант", "стиль". Эти и другие латентные факторы, а отнюдь не глаголы либо прилагательные САМИ ПО СЕБЕ, влияют на итоговое восприятие текста. Я в целом довольно скептически отношусь к такого рода количественному анализу художественного произведения, коим является книга. В первую очередь, потому, что художественное произведение — штука неколичественная. Да, можно подсчитать количество частей речи в тексте, их удельный вес и т.д. и т.п., согласно списка переменных "Лингвистического анализа", но экстраполировать такого рода статистические данные на качественную сторону вопроса — как минимум, некорректно. Для подобных выводов существует комплекс качественных методов анализа. Этим у нас, в общем-то, критики занимаются, некоторые из них — очень и очень профессионально. |
(2008-02-19) creator: > только сама по себе корреляция между такими качественными характеристиками объекта ни о чём ведь не скажет Я разве отрицаю? В данном случае корреляция может показать лишь косвенную закономерность. > но экстраполировать такого рода статистические данные на качественную сторону вопроса — как минимум, некорректно Евгений, ты обвиняешь меня в том, чего я не делал и не собирался даже. Ни в коем случае я экстраполирую количество на качество. Покажи мне — где я написал, что хоть какая-то циферка характеризует качество книги... Не найдёшь. |
(2008-02-19) Tairis_Hamster: Алексей, честное слово, обидеть не хотел Я, фактически, старался предостеречь ЛЮБОГО, кто будет пользоваться анализатором, от поспешных выводов в отношении любого же проанализированного текста. Ведь ты сам вот этой фразой: "Например, как вы объясните, что большое количество глаголов в тексте, как правило, повышает его среднюю читательскую оценку, а большое количество прилагательных — понижает?.." как бы подзуживаешь, что ли. Сподвигаешь делать выводы там, где их делать вообще нельзя. Мне заранее стало немножко страшно оттого, что ждёт авторов, скажем, на Фензине, где народ будет кричать: "Ага! У Васи Пупкина, оказывается, словарный запас меньше, чем у Коли Бубкина!" А ему в ответ: "Зато у него глаголов больше, значит, Бубкин круче Пупкина!"... Вот в таком аспекте. Может, стоит чётче обозначить где-нибудь в сопроводительном слове, о чём можно, а о чём не стоит думать на основании данных, полученных при проведении лингвистического анализа? |
(2008-02-19) sanchezzzz: работа грандиозная. но почему никто не говорит (я по крайней мере не встретил), что идея и основа взята оттуда то и с такого то сайта. кто листает сайт Если поймет. кстати, я так понял фантлаб и вышеозначенный сайт друзья? |
(2008-02-20) creator: Tairis_Hamster, ну да, фантлаб ответственности не несёт, все цифры вы используете на свой страх и риск. sanchezzzz, я с вышеозначенным сайтом даже списаться не могу — всё отправляемое на контактный емейл назад приходит. Идея ниоткуда не взята, основа тоже. Ни одной формулы, либо алгоритма ниоткуда заимствовано не было. Я, как обычно, начал работу и в процессе выяснил, что где-то подобное уже существует. |
(2008-02-20) sanchezzzz: Да я не к тому, Леша. Просто они утверждают, что за основу взято то оттуда то. ну да бог с ними, я и зашел то к ним вчера впервые. А тебе, Алексей, спасибо за Фантлаб! |
(2008-02-20) creator: Всё, что я использовал — это анализатор Сокирко от aot.ru. Его я указал в статье. |
(2008-02-21) jane: Потрясающе |
(2008-02-21) Jozef Nerino: creator, +1, спасибо за грандиозную и очень интересную работу :))) |
(2008-02-21) creator: Я офигеваю. До журналов вообще не достучаться. Мир Фантастики и FANтастика не отвечают, в Если писал — пришло обратно, мол, адреса не существует. Как вообще люди с журналами связываются? |
(2008-02-21) Tairis_Hamster: 2 creator: pegasoff.livejournal.com — для связи с главредом МФ. А по FAN, может, к Владимирскому обратиться? |
(2008-02-21) creator: К Владимирскому уже обратился. Говорит, читателям это будет не интересно. На самом деле многих заинтересует, но для FANтастики такая статья действительно не формат. Там рецензии, обзоры в основном. Это надо в какую-нибудь "Науку и жизнь" писать. |
Ваш комментарий
![]() |
доступно после регистрации —> |