Please use this identifier to cite or link to this item: http://elar.urfu.ru/handle/10995/48259
Title: Новый статистический метод атрибуции текстов
Other Titles: A new statistical method of text attribution
Authors: Зенков, А. В.
Zenkov, A.
Issue Date: 2016
Publisher: Издательство УМЦ УПИ
Citation: Зенков А. В. Новый статистический метод атрибуции текстов / А. В. Зенков // XI Международная конференция «Российские регионы в фокусе перемен». Екатеринбург, 17-19 ноября 2016 г. : сборник докладов. — Екатеринбург : Издательство УМЦ УПИ, 2016. — Ч. 1. — С. 551-562.
Abstract: Предложен новый метод статистического анализа в текстологии. Исследовано распределение частот различных первых значащих цифр в числительных связных авторских русскоязычных текстов. Показано, что эти частоты приближённо соответствуют закону Бенфорда с резким преобладанием доли единицы. Отклонения от закона Бенфорда являются статистически устойчивыми авторскими особенностями, позволяющими при некоторых условиях исследовать вопрос об авторстве, в частности, различать тексты разных авторов. Распределение цифр конца ряда подвержено сильным флуктуациям и непоказательно. Предложенный подход проиллюстрирован и выводы подкреплены примерами компьютерного анализа произведений М. Агеева, В. Набокова, М. Шолохова, Н. Некрасова и др. Результаты обоснованы на основе непараметрического U-критерия Манна-Уитни и иерархического кластерного анализа.
A new method of statistical analysis of texts is suggested. The frequency distribution of the first significant digits in numerals of connected authori-al Russian-language texts is considered. Benford's law is found to hold approximately for these frequencies with a marked predominance of the digit 1. Deviations from Benford's law are statistically significant author peculiarities that allow, under certain conditions, to consider the problem of au-thorship and distinguish between texts by different authors. At the end of row, the digits distribution is subject to strong fluctuations and thus unrepresentative for our purpose. The approach proposed and the conclusions are backed by the examples of the computer analysis of works by M. Ageev, V. Nabokov, M. Sholokhov, N. Nekrasov et al. The results are confirmed on the basis of non-parametric Mann-Whitney U test and hierarchical cluster analysis.
Keywords: ЗАКОН БЕНФОРДА
СТИЛЕМЕТРИЯ
АТРИБУЦИЯ ТЕКСТОВ
ОБРАБОТКА ТЕКСТОВ
КРИТЕРИЙ МАННА-УИТНИ
ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ
BENFORD’S LAW
STYLOMETRY
TEXT ATTRIBUTION
TEXT PROCESSING
MANN-WHITNEY U TEST
HIERARCHICAL CLUSTER ANALYSIS
URI: http://elar.urfu.ru/handle/10995/48259
Conference name: XI Международная конференция «Российские регионы в фокусе перемен»
Conference date: 17.11.2016-19.11.2016
ISBN: 978-5-8295-0513-4
978-5-8295-0512-7
Origin: Российские регионы в фокусе перемен. — Ч. 1. — Екатеринбург, 2016
Appears in Collections:Междисциплинарные конференции, семинары, сборники

Files in This Item:
File Description SizeFormat 
rrfp_2016_1_065.pdf1,6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.