Статистика лингвистического анализа библиотеки и средние значения

Анализ проводился только над русскоязычными текстами. Минимальный размер обрабатываемой fb2 книги - 50 Кб. За одну страницу принято среднее значение в 1800 символов. Уникальные слова - это все встреченные уникальные слова при разборе (включая слова с ошибками, в разных склонениях, придуманные слова и имена и т.д.)

Суммарные данные анализа:

Всего обработано367370 книг
Суммарная длинна текстов154,930,283,991 знаков
Суммарная длинна диалогов41,280,603,529 знаков
Суммарное количество слов23,183,256,931 слов
Всего страниц86,255,959 страниц
Всего предложений2,025,631,256 предложений

Средние данные книг:

Средняя длинна текста421728 знаков
Средняя длинна диалогов112368 знаков
Среднее количество слов в произведении63106 слов
Среднее количество страниц в произведении235 страниц
Средняя длина слова5.32 знаков
Среднее количество предложений в произведении5514 предложений
Средняя длина предложения83 знаков
Средняя доля диалогов в тексте26 %
Средняя доля авторского текста74 %
СДП диалогов70 знаков
СДП авторского текста96 знаков

Средний активный словарный запас

Всего использовано уникальных слов16,878,322 слов
Средний активный авторский словарный запас (САСЗ)13418
Средний активный авторский не словарный запас (САНСЗ)478
Удельный САСЗ на 3000 слов текста1493
Удельный САСЗ на 10000 слов текста3876
Удельный САСЗ на 100000 слов текста21050

Статистика букв и знаков препинания

Всего букв122,808,383,948 букв
Всего знаков препинания5,381,172,972 знаков

ЗнакСуммарное количество (шт.)Суммарное среднее количество на 1000 слов (шт.)
, запятая2,622,878,834113.21
. точка1,813,393,76679.74
- тире312,596,95314.61
? вопросительный знак199,204,8209.16
! восклицательный знак140,692,2936.9
... многоточие17,292,1780.93
!.. восклицательный знак с многоточием4,356,0820.23
?.. вопросительный знак с многоточием3,289,3430.17
!!! тройной восклицательный знак1,198,5280.07
?! вопросительный знак с восклицанием6,975,8210.38
" кавычка32,905,7691.6
() скобки51,728,3012.36
: двоеточие117,790,4065.52
; точка с запятой56,869,9402.51
БукваВсего (шт.)Средняя частота использования (в %)
А9,965,311,6128.16
Б2,059,167,1871.68
В5,436,055,6844.39
Г2,121,537,4151.72
Д3,709,312,7663.02
Е-Ё10,339,216,7118.41
Ж2,121,537,4151.72
З2,063,511,3841.69
И-Й9,952,496,0178.03
К4,145,212,3093.41
Л5,869,298,1704.79
М3,967,076,8503.23
Н8,133,549,0196.59
О13,555,965,60910.99
П3,460,911,9952.81
Р5,592,673,7344.51
С6,618,632,2875.36
Т7,580,192,7166.19
У3,404,592,0152.81
Ф242,507,4150.19
Х1,122,051,7770.9
Ц489,186,8130.39
Ч1,792,207,9051.47
Ш996,995,4530.83
Щ442,896,1970.36
Ь-Ъ2,396,807,9861.97
Ы2,311,694,3951.89
Э421,914,9090.34
Ю754,005,8610.62
Я2,615,197,1482.14
Диаграма использования букв в русском языке

Сумма частей речи

Часть речиВсего в текстах (шт.)средний % в текстах
Существительное6,411,202,47423.17
Глагол2,175,907,96620.7
Местоимение-существительное2,175,907,96615.72
Предлог1,710,879,49710.35
Союз2,002,632,5448
Прилагательное1,710,879,4975.95
Наречие1,352,550,2335.68
Местоимение-прилагательное1,026,638,6784.16
Частица1,053,878,1773.77
Местоименное наречие370,750,7561.39
Числительное134,166,2690.53
Числительное-прилагательное54,390,0930.16
Междометие23,068,2690.04
Часть композита - сложного слова3,922,3570.01