Статистика лингвистического анализа библиотеки и средние значения всех книг

Анализ проводился только над русскоязычными текстами. Минимальный размер обрабатываемой fb2 книги - 50 Кб. За одну страницу принято среднее значение в 1800 символов. Уникальные слова - это все встреченные уникальные слова при разборе (включая слова с ошибками, в разных склонениях, придуманные слова и имена и т.д.)

Суммарные данные анализа:

Всего обработано391989 книг
Суммарная длинна текстов164,465,243,390 знаков
Суммарная длинна диалогов44,214,076,970 знаков
Суммарное количество слов24,631,799,561 слов
Всего страниц91,565,539 страниц
Всего предложений2,165,693,383 предложений

Средние данные книг:

Средняя длинна текста419566 знаков
Средняя длинна диалогов112794 знаков
Среднее количество слов в произведении62838 слов
Среднее количество страниц в произведении234 страниц
Средняя длина слова5.32 знаков
Среднее количество предложений в произведении5525 предложений
Средняя длина предложения82 знаков
Средняя доля диалогов в тексте26 %
Средняя доля авторского текста74 %
СДП диалогов69 знаков
СДП авторского текста96 знаков

Средний активный словарный запас

Всего использовано уникальных слов17,588,203 слов
Средний активный авторский словарный запас (САСЗ)13338
Средний активный авторский не словарный запас (САНСЗ)472
Удельный САСЗ на 3000 слов текста1492
Удельный САСЗ на 10000 слов текста3873
Удельный САСЗ на 100000 слов текста21013

Статистика букв и знаков препинания

Всего букв130,356,349,415 букв
Всего знаков препинания5,715,346,285 знаков

ЗнакСуммарное количество (шт.)Суммарное среднее количество на 1000 слов (шт.)
, запятая2,785,165,635113.13
. точка1,931,479,39079.89
- тире331,237,70514.57
? вопросительный знак212,995,3039.19
! восклицательный знак149,841,5596.9
... многоточие18,020,1040.92
!.. восклицательный знак с многоточием4,517,7640.23
?.. вопросительный знак с многоточием3,454,2910.16
!!! тройной восклицательный знак1,290,7120.07
?! вопросительный знак с восклицанием7,545,7410.38
" кавычка33,934,4021.57
() скобки53,732,1372.3
: двоеточие123,647,1835.45
; точка с запятой58,484,4212.44
БукваВсего (шт.)Средняя частота использования (в %)
А10,588,520,3078.17
Б2,185,331,7561.68
В5,765,224,5844.39
Г2,250,825,4761.72
Д3,935,831,8583.02
Е-Ё10,967,906,2688.4
Ж2,250,825,4761.72
З2,190,821,7651.69
И-Й10,548,010,2468.02
К4,398,801,0953.41
Л6,234,968,9884.79
М4,213,000,9473.23
Н8,631,100,2066.59
О14,390,612,66010.99
П3,674,909,4632.81
Р5,932,578,8124.51
С7,022,299,2725.35
Т8,048,953,2406.19
У3,619,173,7552.81
Ф256,116,1170.19
Х1,189,338,5960.9
Ц517,553,0850.39
Ч1,903,491,4931.47
Ш1,060,261,2040.83
Щ470,035,3070.36
Ь-Ъ2,549,691,9341.98
Ы2,452,831,4591.89
Э448,510,7590.34
Ю800,098,2810.62
Я2,783,451,4192.15
Диаграма использования букв в русском языке

Сумма частей речи

Часть речиВсего в текстах (шт.)средний % в текстах
Существительное6,790,779,94723.17
Глагол2,321,749,16520.7
Местоимение-существительное2,321,749,16515.72
Предлог1,808,527,69710.35
Союз2,130,622,4698
Прилагательное1,808,527,6975.95
Наречие1,442,770,3735.68
Местоимение-прилагательное1,091,312,1774.16
Частица1,124,221,6993.77
Местоименное наречие395,054,9521.39
Числительное142,249,3990.53
Числительное-прилагательное57,707,9280.16
Междометие24,579,0060.04
Часть композита - сложного слова4,121,6700.01