Список источников:
|
|
выбор кодировки:
|
|
Открытие источников:
|
|
Хранилища структурированных данных:
|
|
Функции для добавления данных в структуры:
|
|
Считывание источников:
|
|
Всего символов в тексте:
5611554 5611554 |
Всего слов в тексте:
1180401 1180401 |
Сколько раз встретился символ "й":
92013 92013 |
Сколько раз встретилось слово "текст":
65 65 |
Подсчёт вероятностей для символов:
|
|
Подсчёт вероятностей для слов:
|
|
Вероятность того, что произвольный символ из текста, окажется буквой "а"
0.0775585515171020 0.0775585515171020 |
Вероятность того, что произвольное слово из текста, окажется словом "ответ":
0.0000974245192947143 0.0000974245192947143 |
Уникальных символов:
34 34 |
Сколько раз в среднем используется каждый символ:
165045.705882353 165045.705882353 |
Уникальных слов:
149110 149110 |
Сколько раз в средним используется каждое слово:
7.91631010663269 7.91631010663269 |
Энтропия для алфавита из букв, т.е. сколько бит нужно на символ для кодирования текста:
4.49914108954347 4.49914108954347 |
Условная энтропия первого порядка для алфавита из букв, т.е. сколько бит нужно на символ для кодирования текста, если случайное событие появления текущей буквы в тексте считать зависимым от предыдущего символа и только от него:
3.86169238777431 3.86169238777431 |
Энтропия для алфавита из уникальных слов текста, т.е. сколько бит нужно на слово для кодирования текста:
11.6318837673449 11.6318837673449 |
При средней длина слова
4.75393870388114 4.75393870388114 |
энтропия меньше, чем количество бит, используемых для кодирования слова в тексте:
38.0315096310491 38.0315096310491 |
и даже меньше, чем количество бит, используя которое можно было бы закодировать слово, ограничиваясь только символами алфавита:
24.1854865055771 24.1854865055771 |
|
|