Статистика!

Большинство ранобе издаются в формате покетбук, маленькие такие книжечки на туалетной бумаге и тонким шрифтом. Но повести Нисио Исина печатаются в серии Kodansha Box – на хорошей бумаге, побольше размером и шрифт тоже большой. А кроме того, на одной странице умещается две, одна под другой.
Так и читать легче, и место экономится, поскольку если строка оборвалась в самом начале – пустым останется только пол-столбца, а не весь столбец.

Мне давно было интересно, насколько страницы такой книги больше по объёму страниц обычного ранобе. Я представлял себе, что в полтора-два раза. Ведь в обычном ранобе не только страница меньше, ещё и пустого места на ней полным-полно – а тут всё подогнано плотно.

Но чтобы установить этот ерундовый факт точно, я выполнил небольшое исследование, от неряшливости которого любой учёный придёт в ужас. Я скачал множество ранобе, и сравнил в них следующие характеристики:
– Число символов (каны и кандзи).
– Число страниц на печати
– Число строк
– И количество руби (подсказок чтения)

(Подробнее)

Сначала тексты книг были очищены от тегов Аозора-руби и из них были удалены пустые строки. Инструменты для этого есть в последней сборке jp-tools вместе с исходниками.

Число страниц в печатном издании было взято из описаний книг на японском Амазоне. Это число у некоторых книг повторяется, так что, скорее всего, не всегда на Амазоне оно указано верно.

Вот результат.

Давайте задержимся на секунду и вспомним, какие качества обычно приписывают книгам Нисио Исина? Его книги считаются длинными, сложными, предназначенными для более взрослой аудитории. Сейчас мы это проверим.

Средний объём страницы Исина – 571 символ. Средний объём страницы обычной серии ранобе – 400-430 символов. То есть, страница Kodansha Box не в два, а лишь в 1.32-1.42 раза больше. 20 страниц Исина – это примерно 27 страниц обычного ранобе.
Среднее число страниц – 338 больших против примерно 300 маленьких в обычном ранобе. Среднее число символов на книгу – 193 тысячи против примерно 120. Так что книги Исина действительно больше (кто бы сомневался!) в полтора с лишним раза.

А теперь сюрприз. Средняя длина строки в книгах Исина… 34.5 символов!
В Торе-Доре – 50. В Харухи – 50. Только в Ореимо строки такой же длины – 33 символа. Страшный и ужасный Нисио Исин пишет предложениями такой же длины, как детский сад штаны на лямках Фушими Цукаса (который вообще только Каштанку читал, судя по творчеству!). Хотя страницы Исина всего в 1.35 раза больше, на них в 2 с лишним раза больше строк!

Зато текст Исина действительно более взрослый, поскольку у него почти отсутствуют руби. В книгах Исина в среднем встречается одно руби на 260 символов, когда и в Торе-Доре, и в Харухи это значение стабильно около 37. В Имоте разброс очень сильный – от одного руби на 24 символа до руби на 140 символов. Но в большую сторону число руби увеличиться не могло, так что нельзя соврать, если сказать, что есть такие книги Имоты, где руби встречаются каждые 24 символа. Сравните это с 260 символами Исина.

Я также посчитал число кандзи на квадратный метр к общему числу символов. Это значение почти везде одинаково (видимо, так диктует японский язык), но у Исина, как и в Торе-Доре, оно 0.23 – за исключением Оторимоногатари, где внезапно 0.20; в Харухи – регулярно 0.26, а в Имоте – 0.19-0.20. Имота действительно самое простое ранобе для тех, кто не знает кандзи (впрочем, там полно богатой разговорной речи).

2 комментария

  1. hlidskalph
    31 October, 2012 в 16:30 | Ссылка

    Хм. А почему длина строки должна символизировать сложность текста? Средняя длина предложения, наличие причастных и деепричастных оборотов, глагольные связки. Сложность текста, это количество и сложность примененных языковых конструкций, на мой взгляд. А длина строки/столбца это компоновочное решение данной верствки, при выбранном макете страницы. В японском языке разве по другому?
    “Руби”, да это странные штуковины – в европейских языках отдаленный аналог это транскрипция?

    1. 9 November, 2012 в 11:09 | Ссылка

      Это длина строки без переносов – длина абзаца. Не знаю, во всей ли японской литературе так, или только в ранобе, но абзацы там обычно короче русских: бывает, что целыми страницами “одно предложение – один абзац” (хотя предложения могут быть длиннными). Кроме того, каждая реплика тоже считается за абзац.
      Руби – да, это транскрипция, подписи над кандзи “как это слово читается”. Чем более простые слова подписаны, тем проще не знающим кандзи.

    Ответьте hlidskalph: Я передумал

    Если хотите, можно залогиниться.

    *