Кирилиця та латинка в українській мові
Ідея дослідити кириличні абетки виникла після пропозиції перевести українську мову на латинку. Тоді активізувалися суперечки про те, яка кирилиця погана, на відміну від чудової латинки, і навпаки. Але цим суперечкам не вистачало важливих аргументів. Навіть сам предмет спору — кирилиця проти латинки — відволікав від суті проблеми. Адже насправді немає ніякої кирилиці! І латинки теж немає. А є мови.
Для кожного шрифту і кожної писемності мова — це окрема дисципліна. Один шрифт може виглядати гармонійно в російській мові і незграбно в українській або навпаки. Так само, як одна людина може бути хорошим тенісистом, але поганим футболістом. Тому розглядати окремі мови практичніше, ніж всю кирилицю та всю латинку.
Результати цього дослідження стануть у пригоді тим, хто створює нові шрифти або кирилицю на базі латинки, а також простим дизайнерам, які бояться працювати з кирилицею.
Літери і слова української мови
Граматика та орфографія визначають характер слів, розподіл літер. Ці особливості унікальні для кожної мови. Тому, перш ніж розмірковувати про кирилицю, треба розглянути, які графеми вона надає конкретній мові, наскільки вони економічні, помітні, візуально збалансовані.
Частотний словник Генерального регіонально анотованого корпусу української мови (ГРАК) показує, що усі українські тексти на 8,3% складаються з однієї літери о. І більш ніж на третину — з п’яти літер о, а, н, и, і.
В україномовних текстах заголовні літери вживаються у 35 разів рідше, ніж рядкові, та використовуються в особливих випадках: на початку речень, іменах, власних назвах, абревіатурах і титульних написах. Тому вони розподілені по текстах інакше. Найрозповсюдженішими заголовними літерами є В, П, Н, А, Т.
А ці дивовижні пригоди літери В у паспортних даних українських держслужбовців демонструють, що іноді важливо аналізувати мову детальніше, обираючи тексти певного жанру, виду чи стилю, наприклад, наукові статті, художню літературу, новини, назви вулиць міста.
Уживаність визначає вплив кожної літери на місткість усього шрифту. Наприклад, при зменшенні ширини літер о, а, н на 20% більшість текстів займатиме на 4,5% менше місця, хоча довжина набраної в один рядок абетки зменшиться лише на 1,75%. Порівняймо це зі зміною широких літер ж, ш, щ, які не до вподоби багатьом. Якщо ми зробимо їх на 20% вужче, місткість текстів збільшиться лише на 1%. Ці величини стосуються тільки україномовних текстів, в інших мовах ті ж самі літери впливають на місткість текстів інакше.
Звичайно, текст складається не з окремих літер, а зі слів, які теж розподілені нерівномірно. Частотний аналіз показує, що 33% усіх україномовних текстів складається зі 100 слів. А одинадцять однолітерних слів: і, в, з, у, а, й, я, ж, є, б покривають 10% корпусу української мови.
Не менш корисним буде врахування розповсюдженості дволітерних сполучень. Топ-100 дволітерних сполучень покриває 63% усіх українських текстів. Неймовірно, але факт! Тому кернінг зручніше починати з найпопулярніших сполучень. Але якнайкраще топові сполучення та слова підходять для тестування нерегулярних шрифтів: каліграфії, літерації, імітації почерку.
Тестові слова для ранніх ескізів шрифту також можна покращити з урахуванням уживаності літер. Наприклад, десятилітерний Нобельфайк презентує 46% україномовних текстів та майже усі типи графем української абетки. Непогано для одного слова. Але Нобервудлайк охоплює 62% корпусу мови, усі форми й виносні елементи, будучи лише на дві літери довше.
Форма і пластика літер української абетки
Кожен дизайнер хоч раз сварив кирилицю за форму і пластику літер. Її вважають парканом, і небезпідставно. Але перш ніж оголошувати вирок, треба дослідити докази та розібратися, в чому саме винен підсудний. Може є пом’якшувальні обставини?
Майже 40% заголовних літер в україномовних текстах — це справжній паркан. Жахливі перпендикуляри, чотири однакових звисання і такий самий гачок згори. Дуже мало овальних форм — лише 15%. Але заголовні літери покривають тільки 3% мови й рідко збираються у групи більше ніж три. Це є пом’якшувальною обставиною.
Рядкові літери набагато гармонійніші. Вони перетворюють на паркан лише 32% тексту, а крапки над і та ї урізноманітнюють монотонність своєї групи. Зате 21% текстів складається з приємних овалів, а 19% з непоганого сполучення напівовалів та прямих. Виносні елементи рядкових літер доволі красиві. Шкода, що у, р, б, ф покривають лише 10% текстів.
Подивимося на «портрет української абетки». Схоже на фоторобот двох спільників злочину. Вони схожі один на одного, що в даному випадку є обтяжувальною обставиною. Надмірна схожість маюскулу та мінускулу не тільки некрасиво, але і непрактично. В українській абетці є дуже серйозна проблема — занадто часте використання поперечини, як у Н, н. Ця зона використовується у 13 рядкових літерах та у 15 заголовних. Надмірна деталізація рядкових літер підвищує ризик оптичних викривлень та розтікання друкарської фарби.
В російській абетці усе ще гірше, через ё, ы, ъ «талія» навантажена у 16 рядкових та 18 заголовних. Натомість в англійській мові — зона поперечини використовується лише у 5 рядкових та 10 заголовних літерах. Простота форми та багато витончених виносних елементів робить англійський текст менш вразливим до фізичних та оптичних викривлень. У наступних статтях буде більше подробиць про англійську абетку.
Вищеописані особливості кирилиці в українській мові мають відношення лише до графем, не до історії чи політики. Українська мова та її абетка могли б виглядати краще. Якщо поставити за мету підвищення якості української абетки, треба буде змінити деякі літери або навіть всю абетку.
У справі вдосконалення української абетки відомі дві утопічні ідеї: перша — відійти від «гражданського шрифту», який придумав Петро I, друга — перейти на латинку.
Перша ідея дещо архаїчна, вона передбачає повернення до джерел, до міфічної України Гоголя. А друга ідея прогресистська і трохи толкієнівська. Її прибічники кажуть, що ми повинні перейти на латинку, щоб остаточно розірвати з Росією і потрапити під вплив західної цивілізації, нібито латинка — це чарівна мова вищих ельфів.
Українська латинка
Щоб перейти на латинку Україні треба витратити мільярди доларів і пару десятиліть. За цей час доведеться зробити кілька «кроків назустріч людям»:
- Змінити документи 45 мільйонів людей;
- Змінити закони, кодекси, увесь документообіг;
- Передрукувати навчальну літературу для усіх освітніх закладів;
- Підвищити навантаження на школярів, ускладнивши українську мову;
- Перевчити мільйони держслужбовців та бюджетників;
- Передрукувати українську художню літературу;
- Передрукувати усі монети і банкноти;
- Замінити мільйони дорожніх знаків, покажчиків, табличок;
- Здолати ще один додатковий розкол суспільства;
- Загострити конфлікт старшого і молодшого покоління;
- Сповільнити усі процеси, де людина читає тексти;
- Зазнати підвищених збитків від аварій через нові дорожні знаки.
Після цього ми відмовимося не тільки від «гражданського шрифту», але і від історичної спадщини України, адже київські князі, літописці, гетьмани, козаки писали кирилицею. Також ми витратимо час і гроші на ускладнення власної мови, хоча вона і зараз розвивається недостатньо інтенсивно. І все це заради перевірки примарної гіпотези про те, що радикальна зміна абетки зробить Україну принципово прогресивнішою. Хоча ця гіпотеза взагалі може виявитися хибною.
До речі, перейти на латинку можна кількома способами. Візьмемо для прикладу два максимально різних способи транслітерації української мови: міжнародний стандарт ISO 9 та «національну транслітерацію» — і дослідимо їх з урахуванням частотного аналізу мови.
Національна транслітерація української мови
Сьогодні в Україні діє порядок транслітерації української абетки прийнятий кабінетом міністрів у 2010 році.
Така абетка, мабуть, може потішити когось відсутністю літер ц, щ, ж, але разом з цими досягненнями з’явилась низка проблем:
- Втрачена відповідність графіки і фонетики мови. Замість 1 літери на 1 звук та один знак м’якості, введені буквосполучення ia, ch, kh, zh, iu, sh, ts, yi, shch, ie;
- Ускладнені правила правопису 5 літер: ia (ya), i (y), iu (yu), i (yi), ie (ye);
- Додаткове правило для заміни апострофу і м’якого знаку;
- Зменшена на 1% місткість усіх україномовних текстів;
- Деякі дуже популярні слова змінилися до невпізнання, наприклад: що (shcho), ще (shche), якщо (yakshcho);
- Збільшилася кількість виносних елементів, але вони стали однаковішими. У 99,85% текстів використовуються лише вертикалі (як у h, k) та звисання (як в y). Велика кількість будь-яких однакових елементів знижує швидкість розпізнавання слів.
Транслітерація за стандартом ISO 9
Міжнародний стандарт ISO 9 визначає спосіб транслітерації кириличних абеток.
Цей варіант абетки теж порадує тих, хто не любить парканні літери п, ц, щ або ж, що запливає. Крім того, ці латинські літери, як і кириличні, передають по одному простому чи складному звуку. Символи для м’якого знаку та апострофу теж залишаються. Також місткість українських текстів збільшується. Тексти, набрані такою абеткою будуть на 14% коротше.
Але у цієї системи є серйозний недолік — дуже слабка розрізнюваність знаків. 20 з 32 літер можна сплутати одна з одною. Наприклад, у випадку з дорожніми знаками, від швидкості розпізнавання написів залежить ризик потрапити в аварію. У решті випадків людина збереже здоров’я, але втратить час. Через спробу передати складні звуки однією літерою з’явилося дуже багато діакритичних знаків, які створюють труднощі при друку і сповільнюють розпізнавання знаків як людиною, так і комп’ютером. Замість кириличних літер: и, і, ї, у, ю, е, є, с, ш, щ, ч, ц, з, ж, а, я, г, ґ, ь, ’ використовуються латинські: i, ì, ï, u, û, e, ê, s, š, ŝ, c, č, z, ž, a, â, g, ģ, ’, ’.
Ще одна заковика у латинці ISO 9 — «кириличний паркан», від якого буцімто рятує латинка, не тільки не зникає, але навпаки, погіршується. Замість 32,5% уживань «парканних» літер з вертикалей та горизонталей у кирилиці ми маємо 44,1% тексту у вигляді латинського «паркану». Цей паркан виглядає приємніше за рахунок відсутності горизонталей, але читається він навіть гірше, ніж звичний паркан з горизонталями.
І ще одна історія для прибічників української латинки. Уявімо Україну 2038 року. Ми нарешті, остаточно перейшли на латинку, стали дуже цивілізованими і несхожими на росіян. Але виявилося, що для розуміння західних текстів треба знати не писемність, а європейські мови. Тим часом, весь світ вже 10 років не вживає писемність, інтерфейси усіх пристроїв голосові або візуальні, а машинний переклад практично відмінив мовний бар’єр.
Вдосконалення графем української кирилиці
Є інший спосіб вирішити проблеми української абетки та зберегти зв’язок з традицією. Ми будемо вносити мінімальні зміни у графеми, виходячи з їх проблемності та частоти застосування в корпусі мови.
Мінімальне втручання в літеру н (кожна 15-а літера) та з (кожна 40-а літера) звільняє текстову шпальту від двох поперечин, що погано розрізнюються та запливають на друку, і додає нижній виносний елемент. А виносні елементи дозволяють зробити літеру більш впізнаваною та читабельною.
В результаті мінімальних змін (лише 2 літери — н і з) усереднена форма українських рядкових літер стала більш схожа на усереднену форму англійських літер. При цьому використані доволі впізнавані графеми, знайомі і з класики української типографії — Абетки Нарбута, і з робіт сучасних шрифтарів: Василя Чебаника, Кирила Ткачова, Дмитра Растворцева, сестер Лопухіних тощо. Змінені літери легко запам’ятати й відрізнити від інших літер, їх навіть можна вживати без спеціальних законів і стандартів. У схожий спосіб вчинили болгарські дизайнери зі своєю версією кирилиці.
Українська версія кирилиці не є «антиросійською», у ній лише поліпшуються розрізнювальність літер, підвищується місткість текстів, усувається проблема одноманітного «паркану» з вертикалей та горизонталей. Разом з цим, український текст починає ще більше відрізнятися від російського, у кращий бік.
Подальші зміни можуть включати згладжування деяких кутів у «парканних» літер та вибір компактніших графем там, де це можливо.
Можна добитися відчутного візуального та економічного ефекту, змінивши лише дві графеми — л (кожна 25-а літера) і д (кожна 28-а літера):
- Економія 1% сторінок книг за рахунок компактнішого тексту та 0,7% типографської фарби за рахунок зменшення поверхні літер;
- Збільшення розрізнюваності знаків за рахунок верхнього виносного елементу;
- Зменшення ефекту «паркану» за рахунок перетворення двох прямокутних літер на одну діагональну та одну овальну.
1% економії книжкових сторінок — це порятунок від вирубки 10 дерев з 1000.
0,7% економії поверхні літер — це економія 7 кг фарби з 1 тонни.
Перевага таких змін української абетки перед переходом на латинку зовсім не в збереженні нашої історичної писемності — це просто бонус. Переваги суто економічні. Зміна кількох графем на інші, але все ще знайомі, як варіанти звичної норми, не потребує глобальних державних заходів. Позитивний ефект буде від того, що шрифтові дизайнери почнуть робити такі літери, не питаючи дозволу уряду, не витрачаючи мільярди з бюджету та не розпалюючи конфліктів у суспільстві.
До речі, навіть з теперішньою абеткою, будь-яка україномовна книжка економніша за російськомовний аналог більш ніж на 10%. На це є багато причин, серед них:
- Українська “і” замість російської “и”;
- Українська “и” замість російської “ы”;
- Відсутня літера “ъ” (твердий знак);
- Компактний апостроф замість розділюючого м’якого і твердого знаків;
- Слово “є” замість слова “есть” і “является”, “що” замість “что”, “як” замість “как”.
Ритм рядку в україномовних текстах
Частотний словник мови дозволяє об’єктивніше оцінити не тілько графеми, але і деякі особливості мови на рівні типографії. Мова може складатися з сотень тисяч слів, але не всі слова однаково корисні, коли йдеться про кернінг, текстуру шпальти та хаотичні ефекти літерації чи письма.
У текстових шрифтах, на кшталт Roboto найрозповсюдженіші слова та буквосполучення потрібної мови дуже корисні для кернінгових пар та налаштування пропорцій знаків.
Нерегулярні шрифти, як Hatter Display зазвичай імітують випадковість та різноманітність ручної літерації. Варіюватися може буквально все: жирність, контраст, висота, ширина, нахил, різні викривлення форми. Для створення ритму «випадковостей» треба слідкувати за популярними сполученнями літер і словами, щоб у них були красиві ненудні варіації.
Істинна випадковість виглядає незграбно і навіть не випадково. Тому «ефект ручної роботи» потребує налаштування під кожну мову.
Але у цьому шрифті кирилиця робилася після латинки й, можливо, без урахування частотності, тому хаотичність базової лінії, висоти та викривлень в англійському тексті набагато помітніша, ніж в українському.
Кирилізація хаотичного шрифту — складна і цікава задача. Для повторення «танцюючого рядку» треба записати викривлення в кожній літері та за частотним словником визначити розповсюдженість того чи іншого викривлення в усій мові. Далі треба перенести ці викривлення на іншу мову з урахуванням частотності літер потрібної абетки. Наприклад, якщо в англійських текстах 30% літер підстрибують, а 25% провалюються, значить, українські літери, відповідно до частотності в українських текстах, мають повторити це співвідношення.
Усі викривлення треба розподілити так, щоб найрозповсюдженіші слова та буквосполучення не виглядали нудно. Якщо ваші літери віддаляються від базової лінії на -10, 0, 10 та стискаються на -30%, 0%, 30%, то треба слідкувати, щоб у найчастіших сполученнях: ого, про, від, ати, ння, … не було послідовностей на кшталт -10, -10, -10 чи 30%, 30%, 30%.
У шрифтах, що імітують каліграфію чи побутовий почерк, як Chebano, теж доводиться «приборкати хаос». І в цьому, як ви вже зрозуміли, теж допоможуть частотні словники найрозповсюдженіших мов світу.