| Слова (леммы) | 101 758 |
|---|---|
| Словоформы | 3 815 920 |
| Клаузулы | 210 417 |
Основная компонента Rhymes – словарь рифм – был создан на основе Грамматического словаря русского языка А. А. Зализняка, который содержит базовые словоформы ~100 тыс. слов с полным морфологическим описанием (в том числе схемами ударений).
Для синтеза всех акцентуированных словоформ использовался морфологический модуль, изначально разработанный Максимом Ушаковым. Этот модуль качественно образует парадигмы с регулярной морфологией, но к сожалению, пока не поддерживает синтез исключений (например, личных местоимений и количественных числительных). В том случае, когда модуль не мог построить парадигму, в словарь добавлялась только базовая словоформа. Предположительные и затруднительные в образовании словоформы (например, ед. число краткой формы прилагательных на -ский, множ. число от дно и т. п.) в словарь не включались (см. ГСЗ, стр. 8).
Затем каждая словоформа расщеплялась на предударную часть (префикс) и клаузулу, и формировались списки уникальных клаузул и префиксов.
Для каждой словоформы в словаре хранится информация о части речи. Для краткости определены следующие части речи: существительные (сущ.), прилагательные (прил.), местоимения (мест.), глаголы (глаг.), причастия (прич.), деепричастия (деепр.), числительные (числ.), наречия (нареч.) и служебные (служ.).
Наречия в словаре Зализняка представлены очень выборочно, поскольку большую долю составляют наречные прилагательные (темно, легко, красиво и т. п.). Мы продублировали ~900 кратких форм прилагательных в классе наречий.
Были исправлены множественные ошибки электронного варианта 3-го изд. словаря Зализняка (из лингвистической системы С. А. Старостина «Starling»). Сверка производилась по новому 4-му изданию словаря (Русский язык, 2003 г.). Часть ошибок была выявлена автоматически путем сравнения с морфологическим словарем системы «Dialing». Ударения проверялись по электронным вариантам Орфографического словаря под ред. В. В. Лопатина и Словаря ударений (имена нарицательные) М. В. Зарва.
Поскольку синтез лемм с аномальным словоизменением (ребёнок – мн. дети, быть – 1 л. ед. есть и т. п.; в словаре Зализняка таких лемм ~1200) порождает несуществующие словоформы, мы использовали морфологический словарь Dialing для того, чтобы их отсеять. Наибольшей селекции подверглись местоимения (1.6%) и причастия (0.3%); в остальных частях речи доля неправильно синтезированных форм не превысила 0.1%.
Мы также добавили ~400 новых лемм из 4-го издания (в основном, прилагательные).
Поскольку словарь Зализняка имееет нормативную ориентацию (ГСЗ, стр. 9), в нем весьма ограниченно представлены пары существительных ср. рода на -ие/-ье и жен. рода на -ия/-ья. Мы попытались восполнить этот пробел, автоматически породив дополнительные варианты лемм к уже имеющимся существительным такого типа. Например,
| счастье с 6*a | ⇒ | счастие с 7a |
| баталия ж 7a | ⇒ | баталья ж 6*a |
Оказалось, что все новообразованные леммы на -ия не употребляются в русском языке (бегуния, гостия), а леммы на -ья имеют разговорно-пренебрежительную окраску (географья, оказья). Было решено в словарь их не включать.
В отличие от существительных женского рода вариативность на -ие/-ье – весьма распространенное явление. Варианты существительных на -ие принадлежат высокому, как правило, архаичному стилю, в то время как варианты на -ье широко используются в разговорной речи. Однако на их образование наложены некоторые фонетические ограничения. А именно, вариант образуется с затруднением
Отбросив все фонетически дефектные варианты, мы добавили в словарь ~3500 новых лемм на -ье и ~200 лемм на -ие.
Поиск рифм в словаре ведется только среди слов, клаузулы которых имеют то же количество слогов и ту же ударную фонему, что и у шаблонного слова (гонять – гнать [а] в отличие от гнуть – гнать).
Качество рифмовки 2-х слов оценивается фонетическим сравнением их клаузул и предударного звука. Графическая запись слова переводится в фонетическую транскрипцию на основе правил произношения и Орфоэпического словаря, входящего в состав Rhymes. Так, например, к слову браться находится точная рифма братца (род. п. от братец). Основные типы фонетических различий наделены некоторыми весами. Собственно качество рифмовки оценивается штрафом – суммой реализаций этих весов. Чем выше штраф, тем хуже рифма. Точная рифма соответствует штрафу = 0.
Без модуля морфологического синтеза, который был любезно предоставлен Максимом Ушаковым, этот проект наврядли получил бы продолжение. Автор также выражает глубокую признательность Борису Смилге и Сергею Анатольевичу Старостину за электронный вариант Грамматического словаря Зализняка, Сергею Шарову и Сергею Слепову за варианты частотных словарей. Отдельная благодарность команде проекта AOT – Алексею Сокирко, Дмитрию Панкратову, принимавшим активное участие в сравнении морфологий Зализняка и Dialing.