Слова (леммы)101 758
Словоформы3 815 920
Клаузулы210 417

Большой словарь рифм

Состав словаря

Основная компонента Rhymesсловарь рифм – был создан на основе Грамматического словаря русского языка А. А. Зализняка, который содержит базовые словоформы ~100 тыс. слов с полным морфологическим описанием (в том числе схемами ударений).

Для синтеза всех акцентуированных словоформ использовался морфологический модуль, изначально разработанный Максимом Ушаковым. Этот модуль качественно образует парадигмы с регулярной морфологией, но к сожалению, пока не поддерживает синтез исключений (например, личных местоимений и количественных числительных). В том случае, когда модуль не мог построить парадигму, в словарь добавлялась только базовая словоформа. Предположительные и затруднительные в образовании словоформы (например, ед. число краткой формы прилагательных на -ский, множ. число от дно и т. п.) в словарь не включались (см. ГСЗ, стр. 8).

Затем каждая словоформа расщеплялась на предударную часть (префикс) и клаузулу, и формировались списки уникальных клаузул и префиксов.

Для каждой словоформы в словаре хранится информация о части речи. Для краткости определены следующие части речи: существительные (сущ.), прилагательные (прил.), местоимения (мест.), глаголы (глаг.), причастия (прич.), деепричастия (деепр.), числительные (числ.), наречия (нареч.) и служебные (служ.).

Наречия в словаре Зализняка представлены очень выборочно, поскольку большую долю составляют наречные прилагательные (темно, легко, красиво и т. п.). Мы продублировали ~900 кратких форм прилагательных в классе наречий.

Различные способы сортировки списка рифм (табличный вид):
1. по частотности, 2. по алфавиту (без группировки), 3. инверсионный алфавитный порядок.

Были исправлены множественные ошибки электронного варианта 3-го изд. словаря Зализняка (из лингвистической системы С. А. Старостина «Starling»). Сверка производилась по новому 4-му изданию словаря (Русский язык, 2003 г.). Часть ошибок была выявлена автоматически путем сравнения с морфологическим словарем системы «Dialing». Ударения проверялись по электронным вариантам Орфографического словаря под ред. В. В. Лопатина и Словаря ударений (имена нарицательные) М. В. Зарва.

Поскольку синтез лемм с аномальным словоизменением (ребёнокмн. дети, быть1 л. ед. есть и т. п.; в словаре Зализняка таких лемм ~1200) порождает несуществующие словоформы, мы использовали морфологический словарь Dialing для того, чтобы их отсеять. Наибольшей селекции подверглись местоимения (1.6%) и причастия (0.3%); в остальных частях речи доля неправильно синтезированных форм не превысила 0.1%.

Мы также добавили ~400 новых лемм из 4-го издания (в основном, прилагательные).

Вариативные окончания у существительных на -ие/-ье

Поскольку словарь Зализняка имееет нормативную ориентацию (ГСЗ, стр. 9), в нем весьма ограниченно представлены пары существительных ср. рода на -ие/-ье и жен. рода на -ия/-ья. Мы попытались восполнить этот пробел, автоматически породив дополнительные варианты лемм к уже имеющимся существительным такого типа. Например,

счастье с 6*a счастие с 7a
баталия ж 7a баталья ж 6*a

Оказалось, что все новообразованные леммы на -ия не употребляются в русском языке (бегуния, гостия), а леммы на -ья имеют разговорно-пренебрежительную окраску (географья, оказья). Было решено в словарь их не включать.

В отличие от существительных женского рода вариативность на -ие/-ье – весьма распространенное явление. Варианты существительных на -ие принадлежат высокому, как правило, архаичному стилю, в то время как варианты на -ье широко используются в разговорной речи. Однако на их образование наложены некоторые фонетические ограничения. А именно, вариант образуется с затруднением

Отбросив все фонетически дефектные варианты, мы добавили в словарь ~3500 новых лемм на -ье и ~200 лемм на -ие.

Критерии качества рифмовки

Поиск рифм в словаре ведется только среди слов, клаузулы которых имеют то же количество слогов и ту же ударную фонему, что и у шаблонного слова (гонять – гнать [а] в отличие от гнуть – гнать).

Качество рифмовки 2-х слов оценивается фонетическим сравнением их клаузул и предударного звука. Графическая запись слова переводится в фонетическую транскрипцию на основе правил произношения и Орфоэпического словаря, входящего в состав Rhymes. Так, например, к слову браться находится точная рифма братца (род. п. от братец). Основные типы фонетических различий наделены некоторыми весами. Собственно качество рифмовки оценивается штрафом – суммой реализаций этих весов. Чем выше штраф, тем хуже рифма. Точная рифма соответствует штрафу = 0.

Благодарности

Без модуля морфологического синтеза, который был любезно предоставлен Максимом Ушаковым, этот проект наврядли получил бы продолжение. Автор также выражает глубокую признательность Борису Смилге и Сергею Анатольевичу Старостину за электронный вариант Грамматического словаря Зализняка, Сергею Шарову и Сергею Слепову за варианты частотных словарей. Отдельная благодарность команде проекта AOT – Алексею Сокирко, Дмитрию Панкратову, принимавшим активное участие в сравнении морфологий Зализняка и Dialing.