Сводный исторический словарь русского языка XVIII–XX вв.
• разметка словарной статьи на зоны • возможность поиска по этим зонам Источники
• САР-2 = Словарь Академии Российской, по азбучному порядку расположенный (1806–1822) • СЦРЯ = Словарь церковнославянского и русского языка (1847) • Рейф = Новые параллельные словари... Ч. 1: Русский словарь (1860) • Даль = Толковый словарь живого великорусского языка (1880–1882) • Ушаков = Толковый словарь русского языка (1935–1940) • МАС = Словарь современного русского литературного языка (1950–1965) Форматы (скан → текст → база данных)
Другие имеют текст, но нет разметки.
Возможности
• искать статьи по заголовочному слову • искать статьи по грамматическим и др. пометам • искать текст в зоне толкований, примеров и т.д.
• отслеживать словарную фиксацию слова во времени • наблюдать филиацию значений • регистрировать совпадения и различия в дефинициях • видеть динамику изменения стилистических характеристик Словарные сервисы Нет поиска по зонам
Многие словари имеют разметку по зонам. Структура словарной статьи
2) грамматические пометы (часть речи, род, вид, переходность) 3) стилистические пометы (устар., простореч., церк.) 4) этимология (иногда) 5) толкование (обычно несколько значений) 6) примеры употребления (для каждого значения), иногда плюс источник
Словарная статья имеет иерархическую структуру:
НО́ВЫЙ, ая, ое, – но́въ, нова̀, но́во, пр. 1) Недавно сдѣланный, недавно произшедшій или недавно случившійся. Дома новы, но предразсудки стары. Грибоѣд. Новое платье. Новое изобрѣтеніе. Новый порядокъ. 2) Непривычный, неопытный. Онъ человѣкъ новый въ этой должности. 3) Небывалый. Да, батюшка, съ тѣхъ поръ дороги, тротуары, Это дѣло для меня еще новое. 4) Вновь возраждающійся, или прозябающій въ опредѣленное время. Новая рожь. Новые плоды. Новыя яблоки. 5) Вновь опредѣленный, или пожалованный. Новый директоръ. Новый кавалеръ.– Новый Адамъ. Церк. Названіе Господа нашего Іисуса Христа.– Новый человѣкъ. Новая тварь. Церк. Христіанинъ, возрожденный благодатію. Облещися въ новаго человѣка. Ефес. IV. 24.– Новый самодержецъ. Самодержецъ, недавно вступившій на престолъ. Новый самодержецъ, провождаемый боярами, обходилъ всѣ главныя церкви Кремлевскія. И. Г. Р. XI. 11.– Новый завѣтъ. Книга, содержащая въ себѣ евангеліе, дѣянія и посланія апостольскія, также откровеніе св. Іоанна Богослова.– Новый міръ. Новый свѣтъ. Часть земнаго шара, открытая въ концѣ XV столѣтія: Америка.– Новый мѣсяцъ. Серповидная луна; видъ, который луна имѣетъ послѣ новолунія.– Новый стиль. Новое счисленіе времени, установленное Папою Григоріемъ XIII въ 1582 году.– Новое лѣто. Стар. Новый годъ, до 1700 года начинавшійся съ перваго Сентября. Послѣ вечерни патріарху обличеніе бываетъ къ молебну, а поютъ канонъ новому лѣту. Древн. Вивл. X. 1.– Новый годъ. Вновь наступившій годъ. НО́ВЫЙ, ая, ое, – но́въ, нова̀, но́во, пр. 1) 2) 3) Да, батюшка, съ тѣхъ поръ дороги, тротуары, 4) 5) Новый Адамъ. Церк. Новый человѣкъ. Новая тварь. Церк. Новый самодержецъ. Новый завѣтъ. Новый міръ. Новый свѣтъ. Новый мѣсяцъ. Новый стиль. Новое лѣто. Стар. Новый годъ. ДУША̀, ѝ, с. ж. 1) Горѣли звѣзды; но въ моей душѣ 2) Церк. 3) 4) * 5) 6) 7) 8) 9) То академикъ, то герой, 10) Родовыя души. Будь плохонькой, да если наберется Ревижская душа. Душу стяжати въ терпѣніи, Церк. зн. Искати чью либо душу, Церк. зн. Положить за кого либо душу, зн. Отдать Богу душу, зн. Отвести душу, зн. Отпустить душу на покаянье, зн. Жить душа въ душу, зн. На душѣ мутитъ. Съ души тянетъ, зн. Лежитъ на душѣ, зн. а) Замираетъ, замерла душа, зн. Однако нѣтъ, теперь ужъ не до смѣха, Покривить душею, зн. Отдать на душу, зн. Брать на душу, зн. Радъ душей, зн. Въ душу нейдетъ. Душа не принимаетъ, зн. Чуть держится душа, зн. Безъ души, зн. .......... Я безъ души Безъ души стать. Безъ души сдѣлаться, зн. Бѣжать безъ души, зн. Отъ души, зн. По душѣ, зн. Не по душѣ, зн. Унификация словарной информации
• орфография • лемма • грамматические пометы • структура статьи
Орѳографія 1) буквы і, ѣ, ѳ, ѵ → и, е, ф, и 2) конечный -ъ → ноль 3) -аго, -яго, -ыя, -ія 4) ея, онѣ, однѣ, однѣхъ 5) без-, воз-, из-, низ-, раз-, через- + глухія 6) -ье (вниманье, занятье) 7) -ію (милостію) 8) -ѣй (скорѣй), -яе (скоряе) 9) -ся (валюся, валилася) 10) дѣепричастія сов. вида (придя, увидя, взгромоздясь) 11) е/o послѣ шипящихъ и ц (лице, значекъ, чортъ) 12) слитно/раздѣльно/дефисно (то-есть, повидимому, кто нибудь) 14) ударное -ый/-ій (больны́й, босы́й, водяны́й, глухі́й, другі́й, слѣпы́й) 14б) безударное -ой/-ей (волчей корень, бобръ камчацкой) 15) приставка з- + звонкие (збавить, зберечь, збирать, згинуть, здавать) 15б) приставки на -з + глухие (возприять, возходь, изкони, изкушать, източникъ, изчезать, изходъ, разкаяться, разтворить)
1) -ти (благодѣ́яти) 2) -ши (благодѣ́еши) Лемматизатор для дореформенной орфографии Лемма
Грамматические пометы Даются в стандарте НКРЯ – http://ruscorpora.ru/ N,f,inan = сущ, жен, неод V,pf,tr = глагол, сов, перех
Структура статьи
Заголовок статьи может включать: 1) дублеты – архиварій=архиваріусъ, безлюдіе=безлюдье, велблюдъ=верблюдъ 2) близкородственные слова –
агнецъ, агнчикъ, агница;
Sphinxsearch Система полнотекстового поиска (ср. Lucene, Xapian, Yandex).
1) поиск в текстах с HTML-образной разметкой 2) зоны поиска при помощи произвольных тегов (<sem>, <sample>) 3) таблица преобразования символов для индексатора 4) морфологический анализ для русского и др. языков 5) пользовательский словарь для морфологического анализа 6) поиск точных форм (=слово) 7) контекстный поиск ("точная фраза", расстояние, порядок, или, нет) Таблица преобразования символов
Работает лемматизатор для современного русского.
1) Конечный Ъ,ъ заменяется на символ U+048c, U+048d (semisoft sign), 2) Составные буквы (ѯ, ѱ, ѿ) заменяются на диграфы (кс, пс, от) с потерей информации.
Это не для словарей, а для церковнославянского корпуса: Старые флексии и формы
Результаты
• САР-1 = 45.6 тыс. статей, 3200 подстатей, 63 тыс. слов и словосочетаний, 7.3 млн. символов • СЦРЯ = 113 тыс. статей, 5600 подстатей, 120 тыс. слов и словосочетаний, 10.8 млн. символов
Разработана технология разметки и унификации словарной информации для разных источников. Направления дальнейшей работы
САР-2 – проверены и частично размечены тома 1–4. САР-1 для проверки. МАС, Ушаков есть в словарном разделе ФЭБ).
Разделить главное слово vs. производное vs. фразеологизм. Ввести грамматические пометы для произодных и фразеологизмов:
САР-1 леммы не полностью нормализованы, что затрудняет поиск. Парсер старой орфографии для нормализации лемм к современному написанию.
Тексты словарей содержат массу формальных ошибок (курсив, жирность). Верификация и исправление ошибок, чтобы ускорить разметку зон. |