publications
publications by categories in reversed chronological order.
2025
- Параллельный корпус переводов «Слова о полку Игореве» как проектБорис ОреховЦифровые гуманитарные исследования, 2025
В статье описывается предпосылки и история филологического цифрового проекта, поддерживаемого уже более 15 лет. В его основе лежала идея сравнения переводов «Слова о полку Игореве», самого переводимого на русский язык произведения мировой литературы. Однако по мере складывания практик использования ресурса, стало очевидно, что он востребован у пользователей только как библиотека текстов. Корпус действительно содержит множество оцифрованных (иногда даже редких) произведений переводческого искусства. В процессе разработки проекта пришлось отказаться от ряда технических решений, таких, как автоматическое и полуавтоматическое выравнивание. Несмотря на цифровой статус, ручного труда на создание корпуса употреблено больше, чем применения технологий.
@article{orekhov2025spi, title = {Параллельный корпус переводов «Слова о полку Игореве» как проект}, author = {Орехов, Борис}, journal = {Цифровые гуманитарные исследования}, number = {1}, pages = {60--69}, year = {2025}, }
- OUPDigital Humanities and Literary RealismDaniil Skorinkin and Boris OrekhovIn The Oxford Handbook of Global Realisms, Nov 2025
This chapter investigates literary prose of the realist era in Russia using digital humanities methods. It focuses on how computational analysis can enhance an understanding of descriptions of literary characters, geographical locations, and lexical composition in literary texts. Using a corpus of more than five hundred texts (forty-six million word occurrences), it eschews the focus on individual writers and puts Russian realism within the broader context of nineteenth-century Russian literature. The authors employed word embeddings and vector semantics to analyze character descriptions in realist literature. The results indicated that the “typical” aspects of literary characters often overshadowed their individuality, reflecting the realist focus on common human experiences. The study utilized geocoding techniques to map mentions of geographical locations within the texts. This analysis showed that realist literature turned from portraying historical (and largely mythical) settings of Muscovite Rus’, Poland, Ukraine, and the Baltics to the then-new capital Saint Petersburg, to western Europe, and to the “new” eastern and southern peripheries of the Russian Empire as it continued to expand. With the help of a contrastive corpus analysis approach the authors examined the general lexical composition of the texts. This analysis showed that realist prose diverges from its romantic predecessor in its higher degree of dialogism, focusing more attention on depictions of everyday life, and in more explicit portrayal of thought, conscience, and human experience. However, it also showed that the poetry of the realist era did not undergo the same transition and maintained much of the romantic aesthetics, remaining a refuge for more conservative genres.
@incollection{Skorinkin2025dh, author = {Skorinkin, Daniil and Orekhov, Boris}, isbn = {9780197610640}, title = {Digital Humanities and Literary Realism}, booktitle = {The Oxford Handbook of Global Realisms}, publisher = {Oxford University Press}, year = {2025}, month = nov, doi = {10.1093/oxfordhb/9780197610640.013.40}, url = {https://doi.org/10.1093/oxfordhb/9780197610640.013.40}, }
2024
- Русская филологияАйзек Азимов и Лев Толстой: история, математика и другие параллели в осмыслении прошлого и будущегоБорис ОреховРусская филология. Ученые записки Смоленского государственного университета, Nov 2024
В статье демонстрируются параллели между «Войной и миром» и циклом романов Айзека Азимова об Основании. Само внимание американского классика к роману-эпопее могло быть вызвано тем, что у Толстого много места посвящено битве за Смоленск в 1812 году, а Азимов связывал родную для себя смоленскую землю именно с нашествием Наполеона. Азимову в частности и фантастике вообще в специальной литературе в указанном аспекте посвящено не так много места в силу иерархичности мышления литературоведов, хотя в публицистике и нелитературоведческих публикациях об Азимове пишут много. И Толстой, и Азимов увлечены идеей математического описания истории. В цикле романов Азимова экспозиция показывает нам гениального математика, способного рассчитать дальнейший ход развития и гибели галактической империи, а у Толстого мы видим множество рассуждений о том, какой формулой моожно предсказать результат исторически значимого военного сражения. Для Азимова сюжетно и декларативно важна идея невмешательства в историю; кризисы, через которые проходит основанная на окраине галактики колония ученых, проходят наиболее успешно для тех, кто предпринимает как можно меньше насильственных действий. Такие же советы дает своим читателям и Толстой на примере Кутузова на Бородинском поле. Еще одна аналогия – образ Наполеона у Толстого и Мула у Азимова, оба неестественные, «ошибочные», но при этом амбициозные провайдеры экспансии. У них в изображении писателей обнаруживаются сходные стратегии обращения с противниками, которые в иоге становятся их сторонниками.
@article{orekhov2024azimov, title = {Айзек Азимов и Лев Толстой: история, математика и другие параллели в осмыслении прошлого и будущего}, author = {Орехов, Борис}, journal = {Русская филология. Ученые записки Смоленского государственного университета}, address = {Смоленск}, number = {24}, pages = {245--251}, year = {2024}, publisher = {СмолГУ}, }
- ВЯНациональный корпус русского языка 2.0: новые возможности и перспективы развитияСветлана Олеговна Савчук, Тимофей Александрович Архангельский, Анастасия Александровна Бонч-Осмоловская, and 5 more authorsВопросы языкознания, Nov 2024
В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020–2023 гг. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ярких новых компонента: ресурсный—новый корпус «Социальные сети», поисковый—Панхронический корпус, объединяющий поиск по корпусам разных периодов, и аналитический—функциональный комплекс статистики и визуализации данных.
@article{RNC2024National_2.0, title = {Национальный корпус русского языка 2.0: новые возможности и перспективы развития}, author = {Савчук, Светлана Олеговна and Архангельский, Тимофей Александрович and Бонч-Осмоловская, Анастасия Александровна and Донина, Ольга Валерьевна and Кузнецова, Юлия Николаевна and Ляшевская, Ольга Николаевна and Орехов, Борис Валерьевич and Подрядчикова, Мария Владимировна}, journal = {Вопросы языкознания}, issue = {2}, pages = {7--34}, year = {2024}, publisher = {Наука}, doi = {10.31857/0373-658X.2024.2.7-34}, url = {https://vja.ruslang.ru/ru/archive/2024-2/7-34}, dimensions = {true}, }
- Будь в курсеПарадоксы парадигмы: проблемы и решения в организации учебной программы по Digital HumanitiesБорис ОреховNov 2024
@inbook{orekhov2024paradoxes, author = {Орехов, Борис}, title = {Парадоксы парадигмы: проблемы и решения в организации учебной программы по Digital Humanities}, chapter = {2}, pages = {18--25}, year = {2024}, publisher = {Сиб. федер. ун-т}, address = {Красноярск}, }
- Нестиховедческий ритм в романе Н. Г. Чернышевского «Что делать?»Борис ОреховЦифровые гуманитарные исследования, Nov 2024
Несмотря на неоднозначную репутацию, самый знаменитый роман Чернышевского нуждается в исследовании поэтики. В статье предлагается анализ самого заметного при чтении плана – ритмического. Он настойчиво задается автором при помощи разнообразных языковых средств, и именно цифровой подход позволяет оценить масштаб применения этого приема.
@article{orekhov2024rhythm, title = {Нестиховедческий ритм в романе Н. Г. Чернышевского «Что делать?»}, author = {Орехов, Борис}, journal = {Цифровые гуманитарные исследования}, number = {1}, pages = {34--44}, year = {2024}, }
- Digital Humanities в России и конец историиБорис Орехов and Андрей ВолодинЦифровые гуманитарные исследования, Nov 2024
В статье в полемике с текстом Д. Скоринкина рисуется история отечественных цифровых исследований в литературоведении и исторической науке. Демонстрируется, что традиция применения точных методов глубока, не заканчивается и не может внезапно закончиться за пару лет. История применения цифровых методов в гуманитарном поле предстает как постепенное проникновение в эту область компьютерных технологий, которые, однажды закрепившись, остаются в этой сфере навсегда.
@article{orekhov2024history, title = {Digital Humanities в России и конец истории}, author = {Орехов, Борис and Володин, Андрей}, journal = {Цифровые гуманитарные исследования}, number = {1}, pages = {63--85}, year = {2024}, }
- Слово.руИстория стиховедения и формализмБорис ОреховСлово.ру: балтийский акцент, Nov 2024
Ядерная идея формализма в том, что литература не является простой функцией психологии или социальной теории и не может быть объяснена с помощью аппарата этих наук. Можно сказать, что стиховедение едва ли не единственная филологическая субдисциплина, которая сумела сохранить основную идею формализма, объясняя стиховедческие факты стиховедчески, а не экономически, социологически или психологически. Именно так, не прибегая к редукционизму, но выстраивая свою концепцию истории культуры как череды кризисов и их разрешений, действует в статье об истории русской рифмы М.Л. Гаспаров. М.И. Шапир в известной работе об эволюции русского четырехстопного ямба специально подчеркивает необычность применяемого им хода — объяснения стиховедческого факта с помощью исторически зафиксированных социально значимых событий. Стиховедение более всех остальных литературоведческих направлений сохраняет герметичность, предполагающую объяснение литературных данных через литературные обстоятельства. То, как литература оказывается в ситуации необходимости отстаивать свою обособленность от других наук, напоминает положение, в котором оказались в свое время социология и лингвистика, борьбу за отделенность которых от психологии вели Дюркгейм и Соссюр. В новейшее время под методологию формалистов пытался мимикрировать Франко Моретти, который при этом все же отстаивал ценности методологически враждебного лагеря, предполагающего, что литературные факты можно объяснять, используя логику социальных наук.
@article{orekhov2024formalism, title = {История стиховедения и формализм}, author = {Орехов, Борис}, journal = {Слово.ру: балтийский акцент}, volume = {15}, number = {4}, pages = {147--157}, year = {2024}, doi = {10.5922/2225-5346-2024-4-10}, }
- Язык Л. Н. Толстого: корпусный подход и интроспекцияБорис ОреховТруды Института русского языка им. В. В. Виноградова, Nov 2024
В середине XX в. внимательный читатель и ценитель русской литературы Александр Биск, находившийся в тот момент в эмиграции, публикует статью в журнале, специализирующемся на проблемах преподавания русского языка для иностранцев. В этой статье он делится результатами медленного чтения произведений Л. Н. Толстого, прежде всего, романа «Война и мир». Опираясь на собственные представления о языковой норме и личные стандарты художественного вкуса, Биск обобщает наблюдения над особенностями стиля Толстого, отличающими его от других авторов первого ряда. Он отмечает стремление Толстого дистанцироваться от языковых штампов, полагает индивидуализированными некоторые обороты вроде «строить инструменты», «вступиться в разговор», обращает внимание на нетипичные для языка возвратные формы некоторых глаголов. Достоинством этой статьи является ее проверяемость. А. Биск представляет наблюдения над языком Толстого как череду примеров, не характерных для других авторов. Особое внимание Биск уделяет противопоставлению писателей первого ряда и писателей второго ряда. При том что Толстой принадлежит к первым, его язык кажется Биску больше похожим на язык вторых. Проверка по корпусу не подтверждает большинства высказанных Биском положений. Практически все найденные им словоупотребления встречаются и в языке современников Толстого, и в текстах писателей первого ряда.
@article{orekhov2024lnt, title = {Язык Л. Н. Толстого: корпусный подход и интроспекция}, author = {Орехов, Борис}, journal = {Труды Института русского языка им. В. В. Виноградова}, number = {1}, pages = {67--73}, year = {2024}, doi = {10.31912/pvrli-2024.1.7}, }
- PreprintYou shall know a piece by the company it keeps. Chess plays as a data for word2vec modelsBoris OrekhovJul 2024
In this paper, I apply linguistic methods of analysis to non-linguistic data, chess plays, metaphorically equating one with the other and seeking analogies. Chess game notations are also a kind of text, and one can consider the records of moves or positions of pieces as words and statements in a certain language. In this article I show how word embeddings (word2vec) can work on chess game texts instead of natural language texts. I don’t see how this representation of chess data can be used productively. It’s unlikely that these vector models will help engines or people choose the best move. But in a purely academic sense, it’s clear that such methods of information representation capture something important about the very nature of the game, which doesn’t necessarily lead to a win.
@misc{orekhov2024shallknowpiececompany, title = {You shall know a piece by the company it keeps. Chess plays as a data for word2vec models}, author = {Orekhov, Boris}, year = {2024}, month = jul, eprint = {2407.19600}, archiveprefix = {arXiv}, primaryclass = {cs.CL}, url = {https://arxiv.org/abs/2407.19600}, }
- PreprintHow does Burrows’ Delta work on medieval Chinese poetic texts?Boris OrekhovJul 2024
Burrows’ Delta was introduced in 2002 and has proven to be an effective tool for author attribution. Despite the fact that these are different languages, they mostly belong to the same grammatical type and use the same graphic principle to convey speech in writing: a phonemic alphabet with word separation using spaces. The question I want to address in this article is how well this attribution method works with texts in a language with a different grammatical structure and a script based on different principles. There are fewer studies analyzing the effectiveness of the Delta method on Chinese texts than on texts in European languages. I believe that such a low level of attention to Delta from sinologists is due to the structure of the scientific field dedicated to medieval Chinese poetry. Clustering based on intertextual distances worked flawlessly. Delta produced results where clustering showed that the samples of one author were most similar to each other, and Delta never confused different poets. Despite the fact that I used an unconventional approach and applied the Delta method to a language poorly suited for it, the method demonstrated its effectiveness. Tang dynasty poets are correctly identified using Delta, and the empirical pattern observed for authors writing in European standard languages has been confirmed once again.
@misc{orekhov2024doesburrowsdeltawork, title = {How does Burrows' Delta work on medieval Chinese poetic texts?}, author = {Orekhov, Boris}, year = {2024}, month = jul, eprint = {2407.08099}, archiveprefix = {arXiv}, primaryclass = {cs.CL}, url = {https://arxiv.org/abs/2407.08099}, }
- PreprintDoes Burrows’ Delta really confirm that Rowling and Galbraith are the same author?Boris OrekhovJul 2024
The stylo package includes a frequency table that can be used to calculate distances between texts and thus independently solve the problem of attribution of The Cuckoo’s Calling, a novel that J.K. Rowling said she wrote. However, the set of texts for this table is very vulnerable to criticism. The authors there are not modern, they wrote in a different genre. I set out to test the performance of the method on texts that are more relevant to the research question.
@misc{orekhov2024doesburrowsdeltareally, title = {Does Burrows' Delta really confirm that Rowling and Galbraith are the same author?}, author = {Orekhov, Boris}, year = {2024}, month = jul, eprint = {2407.10301}, archiveprefix = {arXiv}, primaryclass = {cs.CL}, url = {https://arxiv.org/abs/2407.10301}, }
2023
- Terra LinguisticaИндивидуальная семантика Л. Н. Толстого в свете векторных моделейБорис ОреховTerra Linguistica, Jul 2023
Статья представляет цифровой подход к установлению особенностей индивидуальной семантики Л.Н. Толстого с помощью векторно-семантических моделей. Сравнение данных таких моделей позволяет отразить особенности индивидуальной авторской семантики. На лемматизированных текстах Толстого с помощью программного модуля gensim было построено две модели. Одна из них сравнивалась с уже имеющейся моделью с сайта rusvectores. Особенное внимание в статье уделено лексемам «любовь» и «поле». Для первого установлена значимая в контексте мировоззрения писателя оппозиция истинной и неистинной любви, последняя выражается нейтральными для русского языка (но не для языка Толстого) словами «боготворить» и «обожать». Лексема «поле» против ожиданий выражает не батальный, а аграрный и пейзажный смысл. При сравнении векторов слов идиостиля Толстого и «Национального корпуса русского языка» оказалось возможным выявить те лексемы, которые в наименьшей степени отличаются по семантике в языке и идиостиле. К таким принадлежат, например, слова «социалист» и «таинство». Метод оказывается перспективным для дополнения традиционных лексикографических практик.
@article{orekhov2023lnt, title = {Индивидуальная семантика Л. Н. Толстого в свете векторных моделей}, author = {Орехов, Борис}, journal = {Terra Linguistica}, volume = {14}, number = {4}, pages = {119--129}, year = {2023}, doi = {10.18721/JHSS.14409}, url = {https://elib.spbstu.ru/dl/2/j24-37.pdf/info}, }
- DSHHacking stylometry with multiple voices: Imaginary writers can override authorial signal in DeltaDaniil Skorinkin and Boris OrekhovDigital Scholarship in the Humanities, Apr 2023
It is a basic assumption of stylometry that texts written by the same person show greater stylometric similarity even if published under multiple pennames. Statistical authorship attribution strongly relies on the ability of Burrows’s Delta and its variants to cluster one author together regardless of pseudonyms. At the same time, the very first computational discoveries by the founder of modern stylometry showed that a single author is capable of producing multiple voices (Burrows, 1987, Computation into Criticism: A Study of Jane Austen’s Novels and an Experiment in Method. Clarendon Press). We investigate two authors whose stylistically autonomous pennames seem to deceive Delta and override authorial signals: a Portuguese poet Fernando Pessoa and a French novelist Romain Gary. Pessoa managed to create at least three pennames (the author himself used the term ‘heteronym’) who exhibit all traits of individual human beings from the stylometric point of view. Gary’s alter ego Emile Ajar, who was an intentional literary mystification, also demonstrates traits of stylometric autonomy. At the same time, other pseudonyms used by Gary lack that autonomy completely. Our investigation shows that there appears to be a continuum between a purely formal use of a penname, which brings almost no distinction from the real name of an author, and a strong literary sub-personality such as those created by Pessoa.
@article{skorinkin2023hacking, author = {Skorinkin, Daniil and Orekhov, Boris}, title = {Hacking stylometry with multiple voices: Imaginary writers can override authorial signal in Delta}, journal = {Digital Scholarship in the Humanities}, volume = {38}, number = {3}, pages = {1247--1266}, year = {2023}, month = apr, issn = {2055-7671}, doi = {10.1093/llc/fqad012}, url = {https://doi.org/10.1093/llc/fqad012}, dimensions = {true}, }
- PreprintIdentifying the style by a qualified reader on a short fragment of generated poetryBoris OrekhovJun 2023
Style is an important concept in today’s challenges in natural language generating. After the success in the field of image style transfer, the task of text style transfer became actual and attractive. Researchers are also interested in the tasks of style reproducing in generation of the poetic text. Evaluation of style reproducing in natural poetry generation remains a problem. I used 3 character-based LSTM-models to work with style reproducing assessment. All three models were trained on the corpus of texts by famous Russian-speaking poets. Samples were shown to the assessors and 4 answer options were offered, the style of which poet this sample reproduces. In addition, the assessors were asked how well they were familiar with the work of the poet they had named. Students studying history of literature were the assessors, 94 answers were received. It has appeared that accuracy of definition of style increases if the assessor can quote the poet by heart. Each model showed at least 0.7 macro-average accuracy. The experiment showed that it is better to involve a professional rather than a naive reader in the evaluation of style in the tasks of poetry generation, while lstm models are good at reproducing the style of Russian poets even on a limited training corpus.
@misc{orekhov2023identifyingstylequalifiedreader, title = {Identifying the style by a qualified reader on a short fragment of generated poetry}, author = {Orekhov, Boris}, year = {2023}, month = jun, eprint = {2306.02771}, archiveprefix = {arXiv}, primaryclass = {cs.CL}, url = {https://arxiv.org/abs/2306.02771}, }
- SlovĕneКак «толстый» журнал изменил заглавия русских романов: эволюция 2000 заглавий (1763–1917)Дарья Челнокова, Алексей Вдовин, and Борис ОреховSlovĕne, Jun 2023
На материале датасета из 2036 заглавий русских романов с 1763 по 1917 г. в статье ставится вопрос об эволюции средней длины заглавия за 150 лет истории оригинальных (не переводных) романов. В отличие от британских романов, в которых заглавия, согласно гипотезе Ф. Моретти, укорачивались в результате рыночной конкуренции, заглавия российских романов начиная с 1840-х гг. становились короче в первую очередь за счет влияния толстого журнала как особой культурной формы и институциональной рамки. Ведущие российские критики, обладавшие большим авторитетом, задавали тренд на короткие и более символически нагруженные заглавия, дискредитируя архаичные и длинные названия, характерные для жанров авантюрно-плутовских романов. Кроме того, оказалось, что укорачивание заглавий повлекло за собой изменение в соотношении элементов: дополнительная метатекстуальная информация (аннотация, жанр, автор) с 1830‑х гг. почти полностью ушла из заглавия в подзаглавие, вследствие чего заглавия приобрели особый художественный статус и большую смысловую значимость.
@article{2023, title = {Как «толстый» журнал изменил заглавия русских романов: эволюция 2000 заглавий (1763–1917)}, volume = {12}, issn = {2305-6754}, url = {http://dx.doi.org/10.31168/2305-6754.2023.2.07}, doi = {10.31168/2305-6754.2023.2.07}, number = {2}, journal = {Slovĕne}, publisher = {Institute of Slavic Studies of the Russian Academy of Sciences}, author = {Челнокова, Дарья and Вдовин, Алексей and Орехов, Борис}, year = {2023}, pages = {143--167}, }
- Историческая информатикаТекст и знание в аспекте больших языковых моделейБорис ОреховИсторическая, Apr 2023
В центре внимания этого текста – влияние больших языковых моделей на самоопределение гуманитарной науки. Большие языковые модели умеют порождать правдоподобные тексты. Кажется, что они, таким образом, становятся в один ряд с другими инструментами, которые на протяжении развития техники и технологий, избавляли человека от рутины. В то же время для гуманитарных наук очень велика индивидуализированность порождаемых текстов, и само знание оказывается тесным образом связано с его текстовым воплощением. В случае, если мы соглашаемся с тем, что знание – это текст, и воплощенное в другом тексте перед нами предстает уже иное знание, значит, гуманитарной науке придется ответить на вопрос, каким образом текст, порожденный человеком, ценностно отличается от такого же текста, порожденного машиной. В тексте работы ставятся методологические и эпистемологические проблемы соотношения текстов естественного и искусственного происхождения в том случае, если они выполнены в жанре научного произведения. Разница между такого рода артефактами ясно видна только для некоторых научных дисциплин, а в отношении остальных вызывает вопросы. Эти вопросы должны быть разрешены с помощью глубокой рефлексии, которая не так остро требовалась в последние века развития гуманитарной науки, но которая потребуется теперь от ученого-гуманитария. Гуманитарию придется эксплицитно противопоставить себя большим языковым моделям и доказать значимость его работы по сравнению с тем, что может сгенерировать нейросеть.
@article{Orekhov2023text, title = {Текст и знание в аспекте больших языковых моделей}, issn = {2585-7797}, url = {https://nbpublish.com/library_read_article.php?id=44180}, doi = {10.7256/2585-7797.2023.4.44180}, number = {4}, journal = {Историческая}, publisher = {Aurora Group, s.r.o}, author = {Орехов, Борис}, year = {2023}, month = apr, pages = {104--113} }
- Literatura“Reis melhor do que eu”: los heterónimos de Pessoa desde una perspectiva estilométricaBoris Orekhov and Daniil SkorinkinLiteratura: teoría, historia, crítica, Jul 2023
Tradicionalmente, la estilometría se ha utilizado para resolver problemas de atribución de autoría. Los métodos cuantitativos de atribución siguen siendo la última herramienta de los investigadores cuando no se dispone de pruebas documentales fiables. En los últimos veinte años, el método Delta, desarrollado por John F. Burrows, se ha impuesto como el principal método de atribución. En general, ha demostrado ser una forma bastante fiable de atribuir textos en casos controvertidos. Sin embargo, como muestra nuestra investigación, destaca el caso de Fernando Pessoa, quien produjo sus textos "en nombre" de identidades ficticias, comúnmente llamadas "heterónimos". Delta no identificó dichas obras como se esperaba, es decir, como textos pertenecientes a la pluma de una sola persona, Fernando Pessoa, sino como textos de diferentes autores. El artículo lleva a cabo una serie de experimentos para comprobar hasta qué punto Pessoa consigue confundir la valoración cuantitativa de autoría de sus textos poéticos. Los textos de Pessoa son examinados como un corpus independiente y con el trasfondo de la obra de otros poetas lusófonos. En todos los casos, las distancias entre los textos pertenecientes a los heterónimos de Pessoa son comparables a las distancias entre textos de autores diferentes, es decir, mucho mayores que las distancias entre los textos de un mismo autor.
@article{Orekhov2023reis, title = {“Reis melhor do que eu”: los heterónimos de Pessoa desde una perspectiva estilométrica}, volume = {25}, issn = {0123-5931}, url = {https://revistas.unal.edu.co/index.php/lthc/article/view/108682}, doi = {10.15446/lthc.v25n2.108682}, number = {2}, journal = {Literatura: teoría, historia, crítica}, publisher = {Universidad Nacional de Colombia}, author = {Orekhov, Boris and Skorinkin, Daniil}, year = {2023}, month = jul }
2022
- Метрическое и лексическое разнообразие в стихах А. А. ВознесенскогоБорис ОреховТруды Института русского языка им. В. В. Виноградова, Jul 2022
Статья представляет собой попытку оценить эволюцию поэтики А. А. Вознесенского по ряду формальных параметров, в число которых входит разнообразие используемых поэтом стихотворных размеров и разнообразие лексики в поэтическом словаре. Для вычисления разнообразия размеров используется традиционный для биологии индекс разнообразия Шеннона, а для оценки лексического разнообразия — метрики TTR и CTTR. В статье сопоставляются два периода творчества поэта — ранний, включающий тексты с начала 1950-х до начала 1970-х, и более поздний, с начала 1970-х до середины 1980-х. Эти два массива данных отличаются тем, что первый входит в поэтический корпус в составе НКРЯ и размечен вручную, а второй пока не размечен для корпуса и подвергся только автоматической обработке. Результаты исследования показывают, что в метрическом отношении Вознесенский является самым разнообразным среди основных поэтов своего поколения и, вероятно, одним из самых разнообразных поэтов «первого ряда». Лексическое разнообразие в целом коррелирует с метрическим, но этой тенденции противоречит размещенный в корпусе набор данных Есенина. Со второй половины 1970-х годов метрическое разнообразие Вознесенского снижается, но все еще остается высоким, и по этому показателю он превосходит Евтушенко и Пастернака. Снижается и лексическое разнообразие в его поэзии, но поэтический словарь существенно меняется и если под разнообразием понимать отличие от раннего творчества, то это разнообразие хорошо видно на полученных данных.
@article{orekhov2022vozn, title = {Метрическое и лексическое разнообразие в стихах А. А. Вознесенского}, author = {Орехов, Борис}, journal = {Труды Института русского языка им. В. В. Виноградова}, number = {3}, pages = {50--58}, year = {2022}, doi = {10.31912/pvrli-2022.3.4}, }
- ВестникБашкирский стих в системе сравнительного тюркского стиховеденияБорис ОреховВестник Северо-Восточного федерального университета им. М. К. Аммосова. Серия «Вопросы национальных литератур», Jul 2022
В статье рассматриваются основные свойства башкирского стихосложения, установленные статистическими методами, в сопоставлении с описаниями других тюркских систем стихосложения, созданными в течение XX в. Речь идет о неравносложных формах силлабики, наиболее распространенных метрах и особенностях ритма. Из сопоставления можно сделать вывод, что башкирская форма узун-кюй имеет уникальный характер и не встречается в других тюркских поэтических традициях (за исключением татарской). Так же необычна для поэзии на других тюркских языках частотность башкирского 9-сложника. Общей чертой для разных тюркских систем стихосложение является предпочтение 8-сложника, который часто фигурирует в тексте вместе с 7-сложником, что оформляется в башкирской поэзии в виде формыкыска-кюй. Чтобы сделать вывод о том, распространяются ли на другие тюркские поэтические традиции особенности башкирского ритма, у нас по-прежнему недостаточно данных.
@article{orekhov2022turcic, title = {Башкирский стих в системе сравнительного тюркского стиховедения}, author = {Орехов, Борис}, journal = {Вестник Северо-Восточного федерального университета им. М. К. Аммосова. Серия «Вопросы национальных литератур»}, number = {2}, pages = {69--79}, year = {2022}, }
- ШагиМежду политикой и поэтикой: топика Крыма в современной русскоязычной наивной лирикеБорис Орехов and Роман ЛейбовШаги/Steps, Jul 2022
Наивная поэзия, т. е. поэзия, не прошедшая редакционные фильтры, публикуемая авторами в интернете (на сайте Stihi.ru), предоставляет уникальный материал для изучения естественных представлений о важных политических событиях. В статье анализируются такие стихотворения за 2000– 2019 гг. с сайта Stihi.ru, в которых упоминается слово Крым. Эти стихотворения обрабатываются с помощью технологии тематического моделирования. Суть этой технологии в том, что в большой коллекции находятся совместно встречающиеся слова, обычно семантически близкие в рамках некоторого унифицированного контекста. Ряды таких слов служат репрезентантами «тем», т. е. того, что характеризует текст с содержательной точки зрения. Выборка была разделена на несколько этапов и для каждого построена модель из пяти тем. Для Крыма одной из основных является тема рая на земле. Именно она объединяет большинство стихотворений, написанных до событий 2014 г. После 2014 г. в творчестве самодеятельных авторов мы наблюдаем вторжение актуальной топики в устоявшийся мир курорта, последний не исчезает, но уступает место политике. Через пять лет политические темы остаются, но возвращаются пейзажная и любовная лирика. На тематическом уровне мы не прослеживаем отчетливого влияния «высокой» поэзии на авторов Stihi.ru. Традиционалистская по форме (стиховое членение, ритм, рифма) реакция наивных поэтов резко порывает с литературной традицией содержательного воплощения такой реакции. Тематическое моделирование позволяет оценить трансформацию крымского сюжета в том сегменте общественного сознания, который отражается в продукции наивных поэтов.
@article{orekhov2022cri, title = {Между политикой и поэтикой: топика Крыма в современной русскоязычной наивной лирике}, author = {Орехов, Борис and Лейбов, Роман}, journal = {Шаги/Steps}, volume = {8}, number = {2}, pages = {205--232}, year = {2022}, doi = {10.22394/2412-9410-2022-8-2-205-232}, url = {https://steps.ranepa.ru/jour/article/view/157}, }
- John BenjaminsA new approach to old studiesAnastasia Vyrenkova, Ekaterina Rakhilina, and Boris OrekhovMay 2022
This chapter gives a description of the old terms typology across 78 world languages. The sample size in the research is relatively big, as compared to the other studies in this volume, which is attributable to two main reasons: the semantics of old terms has already been thoroughly described for at least two languages – English and Russian – and the lexemes with this meaning are in most cases featured by bilingual dictionaries. On the basis of the dictionary data supported by additional expertise we propose a semantic map of the OLD domain. The paper also outlines some cross-linguistically recurrent colexification patterns and addresses the specificity of homonymous combinations of old attributes with different semantic classes of nouns.
@inbook{Vyrenkova2022, title = {A new approach to old studies}, isbn = {9789027257918}, issn = {0167-7373}, url = {http://dx.doi.org/10.1075/tsl.133.07vyr}, doi = {10.1075/tsl.133.07vyr}, booktitle = {The Typology of Physical Qualities}, publisher = {John Benjamins Publishing Company}, author = {Vyrenkova, Anastasia and Rakhilina, Ekaterina and Orekhov, Boris}, year = {2022}, month = may, pages = {189--214}, }
- Рецепция классических поэтических формул у наивных авторов в акцентологическом корпусе НКРЯБорис ОреховТруды Института русского языка им. В. В. Виноградова, Jun 2022
В статье рассматривается потенциал акцентологического корпуса русского языка для исследования наивной поэзии, размещенной авторами на сайте stihi.ru. Богатый инструментарий корпусного поиска позволяет на широком материале более 100 млн словоупотреблений проследить особенности языка наивных авторов и приблизиться к реконструкции стоящей за их текстами концепции поэтического. Детальный анализ реализации традиционных поэтических формул в наивной поэзии показывает, что ее авторы отдают предпочтение поэтическим новациям, а не традиционным элементам, освященным каноничными авторами. Это проявляет себя и в воспроизведении поэтических формул пушкинской эпохи, которые либо модернизируются, либо употребляются значительно реже, чем можно было бы пред-положить, и в активном использовании сниженной лексики, вошедшей в поэтическую культуру только в XX столетии.
@article{Orekhov2022rec, title = {Рецепция классических поэтических формул у наивных авторов в акцентологическом корпусе НКРЯ}, issn = {2782-4527}, url = {http://dx.doi.org/10.31912/pvrli-2022.2.8}, doi = {10.31912/pvrli-2022.2.8}, number = {2}, journal = {Труды Института русского языка им. В. В. Виноградова}, publisher = {Vinogradov Russian Language Institute of the Russian Academy of Sciences}, author = {Орехов, Борис}, year = {2022}, month = jun, pages = {124--132}, }
- Персидский поэтический корпусБ.В. Орехов and Д.С. СтепинаТруды Института русского языка им. В. В. Виноградова, Feb 2022
В тексте речь идет о технических принципах, легших в основу нового корпуса персидского языка, размещенного в интернете по адресу linghub.ru/persian_poet_corpus. Корпус принадлежит к типу поэтических, то есть содержит в себе стихотворные произведения и имеет специальную разметку, отражающую стиховой уровень организации текста, в нашем случае — это метр и рифма. Корпуса подобного типа уже созданы для русского, башкирского и чешского языков. В случае с персидским языком создание корпуса было сопряжено с дополнительными сложностями, так как мы не располагаем инструментами автоматической разметки нескольких ключевых параметров персидского языка (например, нет возможности сделать фонетическую транскрипцию или транслитерацию текста). Корпус составляют тексты общим объемом около 4 млн токенов, представленных в 16 тыс. произведений. Корпус разнообразен с жанровой (15 наименований), авторской и временной точки зрения, так как охватывает сочинения нескольких десятков авторов, живших на протяжении IX–XVII веков. Тексты имеют морфологическую разметку. Стихотворный метр заимствован с сайта ganjoor.net, а разметка рифмы и редифа осуществлена собственными силами.
@article{Orekhov2022pers, title = {Персидский поэтический корпус}, issn = {2782-4527}, url = {http://dx.doi.org/10.31912/pvrli-2022.1.7}, doi = {10.31912/pvrli-2022.1.7}, number = {1}, journal = {Труды Института русского языка им. В. В. Виноградова}, publisher = {Vinogradov Russian Language Institute of the Russian Academy of Sciences}, author = {Орехов, Б.В. and Степина, Д.С.}, year = {2022}, month = feb, pages = {65--71}, }
- Стереоскопическое изображение и мера точности (Методика М. Л. Гаспарова и психолингвистический эксперимент)Борис Орехов, Эльвина Салихова, and Наталия АлександроваТруды Института русского языка им. В. В. Виноградова, Feb 2022
В статье о переводе В. Г. Маранцманом «Божественной комедии» М. Л. Гаспаров говорит о «стереоскопичности», которую получает иноязычный текст в ситуации множественных переводов. Потенциальный читатель, освоивший несколько переводов, получает стереоскопическое видение текста-исходника. Как можно судить по этому утверждению, автор исходит из презумпции смысловой многомерности оригинала и ограниченности перевода в сравнении с подлинником. Логически достраивая мысль М. Л. Гаспарова, можно сформулировать следующую цепочку тезисов: чем перевод дальше от оригинала, тем он одностороннее, а чем он ближе к подлиннику, тем сложнее, потому что лучше воспроизводит многомерность оригинала. В отечественной филологической науке получила сравнительно широ- кую известность методика, разработанная М. Л. Гаспаровым для оценки точности художественного перевода, принципы которой изложены в статье «Подстрочник и мера точности». В настоящей работе авторы с помощью этой методики задаются целью проверить, что в действительности происходит с рецепцией текста в случае знакомства с несколькими его переводами, правда ли при чтении нескольких переводов происходит «стереоскопизация» текста-источника. «Стереоскопическим» признается такой результат, при котором читатель получит более точное представление об оригинале, чем при прочтении одного перевода. Был проведен эксперимент с участием 225 испытуемых. С учетом принятых в работе допущений «стереоскопическое изображение» оригинала при прочтении нескольких переводов не получило экспериментального подтверждения.
@article{Orekhov2022stereo, title = {Стереоскопическое изображение и мера точности (Методика М. Л. Гаспарова и психолингвистический эксперимент)}, author = {Орехов, Борис and Салихова, Эльвина and Александрова, Наталия}, journal = {Труды Института русского языка им. В. В. Виноградова}, year = {2022}, number = {4}, pages = {212--221}, doi = {10.31912/pvrli-2022.4.16}, url = {https://trudy.ruslang.ru/ru/archive/2022-4/212-221}, }
- Global DebatesThe History and Context of the Digital Humanities in RussiaБорис ОреховFeb 2022
This chapter outlines the history and context of the development of digital humanities (DH) in Russia, demonstrating various influences at play. We link the quantitative methods used to trace previous trends in scholarship, including mathematics and sciences, and modeling data and processes in the humanities. Each country is individual in the societal and intellectual contexts which encourage a field to emerge. This means that although the history of that field in various countries may look similar to outsiders, we are able to identify the lineage of intellectual approaches which continue to influence its methods and research.
@inbook{orekhov2022history, author = {Орехов, Борис}, title = {The History and Context of the Digital Humanities in Russia}, booktitle = {Global Debates in the Digital Humanities}, pages = {55--70}, year = {2022}, publisher = {University of Minnesota Press}, }
2021
- Studia MetricaBashkir Verse from the Turkic PerspectiveBoris OrekhovStudia Metrica et Poetica, Dec 2021
The article discusses the statistically identified properties of Bashkir versification in comparison with the existing descriptions of other Turkic versification systems. The focus is on imparisyllabic forms, predominant meters, and peculiarities of rhyme. The study allows concluding that Bashkir Uzun-Kyuy (a regular alteration of 10- and 9-syllable lines) is unique and its equivalents are not found in other Turkic poetic traditions except the Tartar tradition, with which Bashkir verse has common roots. The frequency of Bashkir 9-syllable verse is also unusual as compared with poetry in other Turkic languages. Octosyllabic lines, which are often used together with 7-syllable verse, are common for various Turkic systems and can also be found in Bashkir poetry, most prominently in Kyska-Kyuy (a regular alteration of 8- and 7-syllable lines). More data is needed to judge to what extent the rhythm of Bashkir verse is comparable with the verse rhythm in other Turkic poetic traditions.
@article{Orekhov2021bash, title = {Bashkir Verse from the Turkic Perspective}, volume = {8}, issn = {2346-6901}, url = {http://dx.doi.org/10.12697/smp.2021.8.2.02}, doi = {10.12697/smp.2021.8.2.02}, number = {2}, journal = {Studia Metrica et Poetica}, publisher = {University of Tartu}, author = {Orekhov, Boris}, year = {2021}, month = dec, pages = {32--44}, }
- DigitálisGyenge műfajok: a költői versmérték és a jelentés közötti kapcsolat modellálása az orosz költészetbenArtjoms \vSeļa, Boris Orekhov, and Roman LeibovDigitális Bölcsészet, Dec 2021
A dolgozat egy már meglévő, „a versmérték jelentésmezőjeként” ismert költészetelmélet formalizálását kísérli meg, amely elmélet azt állítja, hogy a modern líra különböző metrikai formái bizonyos jelentésbeli asszociációkat halmoznak fel és őriznek meg. Az LDA témamodellező (topic modelling) algoritmussal vizsgáltuk az orosz költészet tág korpuszát (1750–1950), hogy ezáltal minden egyes verset egy tématérben, a versmértékeket pedig a témák valószínűségének eloszlása szerint reprezentáljunk. Nem felügyelt osztályozást és kiterjedt mintavételt alkalmazva megmutatjuk, hogy a verselési formákon belül és között erős a forma és a jelentés kapcsolata: ugyanahhoz a versmértékhez tartozó két minta sokszor nagyon is hasonlóként tűnik fel, és ugyanannak a családnak két verselési formája legtöbbször szintén egy klaszterbe kerül. Ez a kapcsolat akkor is kimutatható, ha a korpusz kronológiai szempontból ellenőrzött, és nem következménye a populáció méretének. Amellett érvelünk, hogy hasonló megközelítést nyelvek és költészeti hagyományok szemantikai mezőinek összehasonlításakor is alkalmazni lehet, amelynek révén az irodalomtörténet legalapvetőbb kérdéseire adhatók releváns válaszok.
@article{Sela2021GyengeMA, title = {Gyenge műfajok: a k{\"o}ltői versm{\'e}rt{\'e}k {\'e}s a jelent{\'e}s k{\"o}z{\"o}tti kapcsolat modell{\'a}l{\'a}sa az orosz k{\"o}lt{\'e}szetben}, author = {{\vS}eļa, Artjoms and Orekhov, Boris and Leibov, Roman}, journal = {Digit{\'a}lis B{\"o}lcs{\'e}szet}, issn = {2630-9696}, year = {2021}, number = {5}, mon = {12}, pages = {69--90}, doi = {10.31400/dh-hun.2021.5.3145}, }
- ВопросыБашкирская антология «Из века в век» в стиховедческой перспективеБорис ОреховВестник Северо-Восточного федерального университета им. М. К. Аммосова. Серия «Вопросы национальных литератур», Dec 2021
В статье рассматривается стих двуязычной антологии «Из века в век» (2008), представляющей башкирский поэтический канон. Двуязычный характер этого поэтического собрания создает особенные условия для знакомства иноязычного читателя с оригинальным обликом стихотворного текста. Исследовательские задачи, которые открываются благодаря этому материалу, состоят в том, чтобы уяснить, насколько состав корпуса, отражающий реальные поэтические практики, соотносится с поэтическим каноном. Основным методом рассмотрения стало сопоставление представленных в книге количественных характеристик тех или иных аспектов системы башкирского стихосложения с аналогичными показателями для башкирского поэтического корпуса, описанного в монографии «Башкирский стих XX века. Корпусное исследование». В качестве вспомогательного эпизодически привлекается материал многоязычной антологии «Современная литература народов России». Благодаря такому сопоставлению стало ясно, что в антологии гораздо чаще, чем в реальной истории башкирской поэзии, обнаруживаются формы узун-кюй (чередование 10- и 9-сложных стихов) и вообще 10-сложных стихов. Наоборот, реже ожидаемого наблюдается форма кыска-кюй (чередование 8- и 7-сложных строк) и изосиллабических стихотворений, состоящих из 7- и 9-сложных строк. Общая тенденция, которую можно отметить в результате такого сопоставления, — установка на увеличение длины строки, которая благодаря такому облику канона может оказать влияние и на будущую практику башкирской поэзии.
@article{Orekhov2021anth, title = {Башкирская антология «Из века в век» в стиховедческой перспективе}, author = {Орехов, Борис}, journal = {Вестник Северо-Восточного федерального университета им. М. К. Аммосова. Серия «Вопросы национальных литератур»}, issn = {2782-6635}, year = {2021}, number = {4}, pages = {69--76}, url = {https://www.litteraesvfu.ru/jour/article/view/36/36}, }
- НФВТекст и перевод Владимира Набокова через призму стилеметрииБорис ОреховНовый филологический вестник, Dec 2021
В статье проблематизируется понятие стиля в текстах В. Набокова, рассматриваемое в контексте его собственных высказываний об этой стороне литературного творчества и следующей за ним исследовательской традиции. Другим важным понятием специалистов по Набокову является перевод, которому писатель также уделял много внимания. Обычный подход к этим двум сторонам творческой деятельности Набокова состоит в каталогизации частных наблюдений. В настоящей статье предлагается рассмотреть стиль и перевод в контексте стилеметрии. Стилеметрия - научная дисциплина, рассматривающая стиль как набор исчислимых параметров. Современные стилеметрические подходы (самый авторитетный - Delta Берроуза) позволяют сравнивать тексты между собой, ориентируясь на распределение частотных служебных слов. Это дает возможность поставить три важных исследовательских вопроса: 1) насколько по стилю похожи оригинальные английские романы писателя и переводы русских романов Набокова на английский? Ответ: эти корпуса текстов представляют собой самостоятельные наборы текстов за исключением английского перевода романа «Отчаяние»; 2) насколько по стилю похожи оригинальные русские романы писателя и переводы его англоязычных романов? Ответ: это самостоятельные корпуса за исключением сходства автоперевода «Лолиты» и «Дара»; 3) насколько проявляет себя творческая индивидуальность Набокова при переводе на английский язык «Героя нашего времени»? Ответ: как обычно бывает в таких случаях, переводческая индивидуальность становится «невидимой» и ее заглушает авторский сигнал.
@article{Orekhov2021nabok, title = {Текст и перевод Владимира Набокова через призму стилеметрии}, author = {Орехов, Борис}, journal = {Новый филологический вестник}, issn = {2072-9316}, year = {2021}, number = {3}, pages = {200--213}, url = {https://cyberleninka.ru/article/n/tekst-i-perevod-vladimira-nabokova-cherez-prizmu-stilemetrii}, }
- Рок-поэзияСиллабо-тонический стих А. БашлачёваБорис ОреховDec 2021
В статье анализируются силлабо-тонические тексты А. Башлачёва. Показывается, как на стиховом уровне соперничают две тенденции, одна из которых связана с желанием остаться в пределах традиционной системы, а другая - преодолеть монотонию силлабо-тоники. Башлачёв использует все приёмы, позволяющие без перехода к тоническому стиху обновить звучание классического стихосложения. Редкие стихотворные размеры повторяются в нескольких текстах, чаще всего стихотворения имеют свой уникальный метрический профиль. Одновременно стих становятся частью интертекстуальной игры, отсылающей к Высоцкому и Некрасову. Анализ своеобразной метрической схемы, созданной Башлачёвым для «Времени колокольчиков», позволяет найти фольклорнорелигиозный контекст для этого произведения среди поэтических текстов Серебряного века и советской поэзии.
@inbook{orekhov2021bash, author = {Орехов, Борис}, title = {Силлабо-тонический стих А. Башлачёва}, booktitle = {Русская рок-поэзия: текст и контекст}, volume = {21}, pages = {127--136}, year = {2021}, address = {Екатеринбург; Тверь}, }
- ГАХНЭкстраполяция текста с помощью искусственных нейронных сетей. Архив ГАХНБорис ОреховDec 2021
@inbook{orekhov2021gahn, author = {Орехов, Борис}, title = {Экстраполяция текста с помощью искусственных нейронных сетей. Архив ГАХН}, booktitle = {Синтез современности: руины ГАХН и постдисциплинарность}, pages = {59--78}, year = {2021}, publisher = {Издательство Института Гайдара}, address = {Москва}, }
2020
- Orbis LitterarumNeural readingBoris Orekhov and Frank FischerOrbis Litterarum, 2020
Abstract The creation of poems via neural networks is relatively easy nowadays and the internet is replete with corresponding examples. However, it largely lacks interpretive concepts. What should be done with the results generated in this way? How can we draw scientific conclusions from them? This is all the more difficult to answer as it still remains unclear where to position deep-learning approaches in the canon of digital-humanities methods. But it is clear that humanities scholars must reckon with machines being responsible for, or at least involved in, the creation of their objects of study. After a historical introduction to automated poetry generation, we try to conceptualize neural-net poetry and argue that its interpretation, i.e. the close reading of texts generated that way, based on large source corpora, can be an insightful addition to the toolbox of computational literary studies, an approach in development that we suggest calling “neural reading.” Our main argument is that artificial neural networks are able to reproduce parts of the stylistic features of a training sample, in our case poetic corpora, acting as a kind of digital echo chamber of literary history. These features are mainly observed in smaller language units, at the level of morphology, vocabulary, syntax, and prosody. Our findings open new directions for the study of style in larger corpora. We will illustrate this with three Russian corpora (a selection of translated hexameters from the eighteenth to the twentieth century and the poetry of Natalia Azarova and Vladimir Vysotsky) and one German corpus (collected poems of Friedrich Hölderlin).
@article{orekhov2020neural, author = {Orekhov, Boris and Fischer, Frank}, title = {Neural reading}, journal = {Orbis Litterarum}, volume = {75}, month = {}, number = {5}, pages = {230--246}, keywords = {digital humanities, distant reading, literature, neural networks, poetry}, doi = {https://doi.org/10.1111/oli.12274}, url = {https://onlinelibrary.wiley.com/doi/abs/10.1111/oli.12274}, eprint = {https://onlinelibrary.wiley.com/doi/pdf/10.1111/oli.12274}, year = {2020}, dimensions = {false}, }
- Journal of Siberian“Volume 91”: an Electronic Index to the Complete Works of Leo TolstoyBoris V. OrekhovJournal of Siberian Federal University. Humanities & Social Sciences, Nov 2020
Собрание сочинений Льва Толстого было опубликовано в 90 томах объемом около 46 000 страниц в период с 1928 по 1958 год. Но наша статья о 91-м томе этого издания, томе-приложении, содержащем указатели произведений и имена собственные как из художественных произведений, так и из других томов, содержащих письма и дневники Толстого. «91-й том» – это веб-приложение, основанное на оцифрованном указателе имен собственных для 90-томного собрания сочинений Толстого (http://index.tolstoy.ru/). Оцифрованные данные имеют дополнительные свойства, которые могут быть полезны как энтузиастам, так и специалистам. В этой статье делается попытка не только представить новый инструмент для литературоведов, но и обобщить, как можно использовать такого рода ресурсы для получения нового знания из крупных текстовых коллекций
@article{Orekhov2020vol91, title = {“Volume 91”: an Electronic Index to the Complete Works of Leo Tolstoy}, issn = {1997-1370}, url = {http://dx.doi.org/10.17516/1997-1370-0703}, doi = {10.17516/1997-1370-0703}, journal = {Journal of Siberian Federal University. Humanities & Social Sciences}, publisher = {Siberian Federal University}, author = {Orekhov, Boris V.}, year = {2020}, month = nov, pages = {2049--2055}, }
- ГоскаталогУнификация данных музейного Госкаталога РФЕвгений Глазунов and Борис ОреховСибирский антропологический журнал, Sep 2020
В эпоху больших данных растет интерес в том числе и к большим данным в гуманитарных сферах (например, в рамках цифровой гуманитаристики). В России существует Государственный каталог Музейного фонда Российской Федерации, где собирается информация об экспонатах из коллекций российских музеев. В настоящее время описано более 16 млн экспонатов. Многие поля в базе заполнены на естественном языке, например, «XIX век» в качестве даты создания предмета, что делает практически невозможным анализ данных. Инструменты автоматической обработки языка (например, извлечение именованных сущностей) позволяют унифицировать данные и привести их в удобный для анализа вид. В работе показано, как можно обрабатывать информацию о дате создания, месте создания, авторах и техниках. В качестве иллюстрации того, как можно использовать нормализованные данные, приводится некоторая аналитика по странам и периодам в разных категориях экспонатов, что позволяет увидеть известные закономерности
@article{Glazunov2020goskatalog, title = {Унификация данных музейного Госкаталога РФ}, volume = {4}, issn = {2542-1816}, url = {http://dx.doi.org/10.31804/2542-1816-2020-4-3-154-168}, doi = {10.31804/2542-1816-2020-4-3-154-168}, number = {3}, journal = {Сибирский антропологический журнал}, publisher = {Commonwealth of Englightenment of the Krasnoyarsk Territory}, author = {Глазунов, Евгений and Орехов, Борис}, year = {2020}, month = sep, pages = {154--168}, }
- НАСюжетная цитата из Набокова в «Хищных вещах века»Борис ОреховНазировский архив, Sep 2020
@article{Orekhov2020sujet, title = {Сюжетная цитата из Набокова в «Хищных вещах века»}, author = {Орехов, Борис}, journal = {Назировский архив}, issn = {2309-1584}, year = {2020}, number = {3}, pages = {396--403}, }
- ВАПМикродиахрония стиховедческих параметров у русских поэтовБорис ОреховSep 2020
@inbook{orekhov2020micro, author = {Орехов, Борис}, title = {Микродиахрония стиховедческих параметров у русских поэтов}, booktitle = {ВАПросы языкознания: Мегасборник наностатей}, pages = {161--164}, year = {2020}, publisher = {«Буки Веди»}, address = {Москва}, }
- Аристей«Илиада» Е.И. Кострова и «Илиада» А. И. Любжина: стилеметрический аспектБорис ОреховАристей, Sep 2020
В статье рассматривается контекст нового перевода «Илиады», сделанного современным филологом А.И. Любжиным. Отличительная особенность этого текста – его метр, перевод выполнен александрийским стихом. Это метрическое решение было естественным для XVIII в., но в XIX в. для перевода гомеровских текстов, преодолевая сложившуюся традицию, стали выбирать русский гекзаметр (шестиударный дольник). А.И. Любжин перевел «Илиаду» таким способом с того места, где остановился поэт XVIII в. Е.И. Костров. Главная задача статьи – сравнить тексты Кострова и Любжина и установить, насколько они различаются. В качестве инструмента выбран метод стилеметрии Delta, который использует распределение наиболее частотных слов для сопоставления текстов в корпусе. Кроме текстов Кострова и Любжина, к исследованию привлекались «Россияда» М.М. Хераскова, перевод «Слова о полку Игореве» А. Палицына, выполненные в гекзаметре переводы «Илиады» Н.И. Гнедича и В.А. Жуковского. Delta показала, что все разделенные на фрагменты тексты кластеризуются вместе, то есть Delta эффективно определяет авторство и стилистическую гомогенность текстов. Однако вопреки ожиданиям Delta разделила по разным кластерам не тексты, написанные александрийским стихом, и тексты, написанные гекзаметрами, а тексты, принадлежащие к традиции XVIII в., и тексты, принадлежащие к традиции XIX в. Перевод А.И. Любжина оказался в одном кластере с поэтами пушкинской эпохи. Таким образом, новый переводчик не повторяет манеру XVIII в., а говорит на более современном языке.
@article{Orekhov2020ilias, title = {«Илиада» Е.И. Кострова и «Илиада» А. И. Любжина: стилеметрический аспект}, author = {Орехов, Борис}, journal = {Аристей}, issn = {2220-9050}, year = {2020}, volume = {21}, pages = {282--296}, url = {https://aristeas.ru/21_10}, }
- НАНазиров, Фрейденберг и Голосовкер о мифе. Опыт позиционирующего сопоставленияБорис ОреховНазировский архив, Sep 2020
@article{Orekhov2020myth, title = {Назиров, Фрейденберг и Голосовкер о мифе. Опыт позиционирующего сопоставления}, author = {Орехов, Борис}, journal = {Назировский архив}, issn = {2309-1584}, year = {2020}, number = {1}, pages = {220--230}, }
2019
- АлетейяБашкирский стих XX века. Корпусное исследованиеБорис Орехов, Санкт-Петербург, 2019
Представлены результаты всестороннего количественного исследования башкирской системы версификации в XX веке. С использованием современных статистических инструментов подвергаются анализу все уровни организации стихотворного текста от фоники до лексики и грамматики, с особенным вниманием к метру и ритму. Количественные данные получены на корпусе текстов 103 башкирских поэтов общим объемом в 1.77 млн словоупотреблений. Анализ предварен подробным обзором науки о тюркском стихе, начиная с 1950-х годов. Утверждается, что основную роль в башкирском стихосложении XX века играют силлабические формы фольклорного происхождения узун-кюй и кыска-кюй, первая из которых специфична для поволжско-кыпчакского слогосчитающего стиха. Приводится подробное сопоставление башкирского стиха с киргизским. Книга завершается примерами поэтических текстов на башкирском языке, сгенерированных с использованием искусственных нейронных сетей.
@book{orekhov2019bashkir, title = {Башкирский стих XX века. Корпусное исследование}, author = {Орехов, Борис}, year = {2019}, month = {}, location = {Санкт-Петербург}, publisher = {Алетейя}, isbn = {978-5-907189-29-4} }
- Акцентологический корпус как инструмент для исследования русского ударенияБорис Орехов and Светлана СавчукТруды Института русского языка им. В. В. Виноградова, Dec 2019
В настоящей статье рассмотрено несколько вопросов, связанных с разработкой и использованием акцентологического корпуса в качестве инструмента для исследования ударения: состав и структура корпуса, текущее состояние, перспективы развития, пополнение новым материалом. Особое внимание уделено подкорпусу наивной поэзии в составе акцентологического корпуса как источнику акцентологических данных. Возможности этого ресурса, его эффективное использование проверены на нескольких участках акцентологической системы. Было проведено корпусное исследование акцентных вариантов форм единственного и множественного числа кратких прилагательных, а также падежных форм имен существительных. В ходе изучения падежных форм существительных было обследовано несколько зон активной конкуренции акцентных вариантов: существительных женского рода на –а (стена, доска), существительных женского рода с основой на мягкий согласный (кисть, челюсть) и существительных мужского рода с твердой основой (ветер, шарф). Результаты корпусного исследования подтвердили предположение о том, что материал акцентологических корпусов может быть использован как достоверный источник получения акцентологических данных. Увеличение объема корпуса делает эти данные статистически достоверными, а также расширяет круг исследуемых форм и способствует обнаружению новых точек вариативности.
@article{orekhov2019accentology, title = {Акцентологический корпус как инструмент для исследования русского ударения}, volume = {21}, issn = {2311-150X}, url = {http://dx.doi.org/10.31912/pvrli-2019.21.3}, doi = {10.31912/pvrli-2019.21.3}, journal = {Труды Института русского языка им. В. В. Виноградова}, publisher = {Vinogradov Russian Language Institute of the Russian Academy of Sciences}, author = {Орехов, Борис and Савчук, Светлана}, year = {2019}, month = dec, pages = {61--83}, }
- Slavica RevalensiaЛексика как классифицирующий признак современной поэзии [Vocabulary as a Classifying Feature оf Russian Postmodern Poetry]Борис ОреховSlavica Revalensia, Dec 2019
Ретроспективно история литературы предстаёт перед нами как результат классификации. Отдельные писатели или группы авто ров в соответствии с плохо каталогизируемыми основаниями, соот носимыми одновременно и с социокультурной сферой, и с поэтикой, не вполне последовательно делятся на мелических и хоровых, концептистов и гонгористов, архаистов и новаторов (о противоречиях классификации на архаистов и новаторов см.: Седова 2009: 61-74), натуральную школу и искусство для искусства, стадионную поэзию и андеграунд и т. д. Иногда это деление предо пределяется современной литературным явлениям рефлексией над актуальным материалом, иногда конструируется много позднее в исследовательской лаборатории, но свою жизнеспособность такие классификации показывают только по прошествии времени. Можно вспомнить случай классификации на «тихую» и «громкую» поэзию, предложенной Корнеем Чуковским в статье «Ахматова и Маяковский». Поскольку мы не видим его в современной школьной практике, можно констатировать, что это деление не прижилось или, по крайней мере, осталось одним из альтернативных и, в сущности, необязательных способов описания литературного процесса 1920 х годов. Такая судьба классификации Чуковского неудивительна, актуальный литературный ландшафт концептуализировать гораздо труднее: мысли критика препятствует большое число неизвестных-от особенностей последующих этапов творчества отдельных художников до структуры рецепции всего периода в будущем. В этой статье мы предложим способ классификации авторов по основанию употребляемой ими лексики, постараемся обнаружить его возможности и эвристический потенциал.
@article{Orekhov2019vocab, title = {Лексика как классифицирующий признак современной поэзии [Vocabulary as a Classifying Feature оf Russian Postmodern Poetry]}, volume = {6}, issn = {2504-7531}, url = {http://dx.doi.org/10.22601/SR.2019.06.08}, doi = {10.22601/sr.2019.06.08}, journal = {Slavica Revalensia}, publisher = {Tallinn University Press}, author = {Орехов, Борис}, year = {2019}, pages = {251–273}, }
- Учёные запискиСпецифические слова и выражения русских классиков XIX века: опыт контрастивного корпусного исследованияБорис ОреховУчёные записки Петрозаводского государственного университета, Jun 2019
Статья представляет результаты количественного исследования, выявляющего характерные и спец- ифические низкочастотные слова для прозы русских классиков XIX века. С помощью меры TF-IDF и большой коллекции текстов XIX века для Тургенева, Гончарова, Лескова, Достоевского рассчиты- ваются слова и обороты, которые редко встречаются или не встречаются у других авторов, но не- сколько раз появляются в прозе классиков. Такой контрастивный подход способен дополнить тради- ционную авторскую лексикографию, выявить специфические черты стиля конкретного автора на фоне современного ему языка. Специфические слова и обороты писателей разнообразны, имеют ино- язычное происхождение, восходят к современным писателю реалиям либо отражают особенности его авторского стиля. Характерные слова Гончарова отражают жанровую специфику его корпуса. Слова, рассчитанные для Тургенева, Лескова и Достоевского, хорошо соотносятся с особенностями стиля этих писателей. При этом выявленная лексика Достоевского еще раз подчеркивает его историко-литературную связь с Гоголем и дает материал для филологического анализа, который может при- вести к обоснованию знакомства автора «великого пятикнижия» с трудами П. А. Кропоткина.
@article{Orekhov2019words, title = {Специфические слова и выражения русских классиков XIX века: опыт контрастивного корпусного исследования}, volume = {182}, issn = {2542-1077}, url = {http://dx.doi.org/10.15393/uchz.art.2019.354}, doi = {10.15393/uchz.art.2019.354}, number = {5}, journal = {Учёные записки Петрозаводского государственного университета}, publisher = {Petrozavodsk State University}, author = {Орехов, Борис}, year = {2019}, month = jun, pages = {70–75}, }
- Web SemanticsTolstoy semanticized: Constructing a digital edition for knowledge discoveryAnastasia Bonch-Osmolovskaya, Daniil Skorinkin, Irina Pavlova, and 2 more authorsJournal of Web Semantics, Dec 2019
The paper presents the results of a project devoted to the creation of a digital edition of Leo Tolstoy’s complete works.1 Our primary source is the 90-volume critical print edition of Tolstoy’s oeuvre. We discuss the rationale for semantic markup of metadata for three classes of texts: works, letters and diaries. We extract information from the critical apparatus and supplement it with some new additional markups that enable visualizing the evolution of Tolstoy as a publicist. We show that the named entity index constitutes a valuable knowledge base, which can serve as a basis for generating a knowledge graph that is more detailed and systematic than the open linked databases like DBpedia.
@article{BonchOsmolovskaya2019, title = {Tolstoy semanticized: Constructing a digital edition for knowledge discovery}, volume = {59}, issn = {1570-8268}, url = {http://dx.doi.org/10.1016/j.websem.2018.12.001}, doi = {10.1016/j.websem.2018.12.001}, journal = {Journal of Web Semantics}, publisher = {Elsevier BV}, author = {Bonch-Osmolovskaya, Anastasia and Skorinkin, Daniil and Pavlova, Irina and Kolbasov, Matvey and Orekhov, Boris}, year = {2019}, month = dec, pages = {100483}, }
- Literary TheoryPreface: Data-Driven FormalismFrank Fischer, Marina Akimova, and Boris OrekhovJournal of Literary Theory, Mar 2019
@article{Fischer2019preface, title = {Preface: Data-Driven Formalism}, volume = {13}, issn = {1862-8990}, url = {http://dx.doi.org/10.1515/jlt-2019-0001}, doi = {10.1515/jlt-2019-0001}, number = {1}, journal = {Journal of Literary Theory}, publisher = {Walter de Gruyter GmbH}, author = {Fischer, Frank and Akimova, Marina and Orekhov, Boris}, year = {2019}, month = mar, pages = {1--12}, }
- ТюркологияМетрика узбекских переводов русской силлабо-тоникиБорис ОреховРоссийская тюркология, Mar 2019
В статье рассматриваются эквиваленты силлабо-тонических размеров рус-ской поэзии при переводе на узбекский язык. В центре внимания частотность употребле-ния, которая становится основанием для выводов о функциональности размера. Авторомделаются предварительные подсчеты частотности размеров в поэтических книгах совре-менных узбекских авторов. Полученные цифры сравниваются с частотностью размеров врусской поэзии. Основной вопрос – какими силлабическими размерами переводят стихина русском языке. Почти все русские размеры передаются 11-сложником, исключения де-лаются для наиболее распространенных в русской поэзии четырехстопного ямба и четы-рехстопного хорея, а также для коротких строк.
@article{Orekhov2019metr, title = {Метрика узбекских переводов русской силлабо-тоники}, author = {Орехов, Борис}, journal = {Российская тюркология}, issn = {2079-9160}, year = {2019}, number = {3--4}, pages = {74--84}, }
- Дискурсивные формулы русского языка: диахронический подходСветлана Жукова, Борис Орехов, and Екатерина РахилинаТруды Института русского языка им. В. В. Виноградова, Mar 2019
Статья посвящена проблеме описания дискурсивных формул русского языка с позиции диахронии. Под дискурсивными формулами понимаются устойчивые, легко воспроизводимые изолированные конструкции, ср.: Еще бы! Не то слово! То-то же и под. Они служат ответными репликами в диалоге и в отличие от традиционных конструкций не содержат переменных внутри себя: свободным слотом для них становится предшествующая реплика другого говорящего. Важным аспектом описания дискурсивных формул является динамика их изменений во времени. В силу своей частотности, семантической опустошенности и прагматической нагруженности дискурсивные формулы так быстро появляются, исчезают и сменяют друг друга, что эти изменения видны даже на выбранном нами временном отрезке в 200 лет, который охватывает XIX–XX век. На базе статистического исследования, которое упорядочивает составленный нами список русских дискурсивных формул на временной оси, в статье последовательно анализируются примеры уходящих, новых и стабильных дискурсивных формул. На этих примерах исследуются механизмы возникновения новых формул, связанные с прагматикализацией (то есть превращением в идиоматичные выражения с прагматическим значением прежде композициональных сочетаний), а также причины старения формул и природа нестабильности их формы и семантики.
@article{Zhukova2019discour, title = {Дискурсивные формулы русского языка: диахронический подход}, author = {Жукова, Светлана and Орехов, Борис and Рахилина, Екатерина}, journal = {Труды Института русского языка им. В. В. Виноградова}, issn = {2782-4527}, year = {2019}, number = {3}, pages = {142--163}, doi = {10.31912/pvrli-2019.21.8}, url = {https://trudy.ruslang.ru/ru/archive/2019-3/142-164}, }
- ШолоховЦифровая текстология: атрибуция текста на примере романа М. А. Шолохова «Тихий Дон»Борис ОреховМир Шолохова. Научно-просветительский общенациональный журнал, Mar 2019
@article{Orekhov2019shol, title = {Цифровая текстология: атрибуция текста на примере романа М. А. Шолохова «Тихий Дон»}, author = {Орехов, Борис}, journal = {Мир Шолохова. Научно-просветительский общенациональный журнал}, issn = {2313-4100}, year = {2019}, number = {1}, pages = {70--82}, }
- Башкирский стих и проблема национальной литературыБорис ОреховMar 2019
@inbook{orekhov2019bash, author = {Орехов, Борис}, title = {Башкирский стих и проблема национальной литературы}, booktitle = {Национальные литературы на современном этапе: научные концепции и гипотезы}, pages = {135--145}, year = {2019}, publisher = {ИЯЛИ}, address = {Казань}, }
- Рок-поэзии«Праздник урожая во дворце труда» в контексте поэтики Б. ГребенщиковаБорис ОреховMar 2019
В статье даётся построчный комментарий к тексту песни Б. Гребенщикова «Праздник урожая во дворце труда», предлагаются варианты интерпретаций образного ряда. Концептуальная рамка для декодирования текста - отклик на события переломной эпохи, контраст 1990-х и современности, интертекстуальные источники - другие тексты того же автора, артефакты массовой культуры, язык советского времени.
@inbook{orekhov2019pra, author = {Орехов, Борис}, title = {«Праздник урожая во дворце труда» в контексте поэтики Б. Гребенщикова}, booktitle = {Русская рок-поэзия: текст и контекст}, pages = {204--209}, year = {2019}, address = {Екатеринбург; Тверь}, }
- Изв. ОЛЯ РАНМетр отрезков длиннее строки в башкирском силлабическом стихеБорис ОреховИзвестия РАН. Серия литературы и языка, Mar 2019
В статье на башкирском материале рассматривается специфический элемент силлабического стихосложения: упорядоченные чередования строк разной длины. Такие стиховые формы существуют в тюркском стихе наряду с привычными изосиллабическими стихотворениями. Статус таких форм неоднозначен, их можно рассматривать и как строфу, и как отдельный метр. Аналогичным трудным случаем для традиционного стиховедения служит элегический дистих. На материале корпуса текстов 103 башкирских поэтов мы проанализировали соотношение изосиллабических и гетеросиллабических стиховых форм. Наиболее распространенными среди последних являются “узун-кюй” и “кыска-кюй”, формы фольклорного происхождения, представленные в виде регулярного чередования 10- и 9-сложных, а также 8- и 7-сложных строк. Результаты подсчетов показали, что ритм 8-сложников в изосиллабических текстах и в кыска-кюй серьезно отличается. В изосиллабических текстах обязательна цезура после 4-го слога, а в кыска-кюй ее обычно не бывает.
@article{Orekhov2019strings, title = {Метр отрезков длиннее строки в башкирском силлабическом стихе}, author = {Орехов, Борис}, journal = {Известия РАН. Серия литературы и языка}, issn = {2413-7715}, year = {2019}, volume = {78}, number = {2}, pages = {41--50}, doi = {10.31857/S241377150004956-4}, }
- ВатандашНейрошағирБорис ОреховВатандаш, Mar 2019
Компьютер шиғриәте, йәғни компьютер тарафынан яҙылған шиғырҙар күптән, бәлки хатта компьютер барлыҡҡа килгәне бирле йәшәп килә. Тәүге электрон иҫәпләү машиналары үткән быуаттың 40-сы йылдарында, улар ярҙамында яҙылған шиғриәт 50-се йылдарҙа уҡ хасил булған. Шунан бирле кибернетик шиғырҙарҙы ижад итеү технологияһы үҙгәрмәгән, тип уйлау дөрөҫлөккә тап килмәҫ ине. Төрлө дәүер әҙиптәренең шиғри текстары бер-береһенә оҡшамағандай, 50 йыл элек шиғыр яҙған программалар хәҙергеләрҙән бик ныҡ айырыла.
@article{Orekhov2019neuro, title = {Нейрошағир}, author = {Орехов, Борис}, journal = {Ватандаш}, issn = {1683-3554}, year = {2019}, number = {2}, pages = {136--139}, }
2018
- NapisСемантическое издание текстов Л. Н. Толстого: от текста к онтологииАнастасия Бонч-Осмоловская, Матвей Колбасов, Борис Орехов, and 2 more authorsNapis Pismo poświęcone literaturze okolicznościowej i użytkowej, Mar 2018
В этой статье мы расскажем о работе по созданию цифрового издания текстов Льва Толстого. Наша цель – появление многоуровневой разметки в большом и жанрово разнообразном собрании произведений русского писателя, но попутно мы хотели бы и внести свой вклад в стандартизацию электронного представления текстов и электронной текстологии в России. Мы считаем важным создавать образцы таких подходов для текстов не на английском языке, для которого уже есть довольно много авторитетных ориентиров. Что касается такого русскоязычного опыта, то на сегодняшний день он довольно беден и часто игнорирует стандарты цифровой публикации, такие, как Linked Open Data и Text Encoding Initiative. Мы надеемся, что наша работа позволит популяризировать эти стандарты, продемонстрировав их потенциал для выстраивания инфраструктуры сохранения и исследования текстов.
@article{BonczOsmoowska2018, title = {Семантическое издание текстов Л. Н. Толстого: от текста к онтологии}, volume = {1}, issn = {1507-4153}, url = {http://dx.doi.org/10.18318/napis.2018.1.19}, doi = {10.18318/napis.2018.1.19}, journal = {Napis Pismo poświęcone literaturze okolicznościowej i użytkowej}, publisher = {Instytut Badan Literackich PAN/The Institute of Literary Research PAS}, author = {Бонч-Осмоловская, Анастасия and Колбасов, Матвей and Орехов, Борис and Павлова, Ирина and Скоринкин, Даниил}, year = {2018}, pages = {381--391}, }
- Русская литератураЦифровые подходы к Камер-фурьерскому журналу В. Ф. ХодасевичаБорис Орехов, Павел Успенский, and Вероника ФайнбергРусская литература, Mar 2018
@article{orekhov2018khodasevich, title = {Цифровые подходы к Камер-фурьерскому журналу В. Ф. Ходасевича}, volume = {3}, issn = {0131-6095}, url = {http://dx.doi.org/10.31860/0131-6095-2018-3-19-53}, doi = {10.31860/0131-6095-2018-3-19-53}, journal = {Русская литература}, publisher = {Institute of Russian Literature Pushkinskij Dom RAN}, author = {Орехов, Борис and Успенский, Павел and Файнберг, Вероника}, year = {2018}, pages = {19--53}, }
- Культурные кодыМашинная поэзия: история, теория, контекстБорис ОреховMar 2018
Сегодняшний способ порождения стихотворных текстов с помощью компьютера основан натехнологии нейронных сетей. Между такими текстами и классической (а особенно авангардной) поэзиейструктурно много общего. Первые опыты компьютерного порождения стихов в форме верлибра былипредприняты в Европе в 1950-х гг. В России 1990-х гг. компьютерные стихи создавались только вклассической форме, концепция поэтического современных программистов гораздо беднее. Ключевоепонятие и там, и там – «случайность». Нейросетевая поэзия не эксплуатирует случайность, а системновоспроизводит стиль обучающей выборки.
@inbook{orekhov2018mach, author = {Орехов, Борис}, title = {Машинная поэзия: история, теория, контекст}, booktitle = {Культурные коды русской литературы}, pages = {48--60}, year = {2018}, publisher = {Башкирский государственный университет}, address = {Уфа}, }
- EditingThe Dictionary of the Russian Language of the 11th – 17th c. as a DatabaseAnna Vechkaeva, Anna Novosyolova, Boris Orekhov, and 1 more authorMar 2018
The Dictionary of the Russian Language of the 11th-17th c. represents a historical dictionary of Russian composed on the base of medieval written sources of all genres and origins. So far, thirty volumes have been published, which cover lexemes from A to Уберечися. Further volumes are currently in preparation. In 2016 an on-line version of volumes 28-30, which were available in DOC format, was created. This preliminary beta-version of the Dictionary contains lexemes from Старичекъ to Уберечися. It consists of two parts: the dictionary itself and the database of the written sources of the dictionary. Our goal was to provide users with multidirectional research options which would consider all constituent parts of the entries. In Slavonic studies no comparable resource for lexicological research exists. Similar goals were set for several research projects, the results of which are, however, not yet accessible.
@inbook{Vechkaeva2018dict, author = {Vechkaeva, Anna and Novosyolova, Anna and Orekhov, Boris and Krivko, Roman}, title = {The Dictionary of the Russian Language of the 11th – 17th c. as a Database}, booktitle = {Editing Mediaeval Texts from a Different Angle: Slavonic and Multilingual Traditions}, pages = {341--348}, year = {2018}, url = {https://www.academia.edu/98682191/}, }
- ДКХВ сети терминов М. М. Бахтина: теория графов о диалоге, карнавале и хронотопеБорис ОреховДиалог. Карнавал. Хронотоп, Mar 2018
@article{Orekhov2018bakhtin, title = {В сети терминов М. М. Бахтина: теория графов о диалоге, карнавале и хронотопе}, author = {Орехов, Борис}, journal = {Диалог. Карнавал. Хронотоп}, issn = {0136-0132}, year = {2018}, number = {1}, pages = {105--115}, }
- Новый мирГальванизация автора, или Эксперимент с нейронной поэзиейБорис ОреховНовый мир, Mar 2018
@article{Orekhov2018hal, title = {Гальванизация автора, или Эксперимент с нейронной поэзией}, author = {Орехов, Борис}, journal = {Новый мир}, issn = {0130-7673}, year = {2018}, number = {6}, pages = {139--158}, }
- A/ZЧто такое семантическое издание и почему в будущем все издания станут семантическими?Michael Gronas and Boris OrekhovMar 2018
@inbook{orekhov2018sem, author = {Gronas, Michael and Orekhov, Boris}, title = {Что такое семантическое издание и почему в будущем все издания станут семантическими?}, booktitle = {A/Z: Essays in honor of Alexander Zholkovsky}, pages = {246--268}, year = {2018}, publisher = {Academic Studies Press}, address = {Boston}, }
- ИнтернетСаморепрезентация сообществ, говорящих на национальных языках РоссииБорис ОреховMar 2018
@inbook{orekhov2018int, author = {Орехов, Борис}, title = {Саморепрезентация сообществ, говорящих на национальных языках России}, booktitle = {Интернет по ту сторону цифр}, pages = {108--115}, year = {2018}, publisher = {Издательские решения}, }
- ЕВРикаГлаголы со значением ‘искать’ и ‘находить’ в исландском языкеБорис ОреховMar 2018
@inbook{orekhov2018ice, author = {Орехов, Борис}, title = {Глаголы со значением ‘искать’ и ‘находить’ в исландском языке}, booktitle = {ЕВРика! Сборник статей о поисках и находках к юбилею Е. В. Рахилиной}, pages = {72--76}, year = {2018}, publisher = {Лабиринт}, address = {Москва}, }
2017
- ЗборникПеревод «Слова о полку Игореве» Н. И. Язвицкого: генетические связи и стилевые особенностиБорис ОреховЗборник Матице српске за славистику, Mar 2017
В статье обсуждается один из самых ранних переводов «Слова о полку Игореве», выполненный Н. И. Язвицким. На основе многочисленных текстуальных совпадений показано, что Язвицкий при работе над собственным переводом активно пользовался малоизвестным стихотворным переводом И. И. Сирякова, позволяя себе многочисленные заимствования (согласно распространенному в исследовательской традиции мнению, главным источником работы Язвицкого считается прозаический перевод А. С. Шишкова). В конце продемонстрировано, что,несмотря на значительное число заимствований, в анализируемом переводе обнаруживаются и оригинальные авторские фрагменты.
@article{Orekhov202, title = {Перевод «Слова о полку Игореве» Н. И. Язвицкого: генетические связи и стилевые особенности}, author = {Орехов, Борис}, journal = {Зборник Матице српске за славистику}, issn = {0352-5007}, year = {2017}, number = {92}, pages = {331--339}, }
2016
- SpringerLanguages of Russia: Using Social Networks to Collect TextsIrina Krylova, Boris Orekhov, Ekaterina Stepanova, and 1 more authorMar 2016
In this paper we outline a method of finding texts in minor languages of Russia in social networks by the example of VKontakte. We find language-specific markers – special tokens that contain letter combinations unique to a certain language and highly frequent in texts in this language. We use Yandex.XML to generate lists of web-pages that contain texts in these languages. We then download data from web-pages in the https://vk.com domain through Vkontakte API.
@inbook{Krylova2016, title = {Languages of Russia: Using Social Networks to Collect Texts}, isbn = {9783319417189}, issn = {1865-0937}, url = {http://dx.doi.org/10.1007/978-3-319-41718-9_11}, doi = {10.1007/978-3-319-41718-9_11}, booktitle = {Information Retrieval}, publisher = {Springer International Publishing}, author = {Krylova, Irina and Orekhov, Boris and Stepanova, Ekaterina and Zaydelman, Lyudmila}, year = {2016}, pages = {179--185}, }