cv
Basics
Name | Boris Orekhov |
Label | Scientist |
nevmenandr@gmail.com | |
Phone | (916) 526-09-51 |
Url | https://nevmenandr.github.io/ |
Summary | Texts & computers |
Work
-
2022.03 - Present Senior Research Fellow
Laboratory for Digital Research of Literature and Folklore, Institute of Russian Literature (Pushkin House) of the Russian Academy of Sciences
-
2013.03 - Present -
2011.01 - 2014.01 -
2006.01 - 2011.01
Education
Certificates
Запуск подкаста: от идеи до монетизации | ||
HSE University | 2023-12-04 |
Введение в облачные технологии | ||
HSE University | 2020-01-31 |
Publications
-
2024 Национальный корпус русского языка 2.0: новые возможности и перспективы развития
Вопросы языкознания
В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020–2023 гг. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ярких новых компонента: ресурсный — новый корпус «Социальные сети», поисковый — Панхронический корпус, объединяющий поиск по корпусам разных периодов, и аналитический — функциональный комплекс статистики и визуализации данных.
-
2023 Hacking stylometry with multiple voices: Imaginary writers can override authorial signal in Delta
Digital Scholarship in the Humanities
It is a basic assumption of stylometry that texts written by the same person show greater stylometric similarity even if published under multiple pennames. Statistical authorship attribution strongly relies on the ability of Burrows’s Delta and its variants to cluster one author together regardless of pseudonyms. At the same time, the very first computational discoveries by the founder of modern stylometry showed that a single author is capable of producing multiple voices (Burrows, 1987, Computation into Criticism: A Study of Jane Austen’s Novels and an Experiment in Method. Clarendon Press). We investigate two authors whose stylistically autonomous pennames seem to deceive Delta and override authorial signals: a Portuguese poet Fernando Pessoa and a French novelist Romain Gary. Pessoa managed to create at least three pennames (the author himself used the term ‘heteronym’) who exhibit all traits of individual human beings from the stylometric point of view. Gary’s alter ego Emile Ajar, who was an intentional literary mystification, also demonstrates traits of stylometric autonomy. At the same time, other pseudonyms used by Gary lack that autonomy completely. Our investigation shows that there appears to be a continuum between a purely formal use of a penname, which brings almost no distinction from the real name of an author, and a strong literary sub-personality such as those created by Pessoa.
-
2019 Башкирский стих XX века. Корпусное исследование
Алетейя
Представлены результаты всестороннего количественного исследования башкирской системы версификации в XX веке. С использованием современных статистических инструментов подвергаются анализу все уровни организации стихотворного текста от фоники до лексики и грамматики, с особенным вниманием к метру и ритму. Количественные данные получены на корпусе текстов 103 башкирских поэтов общим объемом в 1.77 млн словоупотреблений. Анализ предварен подробным обзором науки о тюркском стихе, начиная с 1950-х годов. Утверждается, что основную роль в башкирском стихосложении XX века играют силлабические формы фольклорного происхождения узун-кюй и кыска-кюй, первая из которых специфична для поволжско-кыпчакского слогосчитающего стиха. Приводится подробное сопоставление башкирского стиха с киргизским. Книга завершается примерами поэтических текстов на башкирском языке, сгенерированных с использованием искусственных нейронных сетей.
Skills
Programming languages | |
Python | |
Perl | |
PHP | |
R |
Typography | |
LaTeX | |
Font design |
Languages
Russian | |
Native speaker |
English | |
Fluent |
Interests
Linguistics and literary studies | |
Linguistics | |
Literary studies | |
Digital Humanities | |
Natural language processing |
Computer scienses | |
Artificial intelligence | |
Programming languages |
Projects
- 2012 - Present
Национальный корпус русского языка
Национальный корпус русского языка — представительная коллекция текстов на русском языке общим объемом более 2 млрд слов, оснащенная лингвистической разметкой и инструментами поиска.
- Газетный корпус
- Поэтический корпус
- Русская классика
- Социальные сети
- 2007 - Present
Параллельный корпус переводов «Слова о полку Игореве»
Инструмент сопоставительного чтения более 200 переводов средневекового памятника на современный русский язык и другие языки.
- Разработка
- Выравнивание
- Исследования