cv

Basics

Name Boris Orekhov
Label Scientist
Email nevmenandr@gmail.com
Phone (916) 526-09-51
Url https://nevmenandr.github.io/
Summary Texts & computers

Work

  • 2022.03 - Present
    Senior Research Fellow
    Laboratory for Digital Research of Literature and Folklore, Institute of Russian Literature (Pushkin House) of the Russian Academy of Sciences
  • 2013.03 - Present
    Associate Professor
    School of Linguistics, HSE University
  • 2011.01 - 2014.01
    Engineer
    Laboratory of Computer Philology, Bashkir State University
  • 2006.01 - 2011.01
    Senior Lecturer
    Department of Foreign Literature, Bashkir State Pedagogical University

Education

  • 2008.02 - 2008.02

    Voronezh, Russia

    PhD
    Voronezh State University, Voronezh, Russia
    Philology
    • Russian Literature
  • 1999.09 - 2005.06

    Ufa, Russia

    MA
    Bashkir State University, Ufa, Russia
    Philology
    • History of Russian Literature

Publications

  • 2024
    Национальный корпус русского языка 2.0: новые возможности и перспективы развития
    Вопросы языкознания
    В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020–2023 гг. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ярких новых компонента: ресурсный — новый корпус «Социальные сети», поисковый — Панхронический корпус, объединяющий поиск по корпусам разных периодов, и аналитический — функциональный комплекс статистики и визуализации данных.
  • 2023
    Hacking stylometry with multiple voices: Imaginary writers can override authorial signal in Delta
    Digital Scholarship in the Humanities
    It is a basic assumption of stylometry that texts written by the same person show greater stylometric similarity even if published under multiple pennames. Statistical authorship attribution strongly relies on the ability of Burrows’s Delta and its variants to cluster one author together regardless of pseudonyms. At the same time, the very first computational discoveries by the founder of modern stylometry showed that a single author is capable of producing multiple voices (Burrows, 1987, Computation into Criticism: A Study of Jane Austen’s Novels and an Experiment in Method. Clarendon Press). We investigate two authors whose stylistically autonomous pennames seem to deceive Delta and override authorial signals: a Portuguese poet Fernando Pessoa and a French novelist Romain Gary. Pessoa managed to create at least three pennames (the author himself used the term ‘heteronym’) who exhibit all traits of individual human beings from the stylometric point of view. Gary’s alter ego Emile Ajar, who was an intentional literary mystification, also demonstrates traits of stylometric autonomy. At the same time, other pseudonyms used by Gary lack that autonomy completely. Our investigation shows that there appears to be a continuum between a purely formal use of a penname, which brings almost no distinction from the real name of an author, and a strong literary sub-personality such as those created by Pessoa.
  • 2019
    Башкирский стих XX века. Корпусное исследование
    Алетейя
    Представлены результаты всестороннего количественного исследования башкирской системы версификации в XX веке. С использованием современных статистических инструментов подвергаются анализу все уровни организации стихотворного текста от фоники до лексики и грамматики, с особенным вниманием к метру и ритму. Количественные данные получены на корпусе текстов 103 башкирских поэтов общим объемом в 1.77 млн словоупотреблений. Анализ предварен подробным обзором науки о тюркском стихе, начиная с 1950-х годов. Утверждается, что основную роль в башкирском стихосложении XX века играют силлабические формы фольклорного происхождения узун-кюй и кыска-кюй, первая из которых специфична для поволжско-кыпчакского слогосчитающего стиха. Приводится подробное сопоставление башкирского стиха с киргизским. Книга завершается примерами поэтических текстов на башкирском языке, сгенерированных с использованием искусственных нейронных сетей.

Skills

Programming languages
Python
Perl
PHP
R
Typography
LaTeX
Font design

Languages

Russian
Native speaker
English
Fluent

Interests

Linguistics and literary studies
Linguistics
Literary studies
Digital Humanities
Natural language processing
Computer scienses
Artificial intelligence
Programming languages

Projects

  • 2012 - Present
    Национальный корпус русского языка
    Национальный корпус русского языка — представительная коллекция текстов на русском языке общим объемом более 2 млрд слов, оснащенная лингвистической разметкой и инструментами поиска.
    • Газетный корпус
    • Поэтический корпус
    • Русская классика
    • Социальные сети
  • 2007 - Present
    Параллельный корпус переводов «Слова о полку Игореве»
    Инструмент сопоставительного чтения более 200 переводов средневекового памятника на современный русский язык и другие языки.
    • Разработка
    • Выравнивание
    • Исследования