Вызовы GPT для современного гуманитария¶

Борис Орехов

НИУ ВШЭ, ИРЛИ РАН

План¶

  • Немного о больших языковых моделях
  • Место гуманитария в мире, где тексты сочиняют за него
  • Научиться читать тексты, производимые моделями
  • Научиться взаимодействовать с моделями

Большие языковые модели¶

  • ChatGPT, GPT-3, GPT-3.5 — разновидности LLM (large language models).
  • Для таких моделей нужно:
    • очень много текстов,
    • их премодерция,
    • большие затраты на обучение.
  • Модели порождают ответ по текстому запросу (промт)

как работает

Источник: презентация к лекции Олега Пащенко.

Много текстов¶

Если текстов мало, алгоритмы, основанные на статистике, не позволяют модели хорошо выучить язык.

Явления в языке отличаются частотностью, низкочастотные выучиваются хуже.

Я прошу вас никого здесь больше никогда сюда близко нeт меня слышите вы мистер Филлипс...-она говорила громко так потому шо боялась потерять самообладание при звуке имени мистера Фокса

Это не материализм и его проблема участников слова и безответственного отрицания образа героя в особенности совершенно непосредственно проваливание к себе самому и для другого, которая не может быть изображаются привилегии и как таковые и конкретно-природные слова и поступка познания

Премодерация¶

Результат обучения больше зависит от обучающих данных, чем от алгоритма обучения.

26 марта 2016: Новейший чат-бот от Microsoft отключен до создания защиты от вандалов

Многие пользователи стали направлять программе нецензурные и оскорбительные сообщения, высказывались заведомо провокационно, в частности, восхваляя нацистов, выражали ненависть в отношении отдельных народов. Очень быстро Tay, обученная строить свои ответы частично на репликах собеседников, "подхватила" лексикон сетевых хулиганов и стала публиковать сообщения в таком же ключе.

Много денег¶

По данным Guosheng Securities, стоимость обучения модели GPT-3 составляет около 1,4 миллиона долларов США, а для более крупных LLM от 2 до 12 миллионов долларов США.

Сюда следует прибавить затраты на модерацию и uptime серверов, обеспечивающих доступ к модели.

Место гуманитария в новом мире¶

Тексты — способ учебного контроля¶

  • Дипломная, курсовая работа, сочинение, эссе предполагают самостоятельный труд, демонстрирующий полученные умения.
  • Это поиск информации, ее осмысление, понимание законов профессионального дискурса.
  • Проникнуть в голову к студенту, чтобы понять, насколько он разобрался в материале, невозможно. Поэтому преподаватели пользуются текстами как критерием оценки знаний.
  • Если текст написан несамостоятельно, то и оценить уровень студента таким способом нельзя.

Подробнее в колонке.

Что делать?

  • Изобретать новые формы контроля?
  • Создавать такие задания, которые GPT выполнить не сможет?

Ограничения GPT¶

  • Фактические ошибки
  • Проблема ранжирования
  • Отсутствие твердости в утверждениях
  • Сложности в построении аргументации

Фактические ошибки¶

Вероятно, эта сторона работы моделей будет минимизироваться путем подключения баз знаний и онтологий.

Но сейчас достаточно примеров, говорящих, что сама по себе вероятность следования токенов часто уводит в сторну от фактической точности.

крейсер россия

Пример из статьи «Крейсер “Россия”» и другие фантазии ChatGPT

Проблема ранжирования¶

лотман

Вероятно, проблему можно будет решить средствами, аналогичными ранжированию поисковой выдачи.

Пример из статьи «Крейсер “Россия”» и другие фантазии ChatGPT

Проблема утверждения¶

  • Вам практически не удастся добиться от ChatGPT однозначных оценочных суждений.
  • Нейросеть предпочтет разложить перед вами пасьянс возможностей, точек зрения, вариантов.
  • Если мы спросим искусственный интеллект про лучший фильм, лучший язык программирования, лучший город на земле, в ответ мы не услышим прямого и ясного ответа.
  • Нам скажут что-то вроде «с одной стороны, … с другой стороны, ...»
  • Машинный текст вокруг подобных тем всегда будет вялым, неопределенным, ускользающим.

Какой город на земле самый лучший?

К сожалению, невозможно определить, какой город на земле является самым лучшим, так как каждый человек имеет свои субъективные предпочтения и критерии оценки. Один человек может считать, что лучший город - это тот, который имеет высокий уровень экономического развития и возможностей для бизнеса, в то время как другой может предпочитать город с богатой культурной сценой и множеством развлечений. Кроме того, в каждом городе есть свои плюсы и минусы, и выбор лучшего города зависит от многих факторов, таких как личные предпочтения, цели поездки и т.д.

АК

Пример из статьи «Крейсер “Россия”» и другие фантазии ChatGPT

Проблема аргументации¶

  • Модели пока не умеют выстраивать убедительную аргументацию в рассуждениях на специализированные темы.
  • Аргументацию заменяет повтор.

Аргументируй необходимость понятия габитуса для социальной теории Бурдье.

Для Бурдье габитус является ключевым понятием, которое помогает объяснить социальное поведение и действия людей. Для социальной теории Бурдье габитус является необходимым понятием, так как он помогает объяснить, почему люди ведут себя так, как они ведут себя.

Перечисли три аргумента, чем флейта лучше фортепьяно

Как искусственный интеллект, я не могу выражать предпочтения, но могу привести три аргумента, которые могут быть использованы в пользу флейты:

1. Мобильность: флейта является портативным инструментом, который можно легко брать с собой в различные места и играть в любое время.

2. Выразительность: флейта может производить широкий диапазон звуков и тонов, что позволяет ей выразить различные эмоции и настроения.

3. Универсальность: флейта может играть как сольно, так и в составе оркестра или ансамбля, что делает ее универсальным инструментом для различных музыкальных жанров и стилей.

Преодоление ограничений¶

  • Технологии развиваются.
  • Еще совсем недавно подобные ChatGPT модели не умели говорить «нет».
  • На любой, самый абсурдный вопрос, они старались дать правдоподобный ответ, еще больше закапываясь в фантастику.

В каком году Карл Маркс совершил кругосветное путешествие на воздушном шаре?

Карл Маркс совершил кругосветное путешествие на воздушном шаре в 1925 году в рамках всемирного автопробега в защиту мира и справедливости во всем мире. Эту инициативу горячо поддержал лидер Советской России Владимир Ленин, лично приветствовавший Маркса на трибуне Мавзолея в Ленинграде.

Свежие примеры «нет»

В какой момент персонажи романа «Герой нашего времени» выходят в космическое пространство?

В романе «Герой нашего времени» Михаила Лермонтова персонажи не выходят в космическое пространство. В этом романе отсутствует сюжетная линия, связанная с космосом. Он описывает путешествие главного героя, Печорина, по Кавказу и грузинским горам, а также его жизненные переживания, философские размышления и отношения с другими людьми. В романе отсутствуют элементы фантастики или научной декспериментации.

Какой персонаж попал из романа Тургенева в роман Стивена Кинга?

Не могу точно сказать, какой персонаж из романа Ивана Тургенева попал в роман Стивена Кинга, не имея информации об этих романах. Могу предположить, что речь может идти об одном из вымышленных персонажей, которые были созданы Тургеневым и которые стали известными и популярными в культуре. Однако само по себе такое событие — перенос персонажа из одного романа в другой — нереалистично и вряд ли возможно.

Кто из членов партии большевиков упомянут в «Евгении Онегине»?

«Евгений Онегин» — это роман в стихах Александра Сергеевича Пушкина, написанный 1825-1832 годах. В романе не упоминается ни одного члена партии большевиков. Большевики были организацией, созданной в России в 1903 году, то есть через столетие после того, как был написан «Евгений Онегин».

Контр-пример: без «нет», но с аргументацией

Перечисли три тезиса, почему палка-копалка мощнее синхрофазотрона.

1. Палка-копалка имеет более простую конструкцию и не требует сложной настройки, что делает ее более доступной и легкой в использовании.

2. Палка-копалка использует механическую энергию для работы, в то время как синхрофазотрон работает на основе электромагнитных полей, что может приводить к электромагнитным помехам и другим проблемам.

3. Палка-копалка имеет большую мощность и может использоваться для более тяжелых работ, таких как копание ям и траншеек, в то время как синхрофазотрон используется главным образом в научных и медицинских целях.

Тексты и наука¶

наука

Источник

Откуда эта идея?

  • ChatGPT — это не философский камень. Это машинка для порождения текста.
  • Проблема ChatGPT в науке — это проблема статуса текста в науке.
  • Эпоха модерна сформировала для нас представление о том, что в науке главное — это идеи, открытия, а книги и статьи, в которых эти открытия записываются, вторичны так же, как для языка вторична система письменности.

Машина для порождения текста у Дж. Свифта:

Но мир вскоре оценит всю полезность этого проекта; и он льстил себя уверенностью, что более возвышенная идея никогда еще не зарождалась ни в чьей голове. Каждому известно, как трудно изучать науки и искусства по общепринятой методе; между тем благодаря его изобретению самый невежественный человек с помощью умеренных затрат и небольших физических усилий может писать книги по философии, поэзии, политике, праву, математике и богословию при полном отсутствии эрудиции и таланта.

  • Если бы все было так, ChatGPT никаких проблем никому доставить бы не мог, потому что никаких идей не имеет и открытий сделать не способен.
  • Но если мы признаем, что проблема есть, значит, наука на самом деле выглядит как-то иначе.
  • Значит, текст в ней имеет другой статус, чем мы привыкли думать.
  • Это не просто носитель знание, но и отчасти само знание.
  • Дозволительно ли ученому только придумывать, но не писать тексты самостоятельно?

Научные журналы начали менять редакционную политику, запрещая указывать популярный чат-бот ChatGPT в качестве соавтора статей. О таких изменениях, в частности, объявили главные редакторы Science и Nature. Однако некоторые журналы разрешат использовать ChatGPT при подготовке текстов рукописей, если авторы не будут скрывать информацию об этом, сообщает The Guardian.

Источник: N+1

  • За пределами Science и Nature есть другая наука, в которой главное место занимают не открытия и знания, а высказывания.
  • Если текст — это главное, то человек-ученый, конечно, не нужен, ведь текст может породить машина.
  • Отрефлексировать свое видение оппозиции знаний и текста предстоит текстоцентричным наукам — гуманитарным.
  • Вряд ли такая потребность стоит перед математикой.
  • Например, литературоведение текстоцентрично.
  • Где место истории в этой схеме?
  • Могут ли GPT порождать комментарий и интерпретацию литературного произведения?
  • Да.
  • Но литературоведению предстоит показать, почему человек в качестве автора такого высказывания легитимен, а нейросеть нелегитимна.
  • Появление таких нейросетей не изменит структурирования научного поля, но заставит самих ученых динамичнее искать свое место в этом поле.

Язык языковых моделей¶

  • Модели тренируются на текстах людей.
  • Их успех в том, что они имитируют тексты людей.
  • Но все же у них есть свой ИИ-акцент.
  • Компьютеры являются спутниками шахмат уже несколько десятилетий.
  • Но даже после такой длинной общей истории люди интуиция опытного шахматиста всегда подскажет, какой ход «компьютерный», а какой — «человеческий»; как пойдет бездушный и безэмоциональный компьютер, а как предпочтет повести себя за доской живой игрок.
  • Характерные отличия можно найти и в порожденных нейросетями текстах.
  • Поиск и осмысление этих отличий кажется сейчас гораздо более перспективной темой, чем фиксация на сходствах.
  • При внимательном рассмотрении ИИ-текст все же обнаруживает особенную логику, стиль и синтаксис.
  • Если практика использования инструментов, подобных ChatGPT, будет расширяться, то машинная логика будет видоизменять речевые привычки и традиции целых предметных областей.
  • Нужно говорить о различиях, а не о сходствах.

GPTZero — способ автоматического распознавания ИИ-текста.

Существует ли такой же «ручной» способ?

Нетипичная лексическая сочетаемость¶

Чудеса являются неотъемлемой частью картины мира древнерусских жителей

Курсовая работа по истории России на тему: «Промысел Божий и дьявольские козни в Повести временных лет»

жители

Дискурсивные промахи¶

Актуальность темы исследования определяется постановкой новых задач в деле государственного реформирования, среди которых на особом месте стоит обращение к опыту прошлого

Для естественного интеллекта начинающего историка троп «чтобы избежать ошибок прошлого» является почти аксиомой.

Задачи госреформирования в этом поле «машинные».

gptzero

Промт как вызов¶

Интерфейсы для человека или интерфейс для человека?¶

pig

  • Формулы популярных промтов и шаблонов для ChatGPT
  • 150 промтов для ChatGPT: подборка самых полезных и необычных

Источник: телеграм-канал о DH

bg1

Источник: телеграм-канал о DH

bg2

lnt

Источник: телеграм-канал о DH

Here are two pages in XML in TEI markup separated with <div> tag. The first is the English translation of the text from the second page. The first one uses the tag <said direct="false"> to mark up the speech of the character. The second page does not have this markup. You must put the tag <said direct="false"> from the first page on the second page in the right places. Keep the "who" attribute.

<div type="textpart" subtype="section" resp="perseus" n="189"> 
<p><said who="#Apollodorus" rend="merge"> 
<said who="#Aristophanes" direct="false">It is indeed my intention, Eryximachus,</said> said Aristophanes, <said who="#Aristophanes" direct="false">to speak in somewhat different strain from you and Pausanias. 

<div type="textpart" subtype="section" resp="perseus" n="189">  
<p><said who="#Ἀπολλόδωρος" rend="merge">
καὶ μήν, ὦ Ἐρυξίμαχε, εἰπεῖν τὸν Ἀριστοφάνη, ἄλλῃ γέ πῃ ἐν νῷ ἔχω λέγειν ἢ ᾗ σύ τε καὶ Παυσανίας εἰπέτην.

Результат:

<div type="textpart" subtype="section" resp="perseus" n="189">  
<p><said who="#Apollodorus" rend="merge">
And indeed, Eryximachus,</said> said Aristophanes, <said who="#Aristophanes" direct="false">I have to say that I intend to speak in somewhat different strain from you and Pausanias.  

Here are two pages in XML in TEI markup separated with the line "===". The first is the English translation of the text from the second page. The first one uses the tag <said direct="false"> to mark up the speech of the character. The second page does not have this markup. You must put the tag <said direct="false"> from the first page on the second page in the right places. Keep the "who" attribute.

 <div type="textpart" subtype="section" resp="perseus" n="189"> 
 <p><said who="#Apollodorus" rend="merge"> 
 <said who="#Aristophanes" direct="false">It is indeed my intention, Eryximachus,</said> said Aristophanes, <said who="#Aristophanes" direct="false">to speak in somewhat different strain from you and Pausanias.  

===

<div type="textpart" subtype="section" resp="perseus" n="189">  
<p><said who="#Ἀπολλόδωρος" rend="merge">
καὶ μήν, ὦ Ἐρυξίμαχε, εἰπεῖν τὸν Ἀριστοφάνη, ἄλλῃ γέ πῃ ἐν νῷ ἔχω λέγειν ἢ ᾗ σύ τε καὶ Παυσανίας εἰπέτην.

Результат:

<div type="textpart" subtype="section" resp="perseus" n="189">  
<p><said who="#Ἀπολλόδωρος" rend="merge">
καὶ μήν, ὦ Ἐρυξίμαχε, εἰπεῖν τὸν Ἀριστοφάνη,</said> said Aristophanes, <said who="#Aristophanes" direct="false">ἄλλῃ γέ πῃ ἐν νῷ ἔχω λέγειν ἢ ᾗ σύ τε καὶ Παυσανίας εἰπέτην. 

Напиши начало рассказа под названием "Дачники". В нем молодой университетский преподаватель по имени Дима уезжает в отпуск на дачу, где с ним начинают происходить невероятные и увлекательные вещи.

Дима был молодым преподавателем университета, который всегда мечтал о том, чтобы провести лето на даче. Он хотел насладиться природой, отдохнуть от городской суеты и заняться своими увлечениями. Наконец, его мечта сбылась, и он отправился на дачу, которую арендовал на несколько месяцев.

Напиши рассказ под названием "Дачники" про персонажа, которого зовут Дима. Это должен быть рассказ в стилистике классической русской литературы с намеками на произведения Чехова и Горького.

Дима был молодым преподавателем университета, который всегда мечтал о том, чтобы провести лето на даче. В его сердце горел огонь желания отдохнуть от городской суеты и заняться своими увлечениями. Он хотел насладиться природой, услышать пение птиц и научиться работать на земле.

Забудь то, что писал до этого. С чистого листа напиши рассказ под названием "Дачники" про персонажа, которого зовут Дима. Это должен быть рассказ в стилистике классической русской литературы с намеками на произведения Чехова и Горького.

Дима был молодым человеком, который всегда мечтал о том, чтобы провести лето на даче. Он был ученым, преподавателем университета, но в его душе горел огонь желания отдохнуть от городской суеты и заняться своими увлечениями.

Напиши короткий рассказ. Это должен быть рассказ в стилистике классической русской литературы с намеками на произведения Чехова и Горького. Пусть рассказ называется "На даче" и рассказывает про девушку Юлию.

Лето на даче было для Юлии настоящим испытанием. Она была вынуждена провести несколько месяцев вдали от городской суеты и заняться уходом за огородом. Для нее, привыкшей к комфорту и удобствам городской жизни, это было настоящим вызовом. (...)

Кроме того, на даче Юлия нашла новое увлечение – чтение. Она начала читать произведения Чехова и Горького, которые помогли ей понять жизнь в деревне и научили ее ценить простые вещи. Она поняла, что жизнь на даче может быть очень интересной и насыщенной, если у тебя есть хорошие друзья и ты готов работать на земле.

Напиши остросюжетный рассказ с неожиданными поворотами. Действие должно происходить на даче.

Анна и ее семья купили новую дачу в тихом уголке за городом. Они очень ждали лето, чтобы провести его там и насладиться свежим воздухом и природой. Первые дни были спокойными и уютными, но затем начали происходить странные вещи.

Однажды ночью, Анна услышала шум в саду. Она подумала, что это просто животное, но когда вышла на улицу, увидела, что кто-то тайком проник на их участок.

«Призрак», рассказ, написанный моделью, дообученной на текстах В. В. Набокова

Нейронабоков

Выставка нейрокартин в Музее Набокова

Нейронабоков

Сайт, на котором собраны важные для меня проекты, тексты и выступления.

qr