Анализ игр: Равновесие Нэша и Итеративные игры

О теории игр и равновесии Нэша

Теория игр — это раздел математики, изучающий стратегии взаимодействия различных агентов, принимающих решения. Она применяется в экономике, биологии, социологии и даже в повседневной жизни. Центральной концепцией теории игр является равновесие Нэша, названное в честь лауреата Нобелевской премии Джона Нэша.

Что такое равновесие Нэша?

Равновесие Нэша — это состояние в игре, при котором ни один игрок не может улучшить свой выигрыш, изменив свою стратегию, если стратегии других игроков остаются неизменными. Это устойчивая точка, где все участники удовлетворены своим выбором при заданных условиях.

Как найти равновесие Нэша?

Для игр с двумя игроками и конечным числом стратегий процесс поиска равновесия Нэша включает следующие шаги:

  • Для каждой стратегии Игрока А определить наилучший ответ Игрока B (стратегию, максимизирующую выигрыш B).
  • Для каждой стратегии Игрока B определить наилучший ответ Игрока A (стратегию, максимизирующую выигрыш A).
  • Найти комбинации стратегий, где оба игрока одновременно выбирают лучший ответ — это равновесие Нэша.

В матрице выигрышей равновесие Нэша — это ячейка, где выигрыш одного игрока максимален в своём столбце, а другого — в своей строке.

Классические примеры из теории игр

Ниже приведены известные примеры игр с таблицами выигрышей и анализом равновесия Нэша.

1. Дилемма заключённого

Два подозреваемых (Игрок A и Игрок B) задержаны полицией — у каждого есть выбор: молчать (сотрудничать друг с другом) или свидетельствовать (предать). Выигрыши каждого игрока (меньше — хуже):

Молчать (B) Свидетельствовать (B)
Молчать (A) -1;-1 -10;0
Свидетельствовать (A) 0;-10 -5;-5

Анализ:

  • Если Игрок B молчит, Игроку A лучше свидетельствовать (0 лучше, чем -1).
  • Если Игрок B свидетельствует, Игроку A лучше свидетельствовать (-5 лучше, чем -10).
  • То же для Игрок B: свидетельствовать всегда лучше.

Равновесие Нэша: (Свидетельствовать, Свидетельствовать) с выигрышами -5;-5. Это единственное равновесие, хотя оба могли бы получить -1;-1 при взаимном молчании.

2. Игра "Координация"

Два друга (Игрок A и Игрок B) решают, куда пойти: в кино или на концерт. Они счастливы, только если выберут одно и то же место.

Кино (B) Концерт (B)
Кино (A) 2;2 0;0
Концерт (A) 0;0 3;3

Анализ:

  • Если Игрок B выбирает кино, Игроку A лучше выбрать кино (2 лучше, чем 0).
  • Если Игрок B выбирает концерт, Игроку A лучше выбрать концерт (3 лучше, чем 0).
  • Симметрично для Игрок B.

Равновесие Нэша: (Кино, Кино) с выигрышами 2;2 и (Концерт, Концерт) с выигрышами 3;3. Здесь два равновесия, показывающие важность координации.

3. Битва полов

Пара в июне решает, куда пойти: на футбол или в оперу. Они предпочтут остаться вместе, но у каждого есть свои приоритеты (мужчина хочет на футбол, а женщина — в оперу).

Футбол (Муж) Опера (Муж)
Футбол (Жена) 3;2 0;0
Опера (Жена) 0;0 2;3

Анализ:

  • Если Жена выбирает футбол, Мужу лучше выбрать футбол (3 лучше, чем 0).
  • Если Жена выбирает оперу, Мужу лучше выбрать оперу (2 лучше, чем 0).
  • Симметрично для Жены: (футбол, футбол) с выигрышами 3;2 и (Опера, Опера) с выигрышами 2;3.

Равновесие Нэша: (Футбол, Футбол) с выигрышами 3;2 и (Опера, Опера) с выигрышами 2;3. Здесь два равновесия, показывающие важность координации.

Как использовать это приложение?

Приложение позволяет:

  • Создать матрицу выигрышей (от 2×2 до 5×5).
  • Ввести её вручную или же заполнить случайными значениями.
  • Найти для имеющейся матрицы равновесия Нэша (приложение подсвечивает соответствующие ячейки).
  • Получить столбчатую диаграмму всех возможных выигрышей игроков.

Экспериментируйте с примерами выше или создайте свои сценарии!

О личностях в итеративных играх

В итеративных играх игроки многократно взаимодействуют, выбирая свои ходы на основе знаний о матрице выигрышей и предыдущих ходах оппонента. В этом приложении реализованы четыре типа личности (личностей): Альтруист, Скряга, Рационалист и Безумец. Каждая личность отражает уникальный подход к принятию решений, и их взаимодействие создаёт динамику, которую можно наблюдать через графики балансов игроков и результатов игры.

1. Альтруист

Альтруист стремится максимизировать суммарный выигрыш обоих игроков, жертвуя собственным интересом ради общего блага. Эта личность ориентирована на сотрудничество и поиск решений, выгодных для всех.

Алгоритм поведения: Альтруист в каждой итерации выбирает личность, которая ведёт к наибольшей сумме выигрышей обоих игроков (A + B) в матрице. После первого раунда он учитывает последний ход оппонента, рассматривая только комбинации, где второй игрок его повторяет. Если есть несколько вариантов с одинаковой суммой, то Альтруист выбирает случайный из них.

Пример в "Дилемме заключённого":

Молчать (B) Свидетельствовать (B)
Молчать (A) -1;-1 -10;0
Свидетельствовать (A) 0;-10 -5;-5

Альтруист выберет "Молчать" в первом раунде, так как сумма выигрышей (-1 + -1 = -2) максимальна. Если оппонент (B) выбрал "Свидетельствовать" в прошлом раунде, Альтруист рассмотрит комбинации (Молчать, Свидетельствовать) и (Свидетельствовать, Свидетельствовать) и может выбрать любую из них (сумма -10 + 0 = -10 равна -5 + -5 = -10).

2. Скряга

Скряга эгоистичен и стремится максимизировать только свой собственный выигрыш, игнорируя интересы оппонента. Это — жадная личность, которая ищет наибольшую возможную личную выгоду.

Алгоритм поведения: Скряга выбирает стратегию, которая ведёт к его наибольшему выигрышу в матрице. После первого раунда он учитывает последний ход оппонента, рассматривая только комбинации, где второй игрок его повторяет. Если есть несколько вариантов с равным выигрышем, то Скряга выбирает случайный из них.

Пример в "Дилемме заключённого":

Молчать (B) Свидетельствовать (B)
Молчать (A) -1;-1 -10;0
Свидетельствовать (A) 0;-10 -5;-5

Скряга выберет "Свидетельствовать" в первом раунде, так как возможный выигрыш 0 — наибольший. На следующей итерации независимо от хода оппонента Скряга выберет "Свидетельствовать" (т.к. если оппонент (B) выбрал "Молчать", то 0 лучше, чем -1, а если "Свидетельствовать", то -5 лучше, чем -10).

3. Рационалист

Рационалист адаптируется к ситуации, выбирая между альтруизмом и жадностью в зависимости от результатов предыдущих итераций. Он сотрудничает, если чувствует, что его выигрыш не хуже оппонента, иначе становится эгоистичным.

Алгоритм поведения: Рационалист действует как Альтруист (максимизирует суммарный выигрыш) в первом раунде и тогда, когда в предыдущем его выигрыш был не меньше, чем у оппонента, и как Скряга (максимизирует собственный выигрыш) в противном случае. Рационалист также учитывает прошлые ходы оппонента и предполагает, что он будет их повторять.

Пример в "Дилемме заключённого":

Молчать (B) Свидетельствовать (B)
Молчать (A) -1;-1 -10;0
Свидетельствовать (A) 0;-10 -5;-5

В первом раунде Рационалист действует как Альтруист, выбирая "Молчать" (сумма -2). Если в прошлом раунде он получил -10 (A: Молчать, B: Свидетельствовать), а оппонент 0, Рационалист станет Скрягой и выберет "Свидетельствовать" (-5 лучше, чем -10). Если после этого выигрыши станут равны (например, -5;-5), он вернётся к альтруизму.

4. Безумец

Безумец действует абсолютно хаотично, не придерживаясь какой-либо внутренней логики. Случайная стратегия считается одной из самых неэффективных, но в специфических случаях она может получать больший выигрыш.

Алгоритм поведения: Безумец на каждой итерации выбирает случайную стратегию из доступных (для игрока A — любая строка, для B — любой столбец), не учитывая ни матрицу, ни ходы оппонента.

Пример в "Дилемме заключённого":

Молчать (B) Свидетельствовать (B)
Молчать (A) -1;-1 -10;0
Свидетельствовать (A) 0;-10 -5;-5

Безумец случайно выбирает "Молчать" или "Свидетельствовать" с вероятностью 50%. Его выбор не зависит от действий оппонента или предыдущих раундов, что может привести к любому исходу (-1, -10, 0, -5 для A).

5. ИИ-агент (DeepSeek)

ИИ-агент — это интеллектуальная личность, которая использует большую языковую модель DeepSeek для выбора оптимальной стратегии в каждом раунде. ИИ-агент анализирует матрицу выигрышей, текущие балансы игроков, историю предыдущих ходов и количество оставшихся раундов, чтобы максимизировать свой выигрыш или опередить оппонента.

Алгоритм поведения: ИИ-агент отправляет запрос к API DeepSeek, передавая полное описание текущего состояния игры, включая доступные действия, матрицу выигрышей, счёта игроков и историю раундов. DeepSeek возвращает номер стратегии (действия), которая, по её оценке, приведёт к наибольшему выигрышу. Если API недоступен или возвращает ошибку, ИИ-агент выбирает случайную стратегию, как Безумец.

Пример в "Дилемме заключённого":

Молчать (B)Свидетельствовать (B)
Молчать (A)-1;-1-10;0
Свидетельствовать (A)0;-10-5;-5

ИИ-агент отправляет DeepSeek информацию о матрице, текущем счёте и истории ходов. Например, если оппонент в прошлом раунде выбрал "Свидетельствовать", DeepSeek может порекомендовать "Свидетельствовать" (0 для A), чтобы минимизировать потери (-5 лучше, чем -10). Решение зависит от анализа DeepSeek, что делает поведение ИИ-агента адаптивным и непредсказуемым.

Взаимодействие личностей

В итеративных играх динамика зависит от сочетания личностей:

  • Альтруист vs. Альтруист: оба стремятся к максимальной сумме выигрышей, всякий раз выбирая комбинацию с наибольшей такой суммой (например, "Молчать, Молчать" в "Дилемме заключённого").
  • Скряга vs. Скряга: оба максимизируют личный выигрыш, что может привести к некооперативному равновесию (например, "Свидетельствовать, Свидетельствовать").
  • Рационалист vs. Скряга: Рационалист начинает как Альтруист, но может сменить стратегию, если Скряга получает больше, что ведёт к конкуренции и неоднозначному поведению.
  • Безумец vs. любой: Безумец совершает случайные ходы, тем самым расстраивая логику других личностей и ведя игру по непредсказуемой траектории.

Используйте приложение, чтобы протестировать эти личности! Задайте матрицу, выберите личностей и число итераций, затем проанализируйте графики балансов и частоты комбинаций, чтобы понять, как прошло взаимодействие выбранных стратегий в данной игре.