Цепочка рассуждений (Chain-of-Thought) как способ выявления логики в больших языковых моделях

Цепочка рассуждений (Chain-of-Thought) как способ выявления логики в больших языковых моделях
Photo by Qwen2.5-Turbo

Метод цепочки рассуждений (Chain-of-Thought) для активации логического мышления в больших языковых моделях

Авторы: Джейсон Вей, Сюэчжи Ван, Дейл Шурманс, Мартен Босма, Брайан Иктер, Фэй Ся, Эд Чи, Куок Ле, Денни Чжоу
Google Research, Brain Team

Аннотация

Мы исследуем, как генерация цепочки рассуждений — последовательности промежуточных логических шагов — значительно улучшает способность больших языковых моделей выполнять сложные логические задачи. В частности, мы демонстрируем, что такие способности естественным образом проявляются в достаточно крупных моделях с помощью простого метода подсказок с цепочкой рассуждений, где несколько примеров таких рассуждений включаются в промпт.

Эксперименты с тремя крупными языковыми моделями показали, что этот метод улучшает производительность в арифметических, общесмысловых и символических задачах. Результаты впечатляют: например, использование всего 8 примеров с цепочкой рассуждений для модели PaLM 540B позволило достичь рекордной точности на benchmark GSM8K (математические текстовые задачи), превзойдя даже fine-tuned GPT-3 с верификатором.

Ключевые особенности метода:

  1. Разложение задачи на шаги, что позволяет выделять больше вычислительных ресурсов для сложных задач.
  2. Интерпретируемость: цепочка рассуждений делает процесс мышления модели прозрачным.
  3. Универсальность: метод применим к арифметике, здравому смыслу и символическим задачам.
  4. Простота: не требует тонкой настройки модели, достаточно включить примеры в промпт.

Пример работы метода:

Стандартный промпт:

Вопрос: "У Роджера 5 теннисных мячей. Он купил 2 банки с мячами (по 3 мяча в каждой). Сколько у него мячей теперь?"
Ответ: "11".

Промпт с цепочкой рассуждений:

Вопрос: Тот же.
Ответ: "У Роджера было 5 мячей. 2 банки по 3 мяча — это 6 мячей. 5 + 6 = 11. Ответ: 11".

Результаты показывают, что метод особенно эффективен для моделей с масштабом >100 млрд параметров, что подтверждает его эмерджентные свойства, зависящие от масштаба модели.

💡
Эмерджентные свойства - свойства целостности, которые возникают при взаимодействии элементов системы, но не работают по отдельности. Например портрет по отдельности это штрихи и кружочк. А вместе - рисунок.

Основные разделы (кратко):

Арифметические задачи:

  • Метод улучшает точность на 30–40% для сложных многошаговых задач (GSM8K, SVAMP).
Пример: решение задач вида "Если в кафетерии было 23 яблока, использовали 20, затем купили 6, сколько стало?" с пошаговыми вычислениями.

Здравый смысл:

  • Применение к задачам из CSQA и StrategyQA, где модели учатся выстраивать логические связи (например, "Может ли Гарри Поттер забронировать авиабилет?").

Символические задачи:

  • Обобщение на последовательности длиннее, чем в примерах (например, конкатенация последних букв в именах из 3–4 слов).

Ограничения:

  • Требуются крупные модели (>100 млрд параметров).
  • Нет гарантии корректности сгенерированных рассуждений.

Заключение

Метод цепочки рассуждений открывает новые возможности для решения сложных задач без тонкой настройки. Будущие исследования могут изучить его применимость к другим областям, таким как машинный перевод или анализ текста.


Ссылка на источник

Дмитрий Петров

Дмитрий Петров

Редактор статей Голос TTS
PRMPT.RU