Цепочка рассуждений (Chain-of-Thought) как способ выявления логики в больших языковых моделях

Метод цепочки рассуждений (Chain-of-Thought) для активации логического мышления в больших языковых моделях
Авторы: Джейсон Вей, Сюэчжи Ван, Дейл Шурманс, Мартен Босма, Брайан Иктер, Фэй Ся, Эд Чи, Куок Ле, Денни Чжоу
Google Research, Brain Team
Аннотация
Мы исследуем, как генерация цепочки рассуждений — последовательности промежуточных логических шагов — значительно улучшает способность больших языковых моделей выполнять сложные логические задачи. В частности, мы демонстрируем, что такие способности естественным образом проявляются в достаточно крупных моделях с помощью простого метода подсказок с цепочкой рассуждений, где несколько примеров таких рассуждений включаются в промпт.
Эксперименты с тремя крупными языковыми моделями показали, что этот метод улучшает производительность в арифметических, общесмысловых и символических задачах. Результаты впечатляют: например, использование всего 8 примеров с цепочкой рассуждений для модели PaLM 540B позволило достичь рекордной точности на benchmark GSM8K (математические текстовые задачи), превзойдя даже fine-tuned GPT-3 с верификатором.
Ключевые особенности метода:
- Разложение задачи на шаги, что позволяет выделять больше вычислительных ресурсов для сложных задач.
- Интерпретируемость: цепочка рассуждений делает процесс мышления модели прозрачным.
- Универсальность: метод применим к арифметике, здравому смыслу и символическим задачам.
- Простота: не требует тонкой настройки модели, достаточно включить примеры в промпт.
Пример работы метода:
Стандартный промпт:
Вопрос: "У Роджера 5 теннисных мячей. Он купил 2 банки с мячами (по 3 мяча в каждой). Сколько у него мячей теперь?"
Ответ: "11".
Промпт с цепочкой рассуждений:
Вопрос: Тот же.
Ответ: "У Роджера было 5 мячей. 2 банки по 3 мяча — это 6 мячей. 5 + 6 = 11. Ответ: 11".
Результаты показывают, что метод особенно эффективен для моделей с масштабом >100 млрд параметров, что подтверждает его эмерджентные свойства, зависящие от масштаба модели.
Основные разделы (кратко):
Арифметические задачи:
- Метод улучшает точность на 30–40% для сложных многошаговых задач (GSM8K, SVAMP).
Пример: решение задач вида "Если в кафетерии было 23 яблока, использовали 20, затем купили 6, сколько стало?" с пошаговыми вычислениями.
Здравый смысл:
- Применение к задачам из CSQA и StrategyQA, где модели учатся выстраивать логические связи (например, "Может ли Гарри Поттер забронировать авиабилет?").
Символические задачи:
- Обобщение на последовательности длиннее, чем в примерах (например, конкатенация последних букв в именах из 3–4 слов).
Ограничения:
- Требуются крупные модели (>100 млрд параметров).
- Нет гарантии корректности сгенерированных рассуждений.
Заключение
Метод цепочки рассуждений открывает новые возможности для решения сложных задач без тонкой настройки. Будущие исследования могут изучить его применимость к другим областям, таким как машинный перевод или анализ текста.
Комментарии ()