ГайдНачинающим

Как выбирать AI для работы: сравнение моделей апреля 2026

Сводный гайд на основе независимых бенчмарков апреля 2026. Какую модель взять для кода, текста, анализа данных. Свежие данные по Claude Opus 4.7 и Mythos. Цены, стратегии, российские альтернативы.

Обновлено 17 апреля 2026 г.Автор: Сергей Попов~29 мин чтения✓ Проверено

Как выбирать AI для работы

Меня часто спрашивают: «Какую модель брать под код?», «Gemini или GPT?», «Стоит ли платить за Opus, если Sonnet в 1.7 раза дешевле?». Вопросы повторяются, а ответы — меняются каждые пару месяцев. Поэтому решил собрать в одном месте то, чем пользуюсь сам, плюс свежие цифры из независимых тестов: Chatbot Arena, Artificial Analysis, Vellum, SWE-bench, GPQA, EQ-Bench, JetBrains Survey. Данные актуальны на апрель 2026.

★Быстрый ответ для тех, кто не хочет читать

Нет модели, которая лучше во всём. Если в двух словах:

Claude → кодинг и тексты · Gemini → длинные документы и задачи, где надо долго думать · GPT → математика и данные · DeepSeek → когда бюджет решает всё.

Ниже — почему именно так, и что поменялось после вчерашнего релиза Opus 4.7.

Что поменялось за год

Ещё год назад был условный топ-3 — GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Сегодня ни одной из этих моделей в продакшене нет. Их все депрекировали: провайдер решил, что модель устарела, и рано или поздно её просто отключат. Темп — 3–4 цикла обновлений у каждой большой лаборатории за 15 месяцев.

Что при этом реально поменялось — три вещи.

Первое. Открытые модели догнали закрытые. Когда-то это были две разные вселенные: с одной стороны условная GPT, доступ только через API провайдера, с другой — всякие Llama, которые можно скачать и крутить у себя. В апреле 2026 DeepSeek V3.2 (это open-source — веса в открытом доступе, качай и запускай где хочешь) даёт около 85% того, что умеет фронтир (передовая граница индустрии, лучшие модели сейчас). При этом стоит в 5 раз дешевле GPT-5.4.¹ Раньше такое было невозможно.

Второе. Цены упали процентов на 80. Claude Opus в начале 2025-го стоил $15 за миллион входящих токенов и $75 за миллион исходящих (около 1 350 и 6 750 ₽ по курсу на тот момент). Сейчас — $5 и $25 (примерно 450 и 2 250 ₽).

Короткая справка про токены — на всякий случай. Токен — это единица, которой модель меряет текст: ≈ 0.75 слова на английском и ≈ 0.5 слова на русском. Входящие — ваш запрос. Исходящие — ответ модели. Считаются отдельно, исходящие обычно дороже в 3–5 раз. И да, миллион токенов — это примерно весь текст «Войны и мира». Не одной главы, а всего романа.

Третье. Старые бенчмарки (стандартные тесты, одинаково прогоняемые через все модели) больше ничего не показывают. MMLU, HumanEval, MATH-500 — на всех фронтирных моделях 90%+. Вы не увидите там разницы. Интересное сейчас на других тестах: SWE-bench Pro (реальные баги из production крупных компаний), GPQA Diamond (вопросы уровня PhD по биологии, химии и физике) и ARC-AGI-2 (абстрактное рассуждение — один из редких бенчмарков, которые пока никто не решил).

Актуальный фронтир: апрель 2026

Вчера, 16 апреля, Anthropic выпустил Claude Opus 4.7. И этот релиз интересен не тем, что Opus 4.7 — новый флагман. А тем, что Anthropic сами говорят: это не их лучшая модель. Об этом — через раздел.

Провайдер	Топовая модель	Бюджетная
Anthropic	Claude Opus 4.7	Claude Haiku 4.5
OpenAI	GPT-5.4	GPT-5.4 Mini
Google	Gemini 3.1 Pro	Gemini 2.0 Flash
xAI	Grok 4.1	Grok 4.1 Fast
DeepSeek	DeepSeek V3.2	DeepSeek V3.2
Meta	Llama 4 Maverick	Llama 4 Scout

Главная интрига: Claude Mythos

Прежде чем говорить про выбор — нужно сказать про Mythos.

В марте Fortune наткнулся на ~3000 внутренних документов Anthropic в незащищённом хранилище. Классический data leak (утечка данных из-за ошибки конфигурации). Среди документов — черновик анонса новой модели под кодовым именем Capybara. Внутри компании её называют «шаговым изменением» над всем, что было.²

Смотрите сами.

SWE-bench — главный бенчмарк на починку реальных багов в open-source проектах. У него два варианта: Verified (500 отобранных задач) и Pro (более грязные кейсы из production крупных компаний, сложнее). Mythos:

SWE-bench Verified: 93.9% — против 80.8% у Claude Opus 4.6 и 80.6% у GPT-5.4³
SWE-bench Pro: 77.8% — против 64.3% у только что вышедшего Opus 4.7³
USAMO 2026 (олимпиада США по математике): 97.6% — скачок на 55 пунктов относительно Opus 4.6³
GPQA Diamond: 94.6%³
Cybench (бенчмарк по кибербезопасности): 100% pass@1 — то есть каждая задача решена с первой попытки, без повторов³

Anthropic подтвердил существование Mythos 8 апреля и запустил Project Glasswing — закрытую программу для примерно 50 организаций. Apple, Google, Microsoft, Amazon и ещё несколько компаний получили на всех $100 млн (≈ 9 млрд ₽) кредитов использования. Работают с Mythos в оборонительных целях.⁴

Почему закрытый доступ?

Потому что Mythos умеет сам, без пошаговых подсказок, находить zero-day уязвимости. Zero-day — это дыра в софте, о которой никто кроме нашедшего не знает. Потенциально оружие. И Mythos не только находит — он сразу пишет рабочий эксплойт. В том числе нашёл баг в OpenBSD возрастом 27 лет.⁴

Anthropic прямо говорят: публичного релиза не будет, пока критическая инфраструктура мира не станет надёжнее.

Для нас с вами Mythos — это модель, которой как бы не существует. Попросить её нельзя, купить тоже. Но важно понимать контекст: вчерашний Opus 4.7 сами авторы называют «менее мощным, чем наш лучший». Лучший — Mythos.

Какую модель брать под задачу

Код

Opus 4.7 вышел вчера, и он сразу перевернул столик.

SWE-bench Pro: 64.3% — у GPT-5.4 57.7%, у Gemini 3.1 Pro 54.2%⁵
SWE-bench Verified: 87.6%⁵
CursorBench (это про автономный кодинг внутри редактора Cursor): 70% — у Opus 4.6 было 58%⁶
Rakuten-SWE-Bench: в 3 раза больше решённых production-задач чем у Opus 4.6⁷

Я читал JetBrains Survey (они опросили больше 24 000 разработчиков). У Claude Code adoption 18% — то есть им реально пользуется почти каждый пятый из опрошенных. CSAT 91% (доля довольных клиентов), NPS 54 (это про готовность рекомендовать, шкала от −100 до +100 — пятьдесят четыре это очень много). По всем трём метрикам Claude Code — первое место среди AI-инструментов для кода.⁸

Если вам нужен автокомплит прямо в IDE — тут отдельный разговор. Лучший — Codestral от Mistral: 95.3% Fill-in-Middle (это когда дополняем код не в конце файла, а в середине — гораздо сложнее для модели) и первое место на LMSys Copilot Arena. Бесплатная альтернатива, если готовы держать модель на своём железе (self-host) — Qwen 2.5 Coder 32B под лицензией Apache 2.0. Никаких ограничений, коммерческое использование разрешено.

✦Совет

Если уже сидите на Claude Code — просто не переключайтесь. По данным JetBrains, это пока лучший опыт работы с AI для разработчика.

Тексты, UX-копирайтинг

Здесь Claude Sonnet 4.6 ушёл в отрыв. Есть такой тест — EQ-Bench, меряет эмоциональный интеллект и качество диалога. Считают в шахматной логике: чем выше Elo, тем чаще твоя модель побеждает в слепых сравнениях. У Sonnet 4.6 там 1936. Это, грубо говоря, потолок.

В работе разница ощущается моментально. У Claude почти нет того самого AI-тона — ну вы его узнаете: «безусловно», «следует отметить», ровные-ровные предложения одной длины. Читаешь и прямо видишь робота. У Claude этого в речи сильно меньше.

GPT-5 на старте прилетело за плоский стиль, и в Anthropic явно подняли натуральность речи в топ приоритетов. Отсюда и отрыв.

Про переводы у меня такая логика. Opus 4.7 — для маркетинга и всего, где важны полутона и живая интонация. GPT-5.4 — для технической документации, там цена ошибки в термине высокая. А для китайского, японского и корейского (их называют одним словом CJK-языки) — отдельная история, лучше брать Qwen-MT Turbo.

Анализ данных

А тут у меня безальтернативно GPT-5.4 с режимом Advanced Data Analysis. Это не «дам совет и убегу» — модель пишет Python прямо в чате, сама его крутит, ловит ошибки, возвращает графики. Понадобится предсказать что-нибудь — обучит вам маленькую модель на ходу, не моргнёт.

С математикой у GPT-5.4 тоже отдельная история: все варианты AIME (американская школьная математическая олимпиада) — 99 из 99. На Frontier Math, где задачи на уровне научных исследований, — 47.6%.⁹ До недавнего времени обе цифры казались фантастикой.

Claude Opus 4.7 беру, когда на входе большой CSV или Excel, и главное — не нарваться на галлюцинации. Галлюцинация, если проще — это когда модель уверенно выдаёт фигню: сочиняет функцию, которой нет в библиотеке, или цитирует несуществующий отчёт. У Claude на плотных цифровых данных таких приколов почти не встречается.

Длинные документы

Тут тема Gemini 3.1 Pro. Миллион токенов контекста, GPQA Diamond 94.3%, а на SWE-Pro выдаёт 72 против жалких 57.7 у GPT. Главная магия — теряет всего 2.3 пункта качества, когда контекст пухнет с 4 до 128 тысяч.¹⁰

Вообще Gemini — король задач, где надо думать. Я имею в виду то, что называют словом reasoning: модель не выплёвывает ответ сразу, а сначала сама с собой поспорит — выстраивает цепочку мыслей, ловит свои же ошибки, переделывает. На серьёзной аналитике без этого никак.

Только. Важно держать в уме одну вещь.

В январе 2026 ребята из Chroma (они делают векторные базы для AI, тема им родная) выкатили исследование, и оно неприятное: извлечение смысла из длинного контекста проседает задолго до рекламируемых лимитов. Надпись «1M контекст» и реальная удерживаемая моделью в голове информация — разные вещи. Чем больше объём — тем хуже связи. Лайфхак простой: бейте большую задачу на куски, и качество вырастет.

Для юридики и финансов беру Opus 4.7 или GPT-5.4. DeepSeek для конфиденциального не трогаю. Их пользовательское соглашение прямым текстом разрешает использовать ваши запросы для дообучения моделей. Серверы — в Китае. Для NDA, персональных данных и финансовой информации — строго мимо, без вариантов.

Продуктовые задачи

Всё, что связано с продуктом — PRD, стратегия, сравнение с конкурентами. PRD (Product Requirements Document) по-простому — это описание фичи: что делаем и зачем.

Productboard (сервис для управления продуктовым бэклогом) в начале года опросили 379 продактов из крупных компаний. 94% признались, что тянутся к AI каждый день. Среднее ускорение — четыре часа на задачу. А в ChatPRD — это AI-инструмент специально под написание PRD, у них уже больше 100 000 продакт-менеджеров в аудитории — Claude называют лучшим выбором конкретно для этой задачи. По моим ощущениям — в точку.

Конкурентный анализ — это территория Grok 4. Единственная топовая модель, которую прямо вшили в X (раньше звался Твиттером, если кто забыл). Живая лента, свежие обсуждения, реальные настроения прямо сейчас. Ну а если нужно что-то более структурное и серьёзное — GPT-5.4 или Opus 4.7 отлично справятся.

Автоматизация рабочего стола

Отдельная история с GPT-5.4. Впервые модель научилась работать за компьютером лучше среднего человека. 75%, когда фронтир раньше тянул максимум 40.

Речь вот о чём. Мы говорим модели «зайди на сайт, зарегистрируйся, скачай отчёт за февраль, вбей цифры в таблицу». Никаких API, никаких костылей — просто курсор, клики, окна, как у обычного юзера. Ещё полгода назад это был скорее цирк, чем рабочий инструмент. Сейчас — можно строить реальные рабочие сценарии. Если вам нужна такая автономия — на сегодня выбора особо нет, только GPT-5.4.

Агентные задачи и tool use

Это когда модель сама вызывает внешние инструменты: лезет в базу, делает API-запрос, запускает функцию из вашего кода. На английском называется tool use или function calling. Тема отдельная и для продакшена — критичная.

Главный критерий здесь не «как хорошо модель отвечает», а насколько стабильно она делает валидный JSON-вызов. JSON — это просто формат, в котором модель говорит «вызови такую-то функцию с такими параметрами». Если модель путается в кавычках или забывает поле — цепочка ломается.

По моему опыту и по данным бенчмарков: Claude Opus 4.7 и GPT-5.4 — топ по стабильности. Gemini 3.1 Pro тоже умеет, но чаще даёт странный JSON на сложных схемах. DeepSeek V3.2 и Llama 4 — для простых сценариев сойдёт, для production с десятком tool'ов я бы не рисковал.

Отдельно стоит сказать про structured outputs (или JSON mode — названия разные у провайдеров). Это режим, в котором модель гарантированно возвращает валидный JSON по заданной схеме. Если обычный tool use иногда промахивается — забывает поле, ставит лишнюю запятую, — то в structured outputs этого не бывает в принципе, провайдер проверяет структуру на своей стороне. Есть у OpenAI (response_format: json_schema), у Anthropic (через tools с strict: true) и у Google (через responseSchema). Если строите production-пайплайн на tool use — включайте сразу.

Сводная таблица: задача → модель

Задача	Лучший выбор	Второй выбор	Бюджетный
Генерация кода	Claude Opus 4.7	GPT-5.4	DeepSeek V3.2
Дебаггинг / SWE	Claude Opus 4.7	GPT-5.4	DeepSeek V3.2
IDE-автокомплит	Codestral	GitHub Copilot	Qwen 2.5 Coder 32B
Агентные задачи	Claude Opus 4.7	GPT-5.4	Gemini 2.0 Flash
UX-копирайтинг	Claude Sonnet 4.6	Claude Opus 4.7	Claude Haiku 4.5
Перевод	Claude Opus 4.7	GPT-5.4	DeepSeek V3.2
Анализ данных / CSV	GPT-5.4	Claude Opus 4.7	Claude Sonnet 4.6
Длинные документы	Gemini 3.1 Pro	Claude Opus 4.7	Gemini 2.5 Pro
Юридика / финансы	Claude Opus 4.7	GPT-5.4	— (не экономить)
PRD / стратегия	Claude Opus 4.7	Claude Sonnet 4.6	—
Конкурентный анализ	Grok 4	GPT-5.4	DeepSeek V3.2
Научный анализ	Gemini 3.1 Pro	Claude Opus 4.7	DeepSeek R1
Мультимодальность	Gemini 3.1 Pro	GPT-5.4	Llama 4 Maverick
Desktop automation	GPT-5.4	—	—

«Агентная задача» — это когда модель делает многошаговое действие автономно, без подсказок на каждом шаге. Например: «проанализируй репозиторий, найди причину падающего теста, почини и прогони всё заново». Раньше такое было невозможно, сейчас — топовые модели справляются на реальных задачах.

Цены: апрель 2026

Дальше — самое полезное. Цены за миллион токенов (сначала input, потом output). В скобках рядом — примерные цифры в рублях по курсу ~90 ₽/$ на апрель 2026 (ЦБ РФ).

Модель	Input	Output	В рублях (input / output)	Контекст
GPT-5.4	$2.50	$10–15	225 ₽ / 900–1350 ₽	1M
Claude Opus 4.7	$5.00	$25.00	450 ₽ / 2250 ₽	1M
Claude Sonnet 4.6	$3.00	$15.00	270 ₽ / 1350 ₽	1M
Gemini 3.1 Pro	$2.00	$12.00	180 ₽ / 1080 ₽	1M
Gemini 2.5 Pro	$1.25	$10.00	113 ₽ / 900 ₽	1M
Gemini 2.0 Flash	$0.10	$0.40	9 ₽ / 36 ₽	1M
DeepSeek V3.2	$0.28	$0.42	25 ₽ / 38 ₽	163K
Grok 4.1 Fast	$0.20	$0.50	18 ₽ / 45 ₽	2M
Claude Haiku 4.5	$1.00	$5.00	90 ₽ / 450 ₽	200K

Сколько это на реальных задачах

Абстрактные «доллары за миллион токенов» плохо бьются с ощущением «дорого/дёшево». Вот три конкретных примера, которые сам считал.

Разбор договора через Claude Opus 4.7. Договор на 20 страниц — это ~15 000 токенов на вход. Ответ модели (саммари + список рисков + рекомендации) — ~1 500 токенов на выход. Считаем: 15 × $0.005 + 1.5 × $0.025 = $0.11. По курсу — около 10 рублей за один договор. Если прогонять сотню в день — меньше 1000 ₽/день.

PRD на новую фичу через Claude Sonnet 4.6. На входе бриф и два прошлых PRD для контекста — ~5 000 токенов. На выходе развёрнутый документ с обоснованием — ~3 000 токенов. 5 × $0.003 + 3 × $0.015 = $0.06. По курсу — 5–6 рублей за один PRD.

Классификация 10 000 коротких обращений в поддержку через Gemini 2.0 Flash. Каждое обращение — 200 токенов на вход, 50 на выход (категория + confidence score, то есть уверенность модели в ответе). Считаем цену за один токен: $0.10 / 1 000 000 = $0.0000001 для input, $0.40 / 1 000 000 = $0.0000004 для output. Итого: 10 000 × (200 × $0.0000001 + 50 × $0.0000004) = $0.4. По курсу — меньше 40 рублей за десять тысяч классификаций.

Логика одна: берёте средние размеры своего типового запроса и ответа, умножаете на тариф, получаете стоимость одного обращения. Это проще чем кажется.

✦Как посчитать токены до отправки

Чтобы заранее оценить, не примерно, а точно — есть готовые библиотеки. Для OpenAI это tiktoken (пакет на Python), для Anthropic — anthropic-tokenizer, для Google — счётчик прямо в SDK. Вставляете ваш промпт, получаете число токенов. Полезно, когда считаете бюджет для массовой обработки — разница между «примерно» и точным числом на 10 миллионах запросов бывает заметной.

⚠С Opus 4.7 подвох

Anthropic пишет крупными буквами «цена не изменилась». Формально да, $5/$25 за миллион токенов (≈ 450/2 250 ₽). Но у новой модели другой токенизатор, и он режет текст в среднем на 10–35% мельче, то есть токенов получается больше. Итог: прайс в табличке тот же, а реальный счёт в конце месяца вырастет процентов на 10–15. Больше всего достанется коду, JSON (формат структурированных данных — как раз то, на чём строят агентные пайплайны) и русскому (нелатинские шрифты вообще любимое блюдо токенизаторов).¹¹ Если у вас продакшен на Opus 4.6 и думаете переводить его на 4.7 — не верьте на слово, прогоните реальный трафик через обе модели и сравните счета.

Как экономить по нормальному.

Batch API. Только при работе через API — в веб-интерфейсе или чатах этого нет. Смысл такой: если ответ не нужен сиюминутно, собираете пачку запросов в файл формата JSONL (это обычный текстовый файл, где каждая строка — отдельный JSON-объект с одним запросом), отправляете одной командой и получаете ответы в течение 24 часов. Экономия — 50%. Есть у OpenAI, Anthropic и Google, реализация у всех похожая. Идеально для офлайновых пайплайнов: генерация описаний товаров, классификация архивов, массовое саммари.

Prompt Caching. Если системный промпт или большой контекст одинаковый между запросами — можно закешировать. Платите только за новое. Экономия доходит до 90%, у меня на реальных задачах выходило 60–70%. Есть у Anthropic и Google. Особенно хорошо работает для чат-ботов с длинным системным промптом и для RAG-архитектур (RAG — Retrieval Augmented Generation, это когда модель перед ответом подтягивает нужные куски из вашей базы знаний; распространённый паттерн, например в корпоративных ассистентах).

Отдельно — у некоторых провайдеров кэширование уже встроено и работает автоматически, настраивать ничего не надо. У DeepSeek и Fireworks это называется prefix caching: если начало промпта совпало с недавним запросом, цена input автоматически падает. То есть кэш работает сам собой, без специальных параметров.

✦Как включить Prompt Caching вручную (для разработчика)

В API-запросе помечаете части промпта как кэшируемые: у Anthropic это параметр cache_control: {"type": "ephemeral"} на нужном блоке, у Google — метод cached_contents. Первый запрос обычный, за сохранение кэша — небольшая надбавка (~25% к input-стоимости однократно). Следующие запросы читают из кэша в 10 раз дешевле обычного input. Кэш живёт 5 минут, обнуляется если к нему не обращаются, и продлевается с каждым новым запросом. На чат-ботах и RAG-пайплайнах экономия заметна буквально с первой же сотни обращений.

Google Free Tier. До 1000 запросов в день бесплатно. Gemini 2.0 Flash, например. Для побочных проектов и экспериментов этого обычно хватает.

✎Про fine-tuning

Часто спрашивают — а не дешевле ли дообучить модель под себя? Короткий ответ: почти никогда.

Fine-tuning (дообучение) оправдан в двух сценариях: когда у вас узкая специфика, которую фронтир не знает в принципе (редкий язык, внутренний DSL — это свой небольшой язык или шаблон описания, например специфичный формат конфигов в вашей компании, очень специфичный формат), или когда нужно выжать скорость и стоимость на массовых однотипных запросах. Во всех остальных случаях prompt engineering и prompt caching дают результат быстрее и дешевле.

Стоимость: OpenAI fine-tuning GPT-4.1 — $25 (≈ 2 250 ₽) за миллион training-токенов плюс удвоенная цена inference. Anthropic fine-tuning пока недоступен для Opus/Sonnet — только для старых Haiku. Google предлагает tuning для Gemini 1.5, но не для 3.x линейки.

И ещё момент, который часто забывают. Когда выбираете модель под прод, смотрите не только на цену, но и на скорость. Задержка до первого токена — это про «сколько ждать, пока начнёт отвечать». Скорость выдачи — сколько токенов в секунду сыпется после старта. У DeepSeek через официальный API всего 34 токена в секунду, для чата ощутимо медленно. Если берёте его — возьмите через Fireworks (это сторонний хостинг, который поднимает открытые модели на своих серверах, обычно быстрее авторских). У них 211 токенов в секунду.¹

Про прод: лимиты, аптайм, счета

Несколько моментов, которые новички обычно узнают болезненно, уже в процессе внедрения.

Rate limits. Почти все провайдеры работают по tier-системе. Новый аккаунт у Anthropic стартует с лимитом около 50 запросов в минуту на Opus, и прокачка лимита завязана на историю использования и оплаченные суммы. То есть когда запускаете продакшен — сначала упрётесь в эти 50 RPM, и надо будет либо заранее растить tier, либо подавать заявку на повышение. OpenAI примерно так же. Google — помягче, у них стартовые лимиты выше.

SLA и аптайм. Провайдеры падают. У Anthropic в первом квартале 2026 было несколько заметных инцидентов по несколько часов. Если критично — ставьте мониторинг на status.anthropic.com и держите резервный маршрут на другую модель. По моим наблюдениям и отчётам — самый стабильный аптайм у Google Vertex AI (около 99.97%). Следом OpenAI и Anthropic — плюс-минус одинаково.

Как прикинуть бюджет до старта. Примерная формула: средний input в токенах × цена за input + средний output × цена за output = стоимость одного запроса. Умножаете на запросов в день и на 30. Получится месячный счёт в первом приближении. На реальном трафике обычно выходит плюс 20–40% сверху — из-за retry, длинных хвостов и мультимодалки.

Мониторинг и observability. Без этого в прод выходить нельзя. Нужно видеть: сколько запросов прошло, сколько падает, какие модели используются, сколько тратим по каждому пользователю и фиче, откуда всплески счёта. Из инструментов под AI-стек: Langfuse (open-source, самый популярный сейчас), Helicone (в основном SaaS, хорошо ложится на OpenAI-совместимые API), LangSmith от LangChain (если уже используете их обвязку). Все три умеют логировать промпты и ответы, считать стоимость и строить графики по latency. Без этого в первый же месяц не поймёте, куда ушло лишних 30 000 рублей.

RAG vs длинный контекст vs fine-tuning

Частый вопрос от тех, кто строит AI-продукт: «у нас большая база знаний, как её подсунуть модели?». Вариантов три, и они решают разные задачи.

RAG (Retrieval Augmented Generation). Самый популярный паттерн 2026 года. Ваши документы режутся на куски, каждый кусок переводится в векторное представление и кладётся в векторную базу (ChromaDB, Pinecone, pgvector). На запрос пользователя система ищет в базе самые релевантные куски и подсовывает их модели вместе с промптом. Модель отвечает только на основе подсунутых кусков. Плюсы: легко обновлять (поменяли документ — обновили один кусок), можно хранить миллионы документов, видно источники ответа. Минусы: качество сильно зависит от поиска, на сложных вопросах может не найти нужное. Хорош для корпоративных ассистентов, документации, саппорта.

Длинный контекст. Просто засовываете весь документ целиком в промпт и задаёте вопрос. Gemini 3.1 Pro с его миллионом токенов позволяет это делать на серьёзных объёмах. Плюсы: простота, не надо строить инфраструктуру, модель видит документ целиком. Минусы: качество деградирует на длинных контекстах (исследование Chroma из раздела выше), цена на каждый запрос — весь документ в input, а это накладно. Хорош для разовых задач: разобрать один договор, проанализировать один отчёт.

Fine-tuning. Дообучаете модель на ваших данных. Обсуждали выше — дорого, долго, редко оправдано. Подходит когда нужен свой формат выходов, специфичный стиль или редкая предметная область, которую модель не знает.

Моё правило большого пальца: старт всегда с RAG или длинного контекста. Fine-tuning — только когда первые два не решают задачу.

Multi-provider routing

Отдельный паттерн, который за последний год стал мейнстримом. Вместо того чтобы привязать продукт к одной модели — берёте роутер, у которого единый API, а под капотом он умеет стучаться в разных провайдеров.

Смысл — разные задачи идут к разным моделям. Простой классификатор — через Gemini Flash. Сложная логика — в Opus 4.7. Массовая обработка без NDA — в DeepSeek. Один интерфейс, десятки моделей.

Отдельный и важный плюс роутеров — fallback. Если основной провайдер упал (а это случается), запрос автоматически перенаправляется на резервного. Например: основной маршрут — Claude Opus, если Anthropic недоступен — идём в GPT-5.4. Для продакшена это буквально вопрос жизни сервиса.

Инструменты: OpenRouter (самый популярный сейчас, много моделей, простой API), Portkey (фокус на enterprise — кэширование, логи, лимиты), LiteLLM (open-source, можно захостить у себя). Начать можно с OpenRouter — разберётесь за вечер.

Три стратегии выбора

Если собираете AI-стек на команду или компанию, имеет смысл сразу определиться со стратегией.

✎Максимум качества

Если задачи такие, что ошибка дорого стоит (юридика, финансы, продуктовая стратегия, врачебное).

Gemini 3.1 Pro ($2/$12 · ≈ 180/1 080 ₽) — reasoning, наука, длинные документы
Claude Opus 4.7 ($5/$25 · ≈ 450/2 250 ₽) — кодинг, юридика, творческий текст, PRD
GPT-5.4 ($2.50/$15 · ≈ 225/1 350 ₽) — математика, данные, desktop automation

Расходы на одного активного пользователя: $15–50 в день (примерно 1 350–4 500 ₽). Для команды в 10 человек это уже ощутимо.

✦Оптимум (мой выбор для большинства задач)

85–90% качества фронтира при 3–5× экономии. Я сам сижу примерно на этой связке.

Claude Sonnet 4.6 ($3/$15 · ≈ 270/1 350 ₽) — основная рабочая лошадка, 80% задач
Gemini 2.5 Pro ($1.25/$10 · ≈ 113/900 ₽) — длинные документы и мультимодальность
DeepSeek V3.2 ($0.28/$0.42 · ≈ 25/38 ₽) — массовые задачи, но не конфиденциальные

⚠Бюджет

70–80% качества при 20–50× экономии. Когда денег нет или задачи такие, что качество важно лишь приблизительно.

DeepSeek V3.2 — основная модель. Не использовать для конфиденциальных данных
Gemini 2.0 Flash ($0.10/$0.40 · ≈ 9/36 ₽) — простые и массовые задачи
Grok 4.1 Fast ($0.20/$0.50 · ≈ 18/45 ₽, контекст 2M) — длинные документы
Qwen 2.5 Coder 32B — кодинг через self-host (бесплатно, но нужно железо)

Мой реальный стек

Чтобы не было абстрактным — вот чем сам пользуюсь каждый день.

Claude Sonnet 4.6 и ChatGPT 5.4 — две основные рабочие лошадки. Sonnet закрывает большинство задач: тексты, PRD, переписка, мелкий код, ресёрч. ChatGPT 5.4 — когда нужен разбор данных или длинные рассуждения, там у него ощутимо сильнее.
Claude Opus 4.7 — включаю точечно. Написание кода на сложных задачах, рефакторинг, разбор архитектуры, брейншторминг. Когда качество критично и не жаль потратить токены.
GPT-5.4 отдельной строкой — для анализа данных (через Advanced Data Analysis, режим с исполнением Python прямо в чате) и длинных рассуждений.
Отдельно тестирую российские модели — Алису, YandexGPT, GigaChat. Для простых задач на русском они работают заметно лучше, чем принято думать, и важно понимать, что умеют и где применимы.

Российские модели

Коротко: YandexGPT и GigaChat в международных независимых бенчмарках не участвуют. Данные по ним есть только в российских источниках (MERA, MySummit.school), и сравнивать их с фронтиром напрямую некорректно.

Сценарий	Что взять
Российское законодательство и ГОСТы	YandexGPT, GigaChat
Деловые тексты на русском	YandexGPT
Данные не должны покидать РФ	GigaChat, YandexGPT
Возможность установки on-premise	Alice Pro, GigaChat
Экосистема Яндекса	YandexGPT / Alice AI
Кодинг	Не рекомендую
Мультиязычные задачи	Не рекомендую

По деньгам картина странная: GigaChat 2 Max (~650 ₽/1M) и YandexGPT Pro 5.1 (~1200 ₽/1M) дороже многих западных аналогов, а качество ниже. Смысл брать есть в двух случаях: данные по закону должны оставаться в российском контуре, или работа без VPN критична. Во всех остальных — я бы смотрел на зарубежное.

Про compliance и законы. Если обрабатываете персональные данные российских пользователей — по ФЗ-152 они должны храниться и обрабатываться на серверах в РФ. OpenAI, Anthropic и Google под это не подходят в принципе, даже через OpenRouter: их серверы не в России, это констатация факта. Легальные варианты: GigaChat on-premise, YandexGPT в инфраструктуре Yandex Cloud (российский контур), или self-host открытой модели (Llama, DeepSeek, Qwen) в российском дата-центре. Для европейской аудитории и GDPR — похожая история: нужен либо EU-регион провайдера (OpenAI и Anthropic это умеют), либо DPA-соглашение. Проверять compliance лучше через юриста, а не через интернет-форумы.

Отдельно про YandexGPT. Простые русские задачи она закрывает на удивление хорошо: классификация обращений, саммари коротких текстов, базовая генерация описаний, переформулирование. За фронтирный reasoning и сложный код — идти не стоит, а для массовых рутинных задач на русском это рабочий вариант, особенно когда важно, чтобы данные не улетали за пределы РФ.

И отдельно — Yandex SpeechKit. Это не LLM, а движок распознавания речи и синтеза, но упомянуть его здесь важно. Для русского языка — один из лучших на рынке. Если строите расшифровку звонков, диктофонную транскрибацию, голосового ассистента — имеет смысл смотреть именно сюда, даже если основной AI-стек у вас на западных моделях. Комбинация «SpeechKit для распознавания речи + Claude или Gemini для последующей обработки текста» — частый рабочий паттерн.

Как итог

Универсально лучшей модели нет, и в ближайший год не появится. Темп обновлений — раз в 3–4 месяца, и это значит одно: любое решение нужно пересматривать регулярно. То, что работает сегодня, через полгода будет «старое железо».

Мой короткий список для «прямо сейчас» — вариант «как есть», без экономии:

Код → Claude Opus 4.7
Тексты → Claude Sonnet 4.6
Данные, математика, автоматизация десктопа → GPT-5.4
Длинные документы и reasoning → Gemini 3.1 Pro
Бюджет → DeepSeek V3.2 (но не для конфиденциального)

Вариант 2 — если бюджет зажат, а качество всё равно нужно приличное:

Код → DeepSeek V3.2 (для прода — всё же Sonnet 4.6)
Тексты → Claude Sonnet 4.6 (уже оптимум по цене-качеству)
Данные → Claude Sonnet 4.6 вместо GPT-5.4
Длинные документы → Gemini 2.5 Pro вместо 3.1 Pro
Массовые простые задачи → Gemini 2.0 Flash или Grok 4.1 Fast

Ну и держите в голове: где-то в серверной Anthropic стоит модель, которая в одиночку взламывает браузеры. Её вам не продадут.

Словарь терминов из этой статьи

Если встретили выше что-то непонятное. Полный глоссарий живёт отдельно, здесь только то, что мне понадобилось.

Термин	Что это
LLM	Большая языковая модель. Claude, GPT, Gemini — всё LLM.
Токен	Единица, которой модель меряет текст. 1M токенов ≈ 750 000 слов ≈ «Война и мир».
Контекст	Сколько текста модель помнит в одном запросе.
Фронтир	Передовая граница индустрии — лучшие модели сейчас.
Бенчмарк	Стандартный тест, который одинаково гоняют через разные модели.
Open-source	Веса модели в открытом доступе — можно скачать и запустить.
Self-host	Запуск модели на своих серверах.
SWE-bench Verified / Pro	Бенчмарки на починку багов. Verified — 500 отобранных задач, Pro — грязные production-кейсы.
GPQA Diamond	Экспертные вопросы уровня PhD: биология, химия, физика.
USAMO	Олимпиада США по математике. Тест reasoning.
EQ-Bench	Эмоциональный интеллект модели, качество диалога.
Elo	Рейтинг как в шахматах. Чем выше — тем чаще побеждает в слепых сравнениях.
Cybench	Бенчмарк по кибербезопасности.
pass@1	Процент задач, решённых с первой попытки.
Reasoning	«Рассуждение». Модель думает перед ответом, проверяет себя.
Агентная задача	Модель делает многошаговое действие автономно.
Zero-day	Уязвимость, о которой никто кроме нашедшего не знает.
Эксплойт	Код, который использует уязвимость.
Галлюцинация	Модель уверенно выдумывает факты.
Токенизатор	Алгоритм, режущий текст на токены перед подачей в модель.
Human-level	Уровень среднего человека на задаче.
PRD	Product Requirements Document — техзадание на фичу.
CSAT	Customer Satisfaction — удовлетворённость клиентов, %.
NPS	Net Promoter Score — готовность рекомендовать. От −100 до +100.
Adoption	Доля людей, реально использующих инструмент.
Enterprise	Крупные компании, обычно от 1000 сотрудников.
Production	Боевая среда, реальные пользователи.
Input / Output токены	Входящие (запрос) и исходящие (ответ). Output обычно дороже.
Batch API	Отложенная обработка, скидка 50%.
Prompt Caching	Кэш повторных частей промпта, экономия до 90%.
Latency / throughput	Задержка до первого токена / скорость выдачи (t/s).
Tool use / function calling	Модель сама вызывает внешние функции и инструменты.
Structured outputs / JSON mode	Режим, гарантирующий валидный JSON на выходе по заданной схеме.
JSON	Формат хранения структурированных данных, который модели используют для вызова инструментов.
JSONL	Текстовый файл, где каждая строка — отдельный JSON-объект. Используется в Batch API.
Fine-tuning	Дообучение модели под конкретную задачу и данные.
DSL	Domain-Specific Language — свой небольшой язык или шаблон для узкой задачи.
Rate limits	Лимиты на количество запросов в минуту у провайдера.
SLA / uptime	Гарантия доступности сервиса, обычно в процентах за месяц.
Роутер	Инструмент с единым API, который направляет запросы в разные модели (OpenRouter, Portkey, LiteLLM).
Fallback	Автоматическое переключение на резервного провайдера при падении основного.
RAG	Retrieval Augmented Generation. Модель перед ответом подтягивает нужные куски из вашей базы знаний.
Векторная база	Хранилище текстов в виде векторов для быстрого семантического поиска (ChromaDB, Pinecone, pgvector).
Observability	Мониторинг работы AI-системы: логи промптов, стоимость, latency (Langfuse, Helicone, LangSmith).
tiktoken	Библиотека для подсчёта токенов до отправки запроса.
Prefix caching	Автоматическое кэширование повторяющегося начала промпта (у DeepSeek, Fireworks по умолчанию).
ФЗ-152	Российский закон о персональных данных: требует хранения данных россиян на серверах в РФ.
GDPR	Европейский регламент о защите данных; аналог ФЗ-152 для граждан ЕС.
CJK-языки	Китайский, японский, корейский.
Data privacy	Защита приватных данных.
Data leak	Утечка данных в открытый доступ.

Источники

1. DeepSeek V3.2 — Intelligence, Performance & Price Analysis — Artificial Analysis

2. Anthropic 'Mythos' AI model revealed in data leak — Fortune, март 2026

3. Claude Mythos Benchmarks Explained: 93.9% SWE-bench — NxCode

4. Project Glasswing: Securing critical software for the AI era — Anthropic

5. Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web

6. Claude Opus 4.7 Benchmarks Explained — Vellum AI

7. Introducing Anthropic's Claude Opus 4.7 model in Amazon Bedrock — AWS Blog

8. JetBrains Developer Survey 2026 — данные по Claude Code adoption и CSAT

9. GPT-5.4 vs Gemini 3.1 Pro — Detailed Performance & Feature Comparison — DocsBot AI

10. Gemini 3.1 Pro vs GPT-5.4: Which AI Model Should You Choose? — NxCode

11. Claude Opus 4.7 Pricing: The Real Cost Story Behind the "Unchanged" Price Tag — Finout