meridian
Введение
ГайдНачинающим

Как выбирать AI для работы: сравнение моделей апреля 2026

Сводный гайд на основе независимых бенчмарков апреля 2026. Какую модель взять для кода, текста, анализа данных. Свежие данные по Claude Opus 4.7 и Mythos. Цены, стратегии, российские альтернативы.

Как выбирать AI для работы

Меня часто спрашивают: «Какую модель брать под код?», «Gemini или GPT?», «Стоит ли платить за Opus, если Sonnet в 1.7 раза дешевле?». Вопросы повторяются, а ответы — меняются каждые пару месяцев. Поэтому решил собрать в одном месте то, чем пользуюсь сам, плюс свежие цифры из независимых тестов: Chatbot Arena, Artificial Analysis, Vellum, SWE-bench, GPQA, , JetBrains Survey. Данные актуальны на апрель 2026.

Быстрый ответ для тех, кто не хочет читать

Нет модели, которая лучше во всём. Если в двух словах:

Claude → кодинг и тексты · Gemini → длинные документы и задачи, где надо долго думать · GPT → математика и данные · DeepSeek → когда бюджет решает всё.

Ниже — почему именно так, и что поменялось после вчерашнего релиза Opus 4.7.

Что поменялось за год

Ещё год назад был условный топ-3 — GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 . Сегодня ни одной из этих моделей в продакшене нет. Их все депрекировали: провайдер решил, что модель устарела, и рано или поздно её просто отключат. Темп — 3–4 цикла обновлений у каждой большой лаборатории за 15 месяцев.

Что при этом реально поменялось — три вещи.

Первое. Открытые модели догнали закрытые. Когда-то это были две разные вселенные: с одной стороны условная GPT, доступ только через API провайдера, с другой — всякие Llama, которые можно скачать и крутить у себя. В апреле 2026 DeepSeek V3.2 (это  — веса в открытом доступе, качай и запускай где хочешь) даёт около 85% того, что умеет (передовая граница индустрии, лучшие модели сейчас). При этом стоит в 5 раз дешевле GPT-5.4.1 Раньше такое было невозможно.

Второе. Цены упали процентов на 80. Claude Opus в начале 2025-го стоил $15 за миллион входящих токенов и $75 за миллион исходящих (около 1 350 и 6 750 ₽ по курсу на тот момент). Сейчас — $5 и $25 (примерно 450 и 2 250 ₽).

Короткая справка про токены — на всякий случай.  — это единица, которой модель меряет текст: ≈ 0.75 слова на английском и ≈ 0.5 слова на русском. Входящие — ваш запрос. Исходящие — ответ модели. Считаются отдельно, исходящие обычно дороже в 3–5 раз. И да, миллион токенов — это примерно весь текст «Войны и мира». Не одной главы, а всего романа.

Третье. Старые бенчмарки (стандартные тесты, одинаково прогоняемые через все модели) больше ничего не показывают. MMLU, HumanEval, MATH-500 — на всех фронтирных моделях 90%+. Вы не увидите там разницы. Интересное сейчас на других тестах: SWE-bench Pro (реальные баги из  крупных компаний), (вопросы уровня PhD по биологии, химии и физике) и ARC-AGI-2 (абстрактное рассуждение — один из редких бенчмарков, которые пока никто не решил).

Актуальный фронтир: апрель 2026

Вчера, 16 апреля, Anthropic выпустил Claude Opus 4.7. И этот релиз интересен не тем, что Opus 4.7 — новый флагман. А тем, что Anthropic сами говорят: это не их лучшая модель. Об этом — через раздел.

ПровайдерТоповая модельБюджетная
AnthropicClaude Opus 4.7Claude Haiku 4.5
OpenAIGPT-5.4GPT-5.4 Mini
GoogleGemini 3.1 ProGemini 2.0 Flash
xAIGrok 4.1Grok 4.1 Fast
DeepSeekDeepSeek V3.2DeepSeek V3.2
MetaLlama 4 MaverickLlama 4 Scout

Главная интрига: Claude Mythos

Прежде чем говорить про выбор — нужно сказать про Mythos.

В марте Fortune наткнулся на ~3000 внутренних документов Anthropic в незащищённом хранилище. Классический (утечка данных из-за ошибки конфигурации). Среди документов — черновик анонса новой модели под кодовым именем Capybara. Внутри компании её называют «шаговым изменением» над всем, что было.2

Смотрите сами.

SWE-bench — главный на починку реальных багов в open-source проектах. У него два варианта: Verified (500 отобранных задач) и Pro (более грязные кейсы из production крупных компаний, сложнее). Mythos:

  • : 93.9% — против 80.8% у Claude Opus 4.6 и 80.6% у GPT-5.43
  • SWE-bench Pro: 77.8% — против 64.3% у только что вышедшего Opus 4.73
  • 2026 (олимпиада США по математике): 97.6% — скачок на 55 пунктов относительно Opus 4.63
  • GPQA Diamond: 94.6%3
  • (бенчмарк по кибербезопасности): 100% pass@1 — то есть каждая задача решена с первой попытки, без повторов3

Anthropic подтвердил существование Mythos 8 апреля и запустил Project Glasswing — закрытую программу для примерно 50 организаций. Apple, Google, Microsoft, Amazon и ещё несколько компаний получили на всех $100 млн (≈ 9 млрд ₽) кредитов использования. Работают с Mythos в оборонительных целях.4

Почему закрытый доступ?

Потому что Mythos умеет сам, без пошаговых подсказок, находить уязвимости. Zero-day — это дыра в софте, о которой никто кроме нашедшего не знает. Потенциально оружие. И Mythos не только находит — он сразу пишет рабочий . В том числе нашёл баг в OpenBSD возрастом 27 лет.4

Anthropic прямо говорят: публичного релиза не будет, пока критическая инфраструктура мира не станет надёжнее.

Для нас с вами Mythos — это модель, которой как бы не существует. Попросить её нельзя, купить тоже. Но важно понимать : вчерашний Opus 4.7 сами авторы называют «менее мощным, чем наш лучший». Лучший — Mythos.

Какую модель брать под задачу

Код

Opus 4.7 вышел вчера, и он сразу перевернул столик.

  • SWE-bench Pro: 64.3% — у GPT-5.4 57.7%, у Gemini 3.1 Pro 54.2%5
  • SWE-bench Verified: 87.6%5
  • CursorBench (это про автономный кодинг внутри редактора Cursor): 70% — у Opus 4.6 было 58%6
  • Rakuten-SWE-Bench: в 3 раза больше решённых production-задач чем у Opus 4.67

Я читал JetBrains Survey (они опросили больше 24 000 разработчиков). У Claude Code 18% — то есть им реально пользуется почти каждый пятый из опрошенных. 91% (доля довольных клиентов), 54 (это про готовность рекомендовать, шкала от −100 до +100 — пятьдесят четыре это очень много). По всем трём метрикам Claude Code — первое место среди AI-инструментов для кода.8

Если вам нужен автокомплит прямо в IDE — тут отдельный разговор. Лучший — Codestral от Mistral: 95.3% Fill-in-Middle (это когда дополняем код не в конце файла, а в середине — гораздо сложнее для модели) и первое место на LMSys Copilot Arena. Бесплатная альтернатива, если готовы держать модель на своём железе () — Qwen 2.5 Coder 32B под лицензией Apache 2.0. Никаких ограничений, коммерческое использование разрешено.

Совет

Если уже сидите на Claude Code — просто не переключайтесь. По данным JetBrains, это пока лучший опыт работы с AI для разработчика.

Тексты, UX-копирайтинг

Здесь Claude Sonnet 4.6 ушёл в отрыв. Есть такой тест — EQ-Bench, меряет эмоциональный интеллект и качество диалога. Считают в шахматной логике: чем выше , тем чаще твоя модель побеждает в слепых сравнениях. У Sonnet 4.6 там 1936. Это, грубо говоря, потолок.

В работе разница ощущается моментально. У Claude почти нет того самого AI-тона — ну вы его узнаете: «безусловно», «следует отметить», ровные-ровные предложения одной длины. Читаешь и прямо видишь робота. У Claude этого в речи сильно меньше.

GPT-5 на старте прилетело за плоский стиль, и в Anthropic явно подняли натуральность речи в топ приоритетов. Отсюда и отрыв.

Про переводы у меня такая логика. Opus 4.7 — для маркетинга и всего, где важны полутона и живая интонация. GPT-5.4 — для технической документации, там цена ошибки в термине высокая. А для китайского, японского и корейского (их называют одним словом ) — отдельная история, лучше брать Qwen-MT Turbo.

Анализ данных

А тут у меня безальтернативно GPT-5.4 с режимом Advanced Data Analysis. Это не «дам совет и убегу» — модель пишет Python прямо в чате, сама его крутит, ловит ошибки, возвращает графики. Понадобится предсказать что-нибудь — обучит вам маленькую модель на ходу, не моргнёт.

С математикой у GPT-5.4 тоже отдельная история: все варианты AIME (американская школьная математическая олимпиада) — 99 из 99. На Frontier Math, где задачи на уровне научных исследований, — 47.6%.9 До недавнего времени обе цифры казались фантастикой.

Claude Opus 4.7 беру, когда на входе большой CSV или Excel, и главное — не нарваться на галлюцинации. , если проще — это когда модель уверенно выдаёт фигню: сочиняет функцию, которой нет в библиотеке, или цитирует несуществующий отчёт. У Claude на плотных цифровых данных таких приколов почти не встречается.

Длинные документы

Тут тема Gemini 3.1 Pro. Миллион токенов контекста, GPQA Diamond 94.3%, а на SWE-Pro выдаёт 72 против жалких 57.7 у GPT. Главная магия — теряет всего 2.3 пункта качества, когда контекст пухнет с 4 до 128 тысяч.10

Вообще Gemini — король задач, где надо думать. Я имею в виду то, что называют словом : модель не выплёвывает ответ сразу, а сначала сама с собой поспорит — выстраивает цепочку мыслей, ловит свои же ошибки, переделывает. На серьёзной аналитике без этого никак.

Только. Важно держать в уме одну вещь.

В январе 2026 ребята из Chroma (они делают векторные базы для AI, тема им родная) выкатили исследование, и оно неприятное: извлечение смысла из длинного контекста проседает задолго до рекламируемых лимитов. Надпись «1M контекст» и реальная удерживаемая моделью в голове информация — разные вещи. Чем больше объём — тем хуже связи. Лайфхак простой: бейте большую задачу на куски, и качество вырастет.

Для юридики и финансов беру Opus 4.7 или GPT-5.4. DeepSeek для конфиденциального не трогаю. Их пользовательское соглашение прямым текстом разрешает использовать ваши запросы для дообучения моделей. Серверы — в Китае. Для NDA, персональных данных и финансовой информации — строго мимо, без вариантов.

Продуктовые задачи

Всё, что связано с продуктом — , стратегия, сравнение с конкурентами. PRD (Product Requirements Document) по-простому — это описание фичи: что делаем и зачем.

Productboard (сервис для управления продуктовым бэклогом) в начале года опросили 379 продактов из крупных компаний. 94% признались, что тянутся к AI каждый день. Среднее ускорение — четыре часа на задачу. А в ChatPRD — это AI-инструмент специально под написание PRD, у них уже больше 100 000 продакт-менеджеров в аудитории — Claude называют лучшим выбором конкретно для этой задачи. По моим ощущениям — в точку.

Конкурентный анализ — это территория Grok 4. Единственная топовая модель, которую прямо вшили в X (раньше звался Твиттером, если кто забыл). Живая лента, свежие обсуждения, реальные настроения прямо сейчас. Ну а если нужно что-то более структурное и серьёзное — GPT-5.4 или Opus 4.7 отлично справятся.

Автоматизация рабочего стола

Отдельная история с GPT-5.4. Впервые модель научилась работать за компьютером лучше среднего человека. 75%, когда фронтир раньше тянул максимум 40.

Речь вот о чём. Мы говорим модели «зайди на сайт, зарегистрируйся, скачай отчёт за февраль, вбей цифры в таблицу». Никаких API, никаких костылей — просто курсор, клики, окна, как у обычного юзера. Ещё полгода назад это был скорее цирк, чем рабочий инструмент. Сейчас — можно строить реальные рабочие сценарии. Если вам нужна такая автономия — на сегодня выбора особо нет, только GPT-5.4.

Агентные задачи и tool use

Это когда модель сама вызывает внешние инструменты: лезет в базу, делает API-запрос, запускает функцию из вашего кода. На английском называется или . Тема отдельная и для продакшена — критичная.

Главный критерий здесь не «как хорошо модель отвечает», а насколько стабильно она делает валидный -вызов. JSON — это просто формат, в котором модель говорит «вызови такую-то функцию с такими параметрами». Если модель путается в кавычках или забывает поле — цепочка ломается.

По моему опыту и по данным бенчмарков: Claude Opus 4.7 и GPT-5.4 — топ по стабильности. Gemini 3.1 Pro тоже умеет, но чаще даёт странный JSON на сложных схемах. DeepSeek V3.2 и Llama 4 — для простых сценариев сойдёт, для production с десятком tool'ов я бы не рисковал.

Отдельно стоит сказать про structured outputs (или  — названия разные у провайдеров). Это режим, в котором модель гарантированно возвращает валидный JSON по заданной схеме. Если обычный tool use иногда промахивается — забывает поле, ставит лишнюю запятую, — то в этого не бывает в принципе, провайдер проверяет структуру на своей стороне. Есть у OpenAI (response_format: json_schema), у Anthropic (через tools с strict: true) и у Google (через responseSchema). Если строите production-пайплайн на tool use — включайте сразу.

Сводная таблица: задача → модель

ЗадачаЛучший выборВторой выборБюджетный
Генерация кодаClaude Opus 4.7GPT-5.4DeepSeek V3.2
Дебаггинг / SWEClaude Opus 4.7GPT-5.4DeepSeek V3.2
IDE-автокомплитCodestralGitHub CopilotQwen 2.5 Coder 32B
Агентные задачиClaude Opus 4.7GPT-5.4Gemini 2.0 Flash
UX-копирайтингClaude Sonnet 4.6Claude Opus 4.7Claude Haiku 4.5
ПереводClaude Opus 4.7GPT-5.4DeepSeek V3.2
Анализ данных / CSVGPT-5.4Claude Opus 4.7Claude Sonnet 4.6
Длинные документыGemini 3.1 ProClaude Opus 4.7Gemini 2.5 Pro
Юридика / финансыClaude Opus 4.7GPT-5.4 — (не экономить)
PRD / стратегияClaude Opus 4.7Claude Sonnet 4.6 —
Конкурентный анализGrok 4GPT-5.4DeepSeek V3.2
Научный анализGemini 3.1 ProClaude Opus 4.7DeepSeek R1
МультимодальностьGemini 3.1 ProGPT-5.4Llama 4 Maverick
Desktop automationGPT-5.4 — —

«» — это когда модель делает многошаговое действие автономно, без подсказок на каждом шаге. Например: «проанализируй репозиторий, найди причину падающего теста, почини и прогони всё заново». Раньше такое было невозможно, сейчас — топовые модели справляются на реальных задачах.

Цены: апрель 2026

Дальше — самое полезное. Цены за миллион токенов (сначала , потом output). В скобках рядом — примерные цифры в рублях по курсу ~90 ₽/$ на апрель 2026 (ЦБ РФ).

МодельInputOutputВ рублях (input / output)Контекст
GPT-5.4$2.50$10–15225 ₽ / 900–1350 ₽1M
Claude Opus 4.7$5.00$25.00450 ₽ / 2250 ₽1M
Claude Sonnet 4.6$3.00$15.00270 ₽ / 1350 ₽1M
Gemini 3.1 Pro$2.00$12.00180 ₽ / 1080 ₽1M
Gemini 2.5 Pro$1.25$10.00113 ₽ / 900 ₽1M
Gemini 2.0 Flash$0.10$0.409 ₽ / 36 ₽1M
DeepSeek V3.2$0.28$0.4225 ₽ / 38 ₽163K
Grok 4.1 Fast$0.20$0.5018 ₽ / 45 ₽2M
Claude Haiku 4.5$1.00$5.0090 ₽ / 450 ₽200K

Сколько это на реальных задачах

Абстрактные «доллары за миллион токенов» плохо бьются с ощущением «дорого/дёшево». Вот три конкретных примера, которые сам считал.

Разбор договора через Claude Opus 4.7. Договор на 20 страниц — это ~15 000 токенов на вход. Ответ модели (саммари + список рисков + рекомендации) — ~1 500 токенов на выход. Считаем: 15 × $0.005 + 1.5 × $0.025 = $0.11. По курсу — около 10 рублей за один договор. Если прогонять сотню в день — меньше 1000 ₽/день.

PRD на новую фичу через Claude Sonnet 4.6. На входе бриф и два прошлых PRD для контекста — ~5 000 токенов. На выходе развёрнутый документ с обоснованием — ~3 000 токенов. 5 × $0.003 + 3 × $0.015 = $0.06. По курсу — 5–6 рублей за один PRD.

Классификация 10 000 коротких обращений в поддержку через Gemini 2.0 Flash. Каждое обращение — 200 токенов на вход, 50 на выход (категория + confidence score, то есть уверенность модели в ответе). Считаем цену за один токен: $0.10 / 1 000 000 = $0.0000001 для input, $0.40 / 1 000 000 = $0.0000004 для output. Итого: 10 000 × (200 × $0.0000001 + 50 × $0.0000004) = $0.4. По курсу — меньше 40 рублей за десять тысяч классификаций.

Логика одна: берёте средние размеры своего типового запроса и ответа, умножаете на тариф, получаете стоимость одного обращения. Это проще чем кажется.

Как посчитать токены до отправки

Чтобы заранее оценить, не примерно, а точно — есть готовые библиотеки. Для OpenAI это tiktoken (пакет на Python), для Anthropic — anthropic-tokenizer, для Google — счётчик прямо в SDK. Вставляете ваш промпт, получаете число токенов. Полезно, когда считаете бюджет для массовой обработки — разница между «примерно» и точным числом на 10 миллионах запросов бывает заметной.

С Opus 4.7 подвох

Anthropic пишет крупными буквами «цена не изменилась». Формально да, $5/$25 за миллион токенов (≈ 450/2 250 ₽). Но у новой модели другой токенизатор, и он режет текст в среднем на 10–35% мельче, то есть токенов получается больше. Итог: прайс в табличке тот же, а реальный счёт в конце месяца вырастет процентов на 10–15. Больше всего достанется коду, JSON (формат структурированных данных — как раз то, на чём строят агентные пайплайны) и русскому (нелатинские шрифты вообще любимое блюдо токенизаторов).11 Если у вас продакшен на Opus 4.6 и думаете переводить его на 4.7 — не верьте на слово, прогоните реальный трафик через обе модели и сравните счета.

Как экономить по нормальному.

Batch API. Только при работе через API — в веб-интерфейсе или чатах этого нет. Смысл такой: если ответ не нужен сиюминутно, собираете пачку запросов в файл формата (это обычный текстовый файл, где каждая строка — отдельный JSON-объект с одним запросом), отправляете одной командой и получаете ответы в течение 24 часов. Экономия — 50%. Есть у OpenAI, Anthropic и Google, реализация у всех похожая. Идеально для офлайновых пайплайнов: генерация описаний товаров, классификация архивов, массовое саммари.

Prompt Caching. Если системный промпт или большой контекст одинаковый между запросами — можно закешировать. Платите только за новое. Экономия доходит до 90%, у меня на реальных задачах выходило 60–70%. Есть у Anthropic и Google. Особенно хорошо работает для чат-ботов с длинным системным промптом и для -архитектур (RAG — Retrieval Augmented Generation, это когда модель перед ответом подтягивает нужные куски из вашей базы знаний; распространённый паттерн, например в корпоративных ассистентах).

Отдельно — у некоторых провайдеров кэширование уже встроено и работает автоматически, настраивать ничего не надо. У DeepSeek и Fireworks это называется : если начало промпта совпало с недавним запросом, цена input автоматически падает. То есть кэш работает сам собой, без специальных параметров.

Как включить Prompt Caching вручную (для разработчика)

В API-запросе помечаете части промпта как кэшируемые: у Anthropic это параметр cache_control: {"type": "ephemeral"} на нужном блоке, у Google — метод cached_contents. Первый запрос обычный, за сохранение кэша — небольшая надбавка (~25% к input-стоимости однократно). Следующие запросы читают из кэша в 10 раз дешевле обычного input. Кэш живёт 5 минут, обнуляется если к нему не обращаются, и продлевается с каждым новым запросом. На чат-ботах и RAG-пайплайнах экономия заметна буквально с первой же сотни обращений.

Google Free Tier. До 1000 запросов в день бесплатно. Gemini 2.0 Flash, например. Для побочных проектов и экспериментов этого обычно хватает.

Про fine-tuning

Часто спрашивают — а не дешевле ли дообучить модель под себя? Короткий ответ: почти никогда.

Fine-tuning (дообучение) оправдан в двух сценариях: когда у вас узкая специфика, которую фронтир не знает в принципе (редкий язык, внутренний DSL — это свой небольшой язык или шаблон описания, например специфичный формат конфигов в вашей компании, очень специфичный формат), или когда нужно выжать скорость и стоимость на массовых однотипных запросах. Во всех остальных случаях prompt engineering и prompt caching дают результат быстрее и дешевле.

Стоимость: OpenAI fine-tuning GPT-4.1 — $25 (≈ 2 250 ₽) за миллион training-токенов плюс удвоенная цена inference. Anthropic fine-tuning пока недоступен для Opus/Sonnet — только для старых Haiku. Google предлагает tuning для Gemini 1.5, но не для 3.x линейки.

И ещё момент, который часто забывают. Когда выбираете модель под прод, смотрите не только на цену, но и на скорость. Задержка до первого токена — это про «сколько ждать, пока начнёт отвечать». Скорость выдачи — сколько токенов в секунду сыпется после старта. У DeepSeek через официальный API всего 34 токена в секунду, для чата ощутимо медленно. Если берёте его — возьмите через Fireworks (это сторонний хостинг, который поднимает открытые модели на своих серверах, обычно быстрее авторских). У них 211 токенов в секунду.1

Про прод: лимиты, аптайм, счета

Несколько моментов, которые новички обычно узнают болезненно, уже в процессе внедрения.

Rate limits. Почти все провайдеры работают по tier-системе. Новый аккаунт у Anthropic стартует с лимитом около 50 запросов в минуту на Opus, и прокачка лимита завязана на историю использования и оплаченные суммы. То есть когда запускаете продакшен — сначала упрётесь в эти 50 RPM, и надо будет либо заранее растить tier, либо подавать заявку на повышение. OpenAI примерно так же. Google — помягче, у них стартовые лимиты выше.

SLA и аптайм. Провайдеры падают. У Anthropic в первом квартале 2026 было несколько заметных инцидентов по несколько часов. Если критично — ставьте мониторинг на status.anthropic.com и держите резервный маршрут на другую модель. По моим наблюдениям и отчётам — самый стабильный аптайм у Google Vertex AI (около 99.97%). Следом OpenAI и Anthropic — плюс-минус одинаково.

Как прикинуть бюджет до старта. Примерная формула: средний input в токенах × цена за input + средний output × цена за output = стоимость одного запроса. Умножаете на запросов в день и на 30. Получится месячный счёт в первом приближении. На реальном трафике обычно выходит плюс 20–40% сверху — из-за retry, длинных хвостов и мультимодалки.

Мониторинг и observability. Без этого в прод выходить нельзя. Нужно видеть: сколько запросов прошло, сколько падает, какие модели используются, сколько тратим по каждому пользователю и фиче, откуда всплески счёта. Из инструментов под AI-стек: Langfuse (open-source, самый популярный сейчас), Helicone (в основном SaaS, хорошо ложится на OpenAI-совместимые API), LangSmith от LangChain (если уже используете их обвязку). Все три умеют логировать промпты и ответы, считать стоимость и строить графики по . Без этого в первый же месяц не поймёте, куда ушло лишних 30 000 рублей.

RAG vs длинный контекст vs fine-tuning

Частый вопрос от тех, кто строит AI-продукт: «у нас большая база знаний, как её подсунуть модели?». Вариантов три, и они решают разные задачи.

RAG (Retrieval Augmented Generation). Самый популярный паттерн 2026 года. Ваши документы режутся на куски, каждый кусок переводится в векторное представление и кладётся в векторную базу (ChromaDB, Pinecone, pgvector). На запрос пользователя система ищет в базе самые релевантные куски и подсовывает их модели вместе с промптом. Модель отвечает только на основе подсунутых кусков. Плюсы: легко обновлять (поменяли документ — обновили один кусок), можно хранить миллионы документов, видно источники ответа. Минусы: качество сильно зависит от поиска, на сложных вопросах может не найти нужное. Хорош для корпоративных ассистентов, документации, саппорта.

Длинный контекст. Просто засовываете весь документ целиком в промпт и задаёте вопрос. Gemini 3.1 Pro с его миллионом токенов позволяет это делать на серьёзных объёмах. Плюсы: простота, не надо строить инфраструктуру, модель видит документ целиком. Минусы: качество деградирует на длинных контекстах (исследование Chroma из раздела выше), цена на каждый запрос — весь документ в input, а это накладно. Хорош для разовых задач: разобрать один договор, проанализировать один отчёт.

Fine-tuning. Дообучаете модель на ваших данных. Обсуждали выше — дорого, долго, редко оправдано. Подходит когда нужен свой формат выходов, специфичный стиль или редкая предметная область, которую модель не знает.

Моё правило большого пальца: старт всегда с RAG или длинного контекста.  — только когда первые два не решают задачу.

Multi-provider routing

Отдельный паттерн, который за последний год стал мейнстримом. Вместо того чтобы привязать продукт к одной модели — берёте , у которого единый API, а под капотом он умеет стучаться в разных провайдеров.

Смысл — разные задачи идут к разным моделям. Простой классификатор — через Gemini Flash. Сложная логика — в Opus 4.7. Массовая обработка без NDA — в DeepSeek. Один интерфейс, десятки моделей.

Отдельный и важный плюс роутеров — fallback. Если основной провайдер упал (а это случается), запрос автоматически перенаправляется на резервного. Например: основной маршрут — Claude Opus, если Anthropic недоступен — идём в GPT-5.4. Для продакшена это буквально вопрос жизни сервиса.

Инструменты: OpenRouter (самый популярный сейчас, много моделей, простой API), Portkey (фокус на  — кэширование, логи, лимиты), LiteLLM (open-source, можно захостить у себя). Начать можно с OpenRouter — разберётесь за вечер.

Три стратегии выбора

Если собираете AI-стек на команду или компанию, имеет смысл сразу определиться со стратегией.

Максимум качества

Если задачи такие, что ошибка дорого стоит (юридика, финансы, продуктовая стратегия, врачебное).

  • Gemini 3.1 Pro ($2/$12 · ≈ 180/1 080 ₽) — reasoning, наука, длинные документы
  • Claude Opus 4.7 ($5/$25 · ≈ 450/2 250 ₽) — кодинг, юридика, творческий текст, PRD
  • GPT-5.4 ($2.50/$15 · ≈ 225/1 350 ₽) — математика, данные, desktop automation

Расходы на одного активного пользователя: $15–50 в день (примерно 1 350–4 500 ₽). Для команды в 10 человек это уже ощутимо.

Оптимум (мой выбор для большинства задач)

85–90% качества фронтира при 3–5× экономии. Я сам сижу примерно на этой связке.

  • Claude Sonnet 4.6 ($3/$15 · ≈ 270/1 350 ₽) — основная рабочая лошадка, 80% задач
  • Gemini 2.5 Pro ($1.25/$10 · ≈ 113/900 ₽) — длинные документы и мультимодальность
  • DeepSeek V3.2 ($0.28/$0.42 · ≈ 25/38 ₽) — массовые задачи, но не конфиденциальные
Бюджет

70–80% качества при 20–50× экономии. Когда денег нет или задачи такие, что качество важно лишь приблизительно.

  • DeepSeek V3.2 — основная модель. Не использовать для конфиденциальных данных
  • Gemini 2.0 Flash ($0.10/$0.40 · ≈ 9/36 ₽) — простые и массовые задачи
  • Grok 4.1 Fast ($0.20/$0.50 · ≈ 18/45 ₽, контекст 2M) — длинные документы
  • Qwen 2.5 Coder 32B — кодинг через self-host (бесплатно, но нужно железо)

Мой реальный стек

Чтобы не было абстрактным — вот чем сам пользуюсь каждый день.

  • Claude Sonnet 4.6 и ChatGPT 5.4 — две основные рабочие лошадки. Sonnet закрывает большинство задач: тексты, PRD, переписка, мелкий код, ресёрч. ChatGPT 5.4 — когда нужен разбор данных или длинные рассуждения, там у него ощутимо сильнее.
  • Claude Opus 4.7 — включаю точечно. Написание кода на сложных задачах, рефакторинг, разбор архитектуры, брейншторминг. Когда качество критично и не жаль потратить токены.
  • GPT-5.4 отдельной строкой — для анализа данных (через Advanced Data Analysis, режим с исполнением Python прямо в чате) и длинных рассуждений.
  • Отдельно тестирую российские модели — Алису, YandexGPT, GigaChat. Для простых задач на русском они работают заметно лучше, чем принято думать, и важно понимать, что умеют и где применимы.

Российские модели

Коротко: YandexGPT и GigaChat в международных независимых бенчмарках не участвуют. Данные по ним есть только в российских источниках (MERA, MySummit.school), и сравнивать их с фронтиром напрямую некорректно.

СценарийЧто взять
Российское законодательство и ГОСТыYandexGPT, GigaChat
Деловые тексты на русскомYandexGPT
Данные не должны покидать РФGigaChat, YandexGPT
Возможность установки on-premiseAlice Pro, GigaChat
Экосистема ЯндексаYandexGPT / Alice AI
КодингНе рекомендую
Мультиязычные задачиНе рекомендую

По деньгам картина странная: GigaChat 2 Max (~650 ₽/1M) и YandexGPT Pro 5.1 (~1200 ₽/1M) дороже многих западных аналогов, а качество ниже. Смысл брать есть в двух случаях: данные по закону должны оставаться в российском контуре, или работа без VPN критична. Во всех остальных — я бы смотрел на зарубежное.

Про compliance и законы. Если обрабатываете персональные данные российских пользователей — по  они должны храниться и обрабатываться на серверах в РФ. OpenAI, Anthropic и Google под это не подходят в принципе, даже через OpenRouter: их серверы не в России, это констатация факта. Легальные варианты: GigaChat on-premise, YandexGPT в инфраструктуре Yandex Cloud (российский контур), или self-host открытой модели (Llama, DeepSeek, Qwen) в российском дата-центре. Для европейской аудитории и  — похожая история: нужен либо EU-регион провайдера (OpenAI и Anthropic это умеют), либо DPA-соглашение. Проверять compliance лучше через юриста, а не через интернет-форумы.

Отдельно про YandexGPT. Простые русские задачи она закрывает на удивление хорошо: классификация обращений, саммари коротких текстов, базовая генерация описаний, переформулирование. За фронтирный reasoning и сложный код — идти не стоит, а для массовых рутинных задач на русском это рабочий вариант, особенно когда важно, чтобы данные не улетали за пределы РФ.

И отдельно — Yandex SpeechKit. Это не , а движок распознавания речи и синтеза, но упомянуть его здесь важно. Для русского языка — один из лучших на рынке. Если строите расшифровку звонков, диктофонную транскрибацию, голосового ассистента — имеет смысл смотреть именно сюда, даже если основной AI-стек у вас на западных моделях. Комбинация «SpeechKit для распознавания речи + Claude или Gemini для последующей обработки текста» — частый рабочий паттерн.

Как итог

Универсально лучшей модели нет, и в ближайший год не появится. Темп обновлений — раз в 3–4 месяца, и это значит одно: любое решение нужно пересматривать регулярно. То, что работает сегодня, через полгода будет «старое железо».

Мой короткий список для «прямо сейчас» — вариант «как есть», без экономии:

  • Код → Claude Opus 4.7
  • Тексты → Claude Sonnet 4.6
  • Данные, математика, автоматизация десктопа → GPT-5.4
  • Длинные документы и reasoning → Gemini 3.1 Pro
  • Бюджет → DeepSeek V3.2 (но не для конфиденциального)

Вариант 2 — если бюджет зажат, а качество всё равно нужно приличное:

  • Код → DeepSeek V3.2 (для прода — всё же Sonnet 4.6)
  • Тексты → Claude Sonnet 4.6 (уже оптимум по цене-качеству)
  • Данные → Claude Sonnet 4.6 вместо GPT-5.4
  • Длинные документы → Gemini 2.5 Pro вместо 3.1 Pro
  • Массовые простые задачи → Gemini 2.0 Flash или Grok 4.1 Fast

Ну и держите в голове: где-то в серверной Anthropic стоит модель, которая в одиночку взламывает браузеры. Её вам не продадут.

Словарь терминов из этой статьи

Если встретили выше что-то непонятное. Полный глоссарий живёт отдельно, здесь только то, что мне понадобилось.

ТерминЧто это
LLMБольшая языковая модель. Claude, GPT, Gemini — всё LLM.
ТокенЕдиница, которой модель меряет текст. 1M токенов ≈ 750 000 слов ≈ «Война и мир».
КонтекстСколько текста модель помнит в одном запросе.
ФронтирПередовая граница индустрии — лучшие модели сейчас.
БенчмаркСтандартный тест, который одинаково гоняют через разные модели.
Open-sourceВеса модели в открытом доступе — можно скачать и запустить.
Self-hostЗапуск модели на своих серверах.
SWE-bench Verified / ProБенчмарки на починку багов. Verified — 500 отобранных задач, Pro — грязные production-кейсы.
GPQA DiamondЭкспертные вопросы уровня PhD: биология, химия, физика.
USAMOОлимпиада США по математике. Тест reasoning.
EQ-BenchЭмоциональный интеллект модели, качество диалога.
EloРейтинг как в шахматах. Чем выше — тем чаще побеждает в слепых сравнениях.
CybenchБенчмарк по кибербезопасности.
pass@1Процент задач, решённых с первой попытки.
Reasoning«Рассуждение». Модель думает перед ответом, проверяет себя.
Агентная задачаМодель делает многошаговое действие автономно.
Zero-dayУязвимость, о которой никто кроме нашедшего не знает.
ЭксплойтКод, который использует уязвимость.
ГаллюцинацияМодель уверенно выдумывает факты.
ТокенизаторАлгоритм, режущий текст на токены перед подачей в модель.
Human-levelУровень среднего человека на задаче.
PRDProduct Requirements Document — техзадание на фичу.
CSATCustomer Satisfaction — удовлетворённость клиентов, %.
NPSNet Promoter Score — готовность рекомендовать. От −100 до +100.
AdoptionДоля людей, реально использующих инструмент.
EnterpriseКрупные компании, обычно от 1000 сотрудников.
ProductionБоевая среда, реальные пользователи.
Input / Output токеныВходящие (запрос) и исходящие (ответ). Output обычно дороже.
Batch APIОтложенная обработка, скидка 50%.
Prompt CachingКэш повторных частей промпта, экономия до 90%.
Latency / throughputЗадержка до первого токена / скорость выдачи (t/s).
Tool use / function callingМодель сама вызывает внешние функции и инструменты.
Structured outputs / JSON modeРежим, гарантирующий валидный JSON на выходе по заданной схеме.
JSONФормат хранения структурированных данных, который модели используют для вызова инструментов.
JSONLТекстовый файл, где каждая строка — отдельный JSON-объект. Используется в Batch API.
Fine-tuningДообучение модели под конкретную задачу и данные.
DSLDomain-Specific Language — свой небольшой язык или шаблон для узкой задачи.
Rate limitsЛимиты на количество запросов в минуту у провайдера.
SLA / uptimeГарантия доступности сервиса, обычно в процентах за месяц.
РоутерИнструмент с единым API, который направляет запросы в разные модели (OpenRouter, Portkey, LiteLLM).
FallbackАвтоматическое переключение на резервного провайдера при падении основного.
RAGRetrieval Augmented Generation. Модель перед ответом подтягивает нужные куски из вашей базы знаний.
Векторная базаХранилище текстов в виде векторов для быстрого семантического поиска (ChromaDB, Pinecone, pgvector).
ObservabilityМониторинг работы AI-системы: логи промптов, стоимость, latency (Langfuse, Helicone, LangSmith).
tiktokenБиблиотека для подсчёта токенов до отправки запроса.
Prefix cachingАвтоматическое кэширование повторяющегося начала промпта (у DeepSeek, Fireworks по умолчанию).
ФЗ-152Российский закон о персональных данных: требует хранения данных россиян на серверах в РФ.
GDPRЕвропейский регламент о защите данных; аналог ФЗ-152 для граждан ЕС.
CJK-языкиКитайский, японский, корейский.
Data privacyЗащита приватных данных.
Data leakУтечка данных в открытый доступ.

Источники

1. DeepSeek V3.2 — Intelligence, Performance & Price Analysis — Artificial Analysis

2. Anthropic 'Mythos' AI model revealed in data leak — Fortune, март 2026

3. Claude Mythos Benchmarks Explained: 93.9% SWE-bench — NxCode

4. Project Glasswing: Securing critical software for the AI era — Anthropic

5. Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web

6. Claude Opus 4.7 Benchmarks Explained — Vellum AI

7. Introducing Anthropic's Claude Opus 4.7 model in Amazon Bedrock — AWS Blog

8. JetBrains Developer Survey 2026 — данные по Claude Code adoption и CSAT

9. GPT-5.4 vs Gemini 3.1 Pro — Detailed Performance & Feature Comparison — DocsBot AI

10. Gemini 3.1 Pro vs GPT-5.4: Which AI Model Should You Choose? — NxCode

11. Claude Opus 4.7 Pricing: The Real Cost Story Behind the "Unchanged" Price Tag — Finout