Как выбирать AI для работы
Меня часто спрашивают: «Какую модель брать под код?», «Gemini или GPT?», «Стоит ли платить за Opus, если Sonnet в 1.7 раза дешевле?». Вопросы повторяются, а ответы — меняются каждые пару месяцев. Поэтому решил собрать в одном месте то, чем пользуюсь сам, плюс свежие цифры из независимых тестов: Chatbot Arena, Artificial Analysis, Vellum, SWE-bench, GPQA, EQ-Bench, JetBrains Survey. Данные актуальны на апрель 2026.
Нет модели, которая лучше во всём. Если в двух словах:
Claude → кодинг и тексты · Gemini → длинные документы и задачи, где надо долго думать · GPT → математика и данные · DeepSeek → когда бюджет решает всё.
Ниже — почему именно так, и что поменялось после вчерашнего релиза Opus 4.7.
Что поменялось за год
Ещё год назад был условный топ-3 — GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Сегодня ни одной из этих моделей в продакшене нет. Их все депрекировали: провайдер решил, что модель устарела, и рано или поздно её просто отключат. Темп — 3–4 цикла обновлений у каждой большой лаборатории за 15 месяцев.
Что при этом реально поменялось — три вещи.
Первое. Открытые модели догнали закрытые. Когда-то это были две разные вселенные: с одной стороны условная GPT, доступ только через API провайдера, с другой — всякие Llama, которые можно скачать и крутить у себя. В апреле 2026 DeepSeek V3.2 (это open-source — веса в открытом доступе, качай и запускай где хочешь) даёт около 85% того, что умеет фронтир (передовая граница индустрии, лучшие модели сейчас). При этом стоит в 5 раз дешевле GPT-5.4.1 Раньше такое было невозможно.
Второе. Цены упали процентов на 80. Claude Opus в начале 2025-го стоил $15 за миллион входящих токенов и $75 за миллион исходящих (около 1 350 и 6 750 ₽ по курсу на тот момент). Сейчас — $5 и $25 (примерно 450 и 2 250 ₽).
Короткая справка про токены — на всякий случай. Токен — это единица, которой модель меряет текст: ≈ 0.75 слова на английском и ≈ 0.5 слова на русском. Входящие — ваш запрос. Исходящие — ответ модели. Считаются отдельно, исходящие обычно дороже в 3–5 раз. И да, миллион токенов — это примерно весь текст «Войны и мира». Не одной главы, а всего романа.
Третье. Старые бенчмарки (стандартные тесты, одинаково прогоняемые через все модели) больше ничего не показывают. MMLU, HumanEval, MATH-500 — на всех фронтирных моделях 90%+. Вы не увидите там разницы. Интересное сейчас на других тестах: SWE-bench Pro (реальные баги из production крупных компаний), GPQA Diamond (вопросы уровня PhD по биологии, химии и физике) и ARC-AGI-2 (абстрактное рассуждение — один из редких бенчмарков, которые пока никто не решил).
Актуальный фронтир: апрель 2026
Вчера, 16 апреля, Anthropic выпустил Claude Opus 4.7. И этот релиз интересен не тем, что Opus 4.7 — новый флагман. А тем, что Anthropic сами говорят: это не их лучшая модель. Об этом — через раздел.
| Провайдер | Топовая модель | Бюджетная |
|---|---|---|
| Anthropic | Claude Opus 4.7 | Claude Haiku 4.5 |
| OpenAI | GPT-5.4 | GPT-5.4 Mini |
| Gemini 3.1 Pro | Gemini 2.0 Flash | |
| xAI | Grok 4.1 | Grok 4.1 Fast |
| DeepSeek | DeepSeek V3.2 | DeepSeek V3.2 |
| Meta | Llama 4 Maverick | Llama 4 Scout |
Главная интрига: Claude Mythos
Прежде чем говорить про выбор — нужно сказать про Mythos.
В марте Fortune наткнулся на ~3000 внутренних документов Anthropic в незащищённом хранилище. Классический data leak (утечка данных из-за ошибки конфигурации). Среди документов — черновик анонса новой модели под кодовым именем Capybara. Внутри компании её называют «шаговым изменением» над всем, что было.2
Смотрите сами.
SWE-bench — главный бенчмарк на починку реальных багов в open-source проектах. У него два варианта: Verified (500 отобранных задач) и Pro (более грязные кейсы из production крупных компаний, сложнее). Mythos:
- SWE-bench Verified: 93.9% — против 80.8% у Claude Opus 4.6 и 80.6% у GPT-5.43
- SWE-bench Pro: 77.8% — против 64.3% у только что вышедшего Opus 4.73
- USAMO 2026 (олимпиада США по математике): 97.6% — скачок на 55 пунктов относительно Opus 4.63
- GPQA Diamond: 94.6%3
- Cybench (бенчмарк по кибербезопасности): 100% pass@1 — то есть каждая задача решена с первой попытки, без повторов3
Anthropic подтвердил существование Mythos 8 апреля и запустил Project Glasswing — закрытую программу для примерно 50 организаций. Apple, Google, Microsoft, Amazon и ещё несколько компаний получили на всех $100 млн (≈ 9 млрд ₽) кредитов использования. Работают с Mythos в оборонительных целях.4
Почему закрытый доступ?
Потому что Mythos умеет сам, без пошаговых подсказок, находить zero-day уязвимости. Zero-day — это дыра в софте, о которой никто кроме нашедшего не знает. Потенциально оружие. И Mythos не только находит — он сразу пишет рабочий эксплойт. В том числе нашёл баг в OpenBSD возрастом 27 лет.4
Anthropic прямо говорят: публичного релиза не будет, пока критическая инфраструктура мира не станет надёжнее.
Для нас с вами Mythos — это модель, которой как бы не существует. Попросить её нельзя, купить тоже. Но важно понимать контекст: вчерашний Opus 4.7 сами авторы называют «менее мощным, чем наш лучший». Лучший — Mythos.
Какую модель брать под задачу
Код
Opus 4.7 вышел вчера, и он сразу перевернул столик.
- SWE-bench Pro: 64.3% — у GPT-5.4 57.7%, у Gemini 3.1 Pro 54.2%5
- SWE-bench Verified: 87.6%5
- CursorBench (это про автономный кодинг внутри редактора Cursor): 70% — у Opus 4.6 было 58%6
- Rakuten-SWE-Bench: в 3 раза больше решённых production-задач чем у Opus 4.67
Я читал JetBrains Survey (они опросили больше 24 000 разработчиков). У Claude Code adoption 18% — то есть им реально пользуется почти каждый пятый из опрошенных. CSAT 91% (доля довольных клиентов), NPS 54 (это про готовность рекомендовать, шкала от −100 до +100 — пятьдесят четыре это очень много). По всем трём метрикам Claude Code — первое место среди AI-инструментов для кода.8
Если вам нужен автокомплит прямо в IDE — тут отдельный разговор. Лучший — Codestral от Mistral: 95.3% Fill-in-Middle (это когда дополняем код не в конце файла, а в середине — гораздо сложнее для модели) и первое место на LMSys Copilot Arena. Бесплатная альтернатива, если готовы держать модель на своём железе (self-host) — Qwen 2.5 Coder 32B под лицензией Apache 2.0. Никаких ограничений, коммерческое использование разрешено.
Если уже сидите на Claude Code — просто не переключайтесь. По данным JetBrains, это пока лучший опыт работы с AI для разработчика.
Тексты, UX-копирайтинг
Здесь Claude Sonnet 4.6 ушёл в отрыв. Есть такой тест — EQ-Bench, меряет эмоциональный интеллект и качество диалога. Считают в шахматной логике: чем выше Elo, тем чаще твоя модель побеждает в слепых сравнениях. У Sonnet 4.6 там 1936. Это, грубо говоря, потолок.
В работе разница ощущается моментально. У Claude почти нет того самого AI-тона — ну вы его узнаете: «безусловно», «следует отметить», ровные-ровные предложения одной длины. Читаешь и прямо видишь робота. У Claude этого в речи сильно меньше.
GPT-5 на старте прилетело за плоский стиль, и в Anthropic явно подняли натуральность речи в топ приоритетов. Отсюда и отрыв.
Про переводы у меня такая логика. Opus 4.7 — для маркетинга и всего, где важны полутона и живая интонация. GPT-5.4 — для технической документации, там цена ошибки в термине высокая. А для китайского, японского и корейского (их называют одним словом CJK-языки) — отдельная история, лучше брать Qwen-MT Turbo.
Анализ данных
А тут у меня безальтернативно GPT-5.4 с режимом Advanced Data Analysis. Это не «дам совет и убегу» — модель пишет Python прямо в чате, сама его крутит, ловит ошибки, возвращает графики. Понадобится предсказать что-нибудь — обучит вам маленькую модель на ходу, не моргнёт.
С математикой у GPT-5.4 тоже отдельная история: все варианты AIME (американская школьная математическая олимпиада) — 99 из 99. На Frontier Math, где задачи на уровне научных исследований, — 47.6%.9 До недавнего времени обе цифры казались фантастикой.
Claude Opus 4.7 беру, когда на входе большой CSV или Excel, и главное — не нарваться на галлюцинации. Галлюцинация, если проще — это когда модель уверенно выдаёт фигню: сочиняет функцию, которой нет в библиотеке, или цитирует несуществующий отчёт. У Claude на плотных цифровых данных таких приколов почти не встречается.
Длинные документы
Тут тема Gemini 3.1 Pro. Миллион токенов контекста, GPQA Diamond 94.3%, а на SWE-Pro выдаёт 72 против жалких 57.7 у GPT. Главная магия — теряет всего 2.3 пункта качества, когда контекст пухнет с 4 до 128 тысяч.10
Вообще Gemini — король задач, где надо думать. Я имею в виду то, что называют словом reasoning: модель не выплёвывает ответ сразу, а сначала сама с собой поспорит — выстраивает цепочку мыслей, ловит свои же ошибки, переделывает. На серьёзной аналитике без этого никак.
Только. Важно держать в уме одну вещь.
В январе 2026 ребята из Chroma (они делают векторные базы для AI, тема им родная) выкатили исследование, и оно неприятное: извлечение смысла из длинного контекста проседает задолго до рекламируемых лимитов. Надпись «1M контекст» и реальная удерживаемая моделью в голове информация — разные вещи. Чем больше объём — тем хуже связи. Лайфхак простой: бейте большую задачу на куски, и качество вырастет.
Для юридики и финансов беру Opus 4.7 или GPT-5.4. DeepSeek для конфиденциального не трогаю. Их пользовательское соглашение прямым текстом разрешает использовать ваши запросы для дообучения моделей. Серверы — в Китае. Для NDA, персональных данных и финансовой информации — строго мимо, без вариантов.
Продуктовые задачи
Всё, что связано с продуктом — PRD, стратегия, сравнение с конкурентами. PRD (Product Requirements Document) по-простому — это описание фичи: что делаем и зачем.
Productboard (сервис для управления продуктовым бэклогом) в начале года опросили 379 продактов из крупных компаний. 94% признались, что тянутся к AI каждый день. Среднее ускорение — четыре часа на задачу. А в ChatPRD — это AI-инструмент специально под написание PRD, у них уже больше 100 000 продакт-менеджеров в аудитории — Claude называют лучшим выбором конкретно для этой задачи. По моим ощущениям — в точку.
Конкурентный анализ — это территория Grok 4. Единственная топовая модель, которую прямо вшили в X (раньше звался Твиттером, если кто забыл). Живая лента, свежие обсуждения, реальные настроения прямо сейчас. Ну а если нужно что-то более структурное и серьёзное — GPT-5.4 или Opus 4.7 отлично справятся.
Автоматизация рабочего стола
Отдельная история с GPT-5.4. Впервые модель научилась работать за компьютером лучше среднего человека. 75%, когда фронтир раньше тянул максимум 40.
Речь вот о чём. Мы говорим модели «зайди на сайт, зарегистрируйся, скачай отчёт за февраль, вбей цифры в таблицу». Никаких API, никаких костылей — просто курсор, клики, окна, как у обычного юзера. Ещё полгода назад это был скорее цирк, чем рабочий инструмент. Сейчас — можно строить реальные рабочие сценарии. Если вам нужна такая автономия — на сегодня выбора особо нет, только GPT-5.4.
Агентные задачи и tool use
Это когда модель сама вызывает внешние инструменты: лезет в базу, делает API-запрос, запускает функцию из вашего кода. На английском называется tool use или function calling. Тема отдельная и для продакшена — критичная.
Главный критерий здесь не «как хорошо модель отвечает», а насколько стабильно она делает валидный JSON-вызов. JSON — это просто формат, в котором модель говорит «вызови такую-то функцию с такими параметрами». Если модель путается в кавычках или забывает поле — цепочка ломается.
По моему опыту и по данным бенчмарков: Claude Opus 4.7 и GPT-5.4 — топ по стабильности. Gemini 3.1 Pro тоже умеет, но чаще даёт странный JSON на сложных схемах. DeepSeek V3.2 и Llama 4 — для простых сценариев сойдёт, для production с десятком tool'ов я бы не рисковал.
Отдельно стоит сказать про structured outputs (или JSON mode — названия разные у провайдеров). Это режим, в котором модель гарантированно возвращает валидный JSON по заданной схеме. Если обычный tool use иногда промахивается — забывает поле, ставит лишнюю запятую, — то в structured outputs этого не бывает в принципе, провайдер проверяет структуру на своей стороне. Есть у OpenAI (response_format: json_schema), у Anthropic (через tools с strict: true) и у Google (через responseSchema). Если строите production-пайплайн на tool use — включайте сразу.
Сводная таблица: задача → модель
| Задача | Лучший выбор | Второй выбор | Бюджетный |
|---|---|---|---|
| Генерация кода | Claude Opus 4.7 | GPT-5.4 | DeepSeek V3.2 |
| Дебаггинг / SWE | Claude Opus 4.7 | GPT-5.4 | DeepSeek V3.2 |
| IDE-автокомплит | Codestral | GitHub Copilot | Qwen 2.5 Coder 32B |
| Агентные задачи | Claude Opus 4.7 | GPT-5.4 | Gemini 2.0 Flash |
| UX-копирайтинг | Claude Sonnet 4.6 | Claude Opus 4.7 | Claude Haiku 4.5 |
| Перевод | Claude Opus 4.7 | GPT-5.4 | DeepSeek V3.2 |
| Анализ данных / CSV | GPT-5.4 | Claude Opus 4.7 | Claude Sonnet 4.6 |
| Длинные документы | Gemini 3.1 Pro | Claude Opus 4.7 | Gemini 2.5 Pro |
| Юридика / финансы | Claude Opus 4.7 | GPT-5.4 | — (не экономить) |
| PRD / стратегия | Claude Opus 4.7 | Claude Sonnet 4.6 | — |
| Конкурентный анализ | Grok 4 | GPT-5.4 | DeepSeek V3.2 |
| Научный анализ | Gemini 3.1 Pro | Claude Opus 4.7 | DeepSeek R1 |
| Мультимодальность | Gemini 3.1 Pro | GPT-5.4 | Llama 4 Maverick |
| Desktop automation | GPT-5.4 | — | — |
«Агентная задача» — это когда модель делает многошаговое действие автономно, без подсказок на каждом шаге. Например: «проанализируй репозиторий, найди причину падающего теста, почини и прогони всё заново». Раньше такое было невозможно, сейчас — топовые модели справляются на реальных задачах.
Цены: апрель 2026
Дальше — самое полезное. Цены за миллион токенов (сначала input, потом output). В скобках рядом — примерные цифры в рублях по курсу ~90 ₽/$ на апрель 2026 (ЦБ РФ).
| Модель | Input | Output | В рублях (input / output) | Контекст |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $10–15 | 225 ₽ / 900–1350 ₽ | 1M |
| Claude Opus 4.7 | $5.00 | $25.00 | 450 ₽ / 2250 ₽ | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 270 ₽ / 1350 ₽ | 1M |
| Gemini 3.1 Pro | $2.00 | $12.00 | 180 ₽ / 1080 ₽ | 1M |
| Gemini 2.5 Pro | $1.25 | $10.00 | 113 ₽ / 900 ₽ | 1M |
| Gemini 2.0 Flash | $0.10 | $0.40 | 9 ₽ / 36 ₽ | 1M |
| DeepSeek V3.2 | $0.28 | $0.42 | 25 ₽ / 38 ₽ | 163K |
| Grok 4.1 Fast | $0.20 | $0.50 | 18 ₽ / 45 ₽ | 2M |
| Claude Haiku 4.5 | $1.00 | $5.00 | 90 ₽ / 450 ₽ | 200K |
Сколько это на реальных задачах
Абстрактные «доллары за миллион токенов» плохо бьются с ощущением «дорого/дёшево». Вот три конкретных примера, которые сам считал.
Разбор договора через Claude Opus 4.7. Договор на 20 страниц — это ~15 000 токенов на вход. Ответ модели (саммари + список рисков + рекомендации) — ~1 500 токенов на выход. Считаем: 15 × $0.005 + 1.5 × $0.025 = $0.11. По курсу — около 10 рублей за один договор. Если прогонять сотню в день — меньше 1000 ₽/день.
PRD на новую фичу через Claude Sonnet 4.6. На входе бриф и два прошлых PRD для контекста — ~5 000 токенов. На выходе развёрнутый документ с обоснованием — ~3 000 токенов. 5 × $0.003 + 3 × $0.015 = $0.06. По курсу — 5–6 рублей за один PRD.
Классификация 10 000 коротких обращений в поддержку через Gemini 2.0 Flash. Каждое обращение — 200 токенов на вход, 50 на выход (категория + confidence score, то есть уверенность модели в ответе). Считаем цену за один токен: $0.10 / 1 000 000 = $0.0000001 для input, $0.40 / 1 000 000 = $0.0000004 для output. Итого: 10 000 × (200 × $0.0000001 + 50 × $0.0000004) = $0.4. По курсу — меньше 40 рублей за десять тысяч классификаций.
Логика одна: берёте средние размеры своего типового запроса и ответа, умножаете на тариф, получаете стоимость одного обращения. Это проще чем кажется.
Чтобы заранее оценить, не примерно, а точно — есть готовые библиотеки. Для OpenAI это tiktoken (пакет на Python), для Anthropic — anthropic-tokenizer, для Google — счётчик прямо в SDK. Вставляете ваш промпт, получаете число токенов. Полезно, когда считаете бюджет для массовой обработки — разница между «примерно» и точным числом на 10 миллионах запросов бывает заметной.
Anthropic пишет крупными буквами «цена не изменилась». Формально да, $5/$25 за миллион токенов (≈ 450/2 250 ₽). Но у новой модели другой токенизатор, и он режет текст в среднем на 10–35% мельче, то есть токенов получается больше. Итог: прайс в табличке тот же, а реальный счёт в конце месяца вырастет процентов на 10–15. Больше всего достанется коду, JSON (формат структурированных данных — как раз то, на чём строят агентные пайплайны) и русскому (нелатинские шрифты вообще любимое блюдо токенизаторов).11 Если у вас продакшен на Opus 4.6 и думаете переводить его на 4.7 — не верьте на слово, прогоните реальный трафик через обе модели и сравните счета.
Как экономить по нормальному.
Batch API. Только при работе через API — в веб-интерфейсе или чатах этого нет. Смысл такой: если ответ не нужен сиюминутно, собираете пачку запросов в файл формата JSONL (это обычный текстовый файл, где каждая строка — отдельный JSON-объект с одним запросом), отправляете одной командой и получаете ответы в течение 24 часов. Экономия — 50%. Есть у OpenAI, Anthropic и Google, реализация у всех похожая. Идеально для офлайновых пайплайнов: генерация описаний товаров, классификация архивов, массовое саммари.
Prompt Caching. Если системный промпт или большой контекст одинаковый между запросами — можно закешировать. Платите только за новое. Экономия доходит до 90%, у меня на реальных задачах выходило 60–70%. Есть у Anthropic и Google. Особенно хорошо работает для чат-ботов с длинным системным промптом и для RAG-архитектур (RAG — Retrieval Augmented Generation, это когда модель перед ответом подтягивает нужные куски из вашей базы знаний; распространённый паттерн, например в корпоративных ассистентах).
Отдельно — у некоторых провайдеров кэширование уже встроено и работает автоматически, настраивать ничего не надо. У DeepSeek и Fireworks это называется prefix caching: если начало промпта совпало с недавним запросом, цена input автоматически падает. То есть кэш работает сам собой, без специальных параметров.
В API-запросе помечаете части промпта как кэшируемые: у Anthropic это параметр cache_control: {"type": "ephemeral"} на нужном блоке, у Google — метод cached_contents. Первый запрос обычный, за сохранение кэша — небольшая надбавка (~25% к input-стоимости однократно). Следующие запросы читают из кэша в 10 раз дешевле обычного input. Кэш живёт 5 минут, обнуляется если к нему не обращаются, и продлевается с каждым новым запросом. На чат-ботах и RAG-пайплайнах экономия заметна буквально с первой же сотни обращений.
Google Free Tier. До 1000 запросов в день бесплатно. Gemini 2.0 Flash, например. Для побочных проектов и экспериментов этого обычно хватает.
Часто спрашивают — а не дешевле ли дообучить модель под себя? Короткий ответ: почти никогда.
Fine-tuning (дообучение) оправдан в двух сценариях: когда у вас узкая специфика, которую фронтир не знает в принципе (редкий язык, внутренний DSL — это свой небольшой язык или шаблон описания, например специфичный формат конфигов в вашей компании, очень специфичный формат), или когда нужно выжать скорость и стоимость на массовых однотипных запросах. Во всех остальных случаях prompt engineering и prompt caching дают результат быстрее и дешевле.
Стоимость: OpenAI fine-tuning GPT-4.1 — $25 (≈ 2 250 ₽) за миллион training-токенов плюс удвоенная цена inference. Anthropic fine-tuning пока недоступен для Opus/Sonnet — только для старых Haiku. Google предлагает tuning для Gemini 1.5, но не для 3.x линейки.
И ещё момент, который часто забывают. Когда выбираете модель под прод, смотрите не только на цену, но и на скорость. Задержка до первого токена — это про «сколько ждать, пока начнёт отвечать». Скорость выдачи — сколько токенов в секунду сыпется после старта. У DeepSeek через официальный API всего 34 токена в секунду, для чата ощутимо медленно. Если берёте его — возьмите через Fireworks (это сторонний хостинг, который поднимает открытые модели на своих серверах, обычно быстрее авторских). У них 211 токенов в секунду.1
Про прод: лимиты, аптайм, счета
Несколько моментов, которые новички обычно узнают болезненно, уже в процессе внедрения.
Rate limits. Почти все провайдеры работают по tier-системе. Новый аккаунт у Anthropic стартует с лимитом около 50 запросов в минуту на Opus, и прокачка лимита завязана на историю использования и оплаченные суммы. То есть когда запускаете продакшен — сначала упрётесь в эти 50 RPM, и надо будет либо заранее растить tier, либо подавать заявку на повышение. OpenAI примерно так же. Google — помягче, у них стартовые лимиты выше.
SLA и аптайм. Провайдеры падают. У Anthropic в первом квартале 2026 было несколько заметных инцидентов по несколько часов. Если критично — ставьте мониторинг на status.anthropic.com и держите резервный маршрут на другую модель. По моим наблюдениям и отчётам — самый стабильный аптайм у Google Vertex AI (около 99.97%). Следом OpenAI и Anthropic — плюс-минус одинаково.
Как прикинуть бюджет до старта. Примерная формула: средний input в токенах × цена за input + средний output × цена за output = стоимость одного запроса. Умножаете на запросов в день и на 30. Получится месячный счёт в первом приближении. На реальном трафике обычно выходит плюс 20–40% сверху — из-за retry, длинных хвостов и мультимодалки.
Мониторинг и observability. Без этого в прод выходить нельзя. Нужно видеть: сколько запросов прошло, сколько падает, какие модели используются, сколько тратим по каждому пользователю и фиче, откуда всплески счёта. Из инструментов под AI-стек: Langfuse (open-source, самый популярный сейчас), Helicone (в основном SaaS, хорошо ложится на OpenAI-совместимые API), LangSmith от LangChain (если уже используете их обвязку). Все три умеют логировать промпты и ответы, считать стоимость и строить графики по latency. Без этого в первый же месяц не поймёте, куда ушло лишних 30 000 рублей.
RAG vs длинный контекст vs fine-tuning
Частый вопрос от тех, кто строит AI-продукт: «у нас большая база знаний, как её подсунуть модели?». Вариантов три, и они решают разные задачи.
RAG (Retrieval Augmented Generation). Самый популярный паттерн 2026 года. Ваши документы режутся на куски, каждый кусок переводится в векторное представление и кладётся в векторную базу (ChromaDB, Pinecone, pgvector). На запрос пользователя система ищет в базе самые релевантные куски и подсовывает их модели вместе с промптом. Модель отвечает только на основе подсунутых кусков. Плюсы: легко обновлять (поменяли документ — обновили один кусок), можно хранить миллионы документов, видно источники ответа. Минусы: качество сильно зависит от поиска, на сложных вопросах может не найти нужное. Хорош для корпоративных ассистентов, документации, саппорта.
Длинный контекст. Просто засовываете весь документ целиком в промпт и задаёте вопрос. Gemini 3.1 Pro с его миллионом токенов позволяет это делать на серьёзных объёмах. Плюсы: простота, не надо строить инфраструктуру, модель видит документ целиком. Минусы: качество деградирует на длинных контекстах (исследование Chroma из раздела выше), цена на каждый запрос — весь документ в input, а это накладно. Хорош для разовых задач: разобрать один договор, проанализировать один отчёт.
Fine-tuning. Дообучаете модель на ваших данных. Обсуждали выше — дорого, долго, редко оправдано. Подходит когда нужен свой формат выходов, специфичный стиль или редкая предметная область, которую модель не знает.
Моё правило большого пальца: старт всегда с RAG или длинного контекста. Fine-tuning — только когда первые два не решают задачу.
Multi-provider routing
Отдельный паттерн, который за последний год стал мейнстримом. Вместо того чтобы привязать продукт к одной модели — берёте роутер, у которого единый API, а под капотом он умеет стучаться в разных провайдеров.
Смысл — разные задачи идут к разным моделям. Простой классификатор — через Gemini Flash. Сложная логика — в Opus 4.7. Массовая обработка без NDA — в DeepSeek. Один интерфейс, десятки моделей.
Отдельный и важный плюс роутеров — fallback. Если основной провайдер упал (а это случается), запрос автоматически перенаправляется на резервного. Например: основной маршрут — Claude Opus, если Anthropic недоступен — идём в GPT-5.4. Для продакшена это буквально вопрос жизни сервиса.
Инструменты: OpenRouter (самый популярный сейчас, много моделей, простой API), Portkey (фокус на enterprise — кэширование, логи, лимиты), LiteLLM (open-source, можно захостить у себя). Начать можно с OpenRouter — разберётесь за вечер.
Три стратегии выбора
Если собираете AI-стек на команду или компанию, имеет смысл сразу определиться со стратегией.
Если задачи такие, что ошибка дорого стоит (юридика, финансы, продуктовая стратегия, врачебное).
- Gemini 3.1 Pro ($2/$12 · ≈ 180/1 080 ₽) — reasoning, наука, длинные документы
- Claude Opus 4.7 ($5/$25 · ≈ 450/2 250 ₽) — кодинг, юридика, творческий текст, PRD
- GPT-5.4 ($2.50/$15 · ≈ 225/1 350 ₽) — математика, данные, desktop automation
Расходы на одного активного пользователя: $15–50 в день (примерно 1 350–4 500 ₽). Для команды в 10 человек это уже ощутимо.
85–90% качества фронтира при 3–5× экономии. Я сам сижу примерно на этой связке.
- Claude Sonnet 4.6 ($3/$15 · ≈ 270/1 350 ₽) — основная рабочая лошадка, 80% задач
- Gemini 2.5 Pro ($1.25/$10 · ≈ 113/900 ₽) — длинные документы и мультимодальность
- DeepSeek V3.2 ($0.28/$0.42 · ≈ 25/38 ₽) — массовые задачи, но не конфиденциальные
70–80% качества при 20–50× экономии. Когда денег нет или задачи такие, что качество важно лишь приблизительно.
- DeepSeek V3.2 — основная модель. Не использовать для конфиденциальных данных
- Gemini 2.0 Flash ($0.10/$0.40 · ≈ 9/36 ₽) — простые и массовые задачи
- Grok 4.1 Fast ($0.20/$0.50 · ≈ 18/45 ₽, контекст 2M) — длинные документы
- Qwen 2.5 Coder 32B — кодинг через self-host (бесплатно, но нужно железо)
Мой реальный стек
Чтобы не было абстрактным — вот чем сам пользуюсь каждый день.
- Claude Sonnet 4.6 и ChatGPT 5.4 — две основные рабочие лошадки. Sonnet закрывает большинство задач: тексты, PRD, переписка, мелкий код, ресёрч. ChatGPT 5.4 — когда нужен разбор данных или длинные рассуждения, там у него ощутимо сильнее.
- Claude Opus 4.7 — включаю точечно. Написание кода на сложных задачах, рефакторинг, разбор архитектуры, брейншторминг. Когда качество критично и не жаль потратить токены.
- GPT-5.4 отдельной строкой — для анализа данных (через Advanced Data Analysis, режим с исполнением Python прямо в чате) и длинных рассуждений.
- Отдельно тестирую российские модели — Алису, YandexGPT, GigaChat. Для простых задач на русском они работают заметно лучше, чем принято думать, и важно понимать, что умеют и где применимы.
Российские модели
Коротко: YandexGPT и GigaChat в международных независимых бенчмарках не участвуют. Данные по ним есть только в российских источниках (MERA, MySummit.school), и сравнивать их с фронтиром напрямую некорректно.
| Сценарий | Что взять |
|---|---|
| Российское законодательство и ГОСТы | YandexGPT, GigaChat |
| Деловые тексты на русском | YandexGPT |
| Данные не должны покидать РФ | GigaChat, YandexGPT |
| Возможность установки on-premise | Alice Pro, GigaChat |
| Экосистема Яндекса | YandexGPT / Alice AI |
| Кодинг | Не рекомендую |
| Мультиязычные задачи | Не рекомендую |
По деньгам картина странная: GigaChat 2 Max (~650 ₽/1M) и YandexGPT Pro 5.1 (~1200 ₽/1M) дороже многих западных аналогов, а качество ниже. Смысл брать есть в двух случаях: данные по закону должны оставаться в российском контуре, или работа без VPN критична. Во всех остальных — я бы смотрел на зарубежное.
Про compliance и законы. Если обрабатываете персональные данные российских пользователей — по ФЗ-152 они должны храниться и обрабатываться на серверах в РФ. OpenAI, Anthropic и Google под это не подходят в принципе, даже через OpenRouter: их серверы не в России, это констатация факта. Легальные варианты: GigaChat on-premise, YandexGPT в инфраструктуре Yandex Cloud (российский контур), или self-host открытой модели (Llama, DeepSeek, Qwen) в российском дата-центре. Для европейской аудитории и GDPR — похожая история: нужен либо EU-регион провайдера (OpenAI и Anthropic это умеют), либо DPA-соглашение. Проверять compliance лучше через юриста, а не через интернет-форумы.
Отдельно про YandexGPT. Простые русские задачи она закрывает на удивление хорошо: классификация обращений, саммари коротких текстов, базовая генерация описаний, переформулирование. За фронтирный reasoning и сложный код — идти не стоит, а для массовых рутинных задач на русском это рабочий вариант, особенно когда важно, чтобы данные не улетали за пределы РФ.
И отдельно — Yandex SpeechKit. Это не LLM, а движок распознавания речи и синтеза, но упомянуть его здесь важно. Для русского языка — один из лучших на рынке. Если строите расшифровку звонков, диктофонную транскрибацию, голосового ассистента — имеет смысл смотреть именно сюда, даже если основной AI-стек у вас на западных моделях. Комбинация «SpeechKit для распознавания речи + Claude или Gemini для последующей обработки текста» — частый рабочий паттерн.
Как итог
Универсально лучшей модели нет, и в ближайший год не появится. Темп обновлений — раз в 3–4 месяца, и это значит одно: любое решение нужно пересматривать регулярно. То, что работает сегодня, через полгода будет «старое железо».
Мой короткий список для «прямо сейчас» — вариант «как есть», без экономии:
- Код → Claude Opus 4.7
- Тексты → Claude Sonnet 4.6
- Данные, математика, автоматизация десктопа → GPT-5.4
- Длинные документы и reasoning → Gemini 3.1 Pro
- Бюджет → DeepSeek V3.2 (но не для конфиденциального)
Вариант 2 — если бюджет зажат, а качество всё равно нужно приличное:
- Код → DeepSeek V3.2 (для прода — всё же Sonnet 4.6)
- Тексты → Claude Sonnet 4.6 (уже оптимум по цене-качеству)
- Данные → Claude Sonnet 4.6 вместо GPT-5.4
- Длинные документы → Gemini 2.5 Pro вместо 3.1 Pro
- Массовые простые задачи → Gemini 2.0 Flash или Grok 4.1 Fast
Ну и держите в голове: где-то в серверной Anthropic стоит модель, которая в одиночку взламывает браузеры. Её вам не продадут.
Словарь терминов из этой статьи
Если встретили выше что-то непонятное. Полный глоссарий живёт отдельно, здесь только то, что мне понадобилось.
| Термин | Что это |
|---|---|
| LLM | Большая языковая модель. Claude, GPT, Gemini — всё LLM. |
| Токен | Единица, которой модель меряет текст. 1M токенов ≈ 750 000 слов ≈ «Война и мир». |
| Контекст | Сколько текста модель помнит в одном запросе. |
| Фронтир | Передовая граница индустрии — лучшие модели сейчас. |
| Бенчмарк | Стандартный тест, который одинаково гоняют через разные модели. |
| Open-source | Веса модели в открытом доступе — можно скачать и запустить. |
| Self-host | Запуск модели на своих серверах. |
| SWE-bench Verified / Pro | Бенчмарки на починку багов. Verified — 500 отобранных задач, Pro — грязные production-кейсы. |
| GPQA Diamond | Экспертные вопросы уровня PhD: биология, химия, физика. |
| USAMO | Олимпиада США по математике. Тест reasoning. |
| EQ-Bench | Эмоциональный интеллект модели, качество диалога. |
| Elo | Рейтинг как в шахматах. Чем выше — тем чаще побеждает в слепых сравнениях. |
| Cybench | Бенчмарк по кибербезопасности. |
| pass@1 | Процент задач, решённых с первой попытки. |
| Reasoning | «Рассуждение». Модель думает перед ответом, проверяет себя. |
| Агентная задача | Модель делает многошаговое действие автономно. |
| Zero-day | Уязвимость, о которой никто кроме нашедшего не знает. |
| Эксплойт | Код, который использует уязвимость. |
| Галлюцинация | Модель уверенно выдумывает факты. |
| Токенизатор | Алгоритм, режущий текст на токены перед подачей в модель. |
| Human-level | Уровень среднего человека на задаче. |
| PRD | Product Requirements Document — техзадание на фичу. |
| CSAT | Customer Satisfaction — удовлетворённость клиентов, %. |
| NPS | Net Promoter Score — готовность рекомендовать. От −100 до +100. |
| Adoption | Доля людей, реально использующих инструмент. |
| Enterprise | Крупные компании, обычно от 1000 сотрудников. |
| Production | Боевая среда, реальные пользователи. |
| Input / Output токены | Входящие (запрос) и исходящие (ответ). Output обычно дороже. |
| Batch API | Отложенная обработка, скидка 50%. |
| Prompt Caching | Кэш повторных частей промпта, экономия до 90%. |
| Latency / throughput | Задержка до первого токена / скорость выдачи (t/s). |
| Tool use / function calling | Модель сама вызывает внешние функции и инструменты. |
| Structured outputs / JSON mode | Режим, гарантирующий валидный JSON на выходе по заданной схеме. |
| JSON | Формат хранения структурированных данных, который модели используют для вызова инструментов. |
| JSONL | Текстовый файл, где каждая строка — отдельный JSON-объект. Используется в Batch API. |
| Fine-tuning | Дообучение модели под конкретную задачу и данные. |
| DSL | Domain-Specific Language — свой небольшой язык или шаблон для узкой задачи. |
| Rate limits | Лимиты на количество запросов в минуту у провайдера. |
| SLA / uptime | Гарантия доступности сервиса, обычно в процентах за месяц. |
| Роутер | Инструмент с единым API, который направляет запросы в разные модели (OpenRouter, Portkey, LiteLLM). |
| Fallback | Автоматическое переключение на резервного провайдера при падении основного. |
| RAG | Retrieval Augmented Generation. Модель перед ответом подтягивает нужные куски из вашей базы знаний. |
| Векторная база | Хранилище текстов в виде векторов для быстрого семантического поиска (ChromaDB, Pinecone, pgvector). |
| Observability | Мониторинг работы AI-системы: логи промптов, стоимость, latency (Langfuse, Helicone, LangSmith). |
| tiktoken | Библиотека для подсчёта токенов до отправки запроса. |
| Prefix caching | Автоматическое кэширование повторяющегося начала промпта (у DeepSeek, Fireworks по умолчанию). |
| ФЗ-152 | Российский закон о персональных данных: требует хранения данных россиян на серверах в РФ. |
| GDPR | Европейский регламент о защите данных; аналог ФЗ-152 для граждан ЕС. |
| CJK-языки | Китайский, японский, корейский. |
| Data privacy | Защита приватных данных. |
| Data leak | Утечка данных в открытый доступ. |
Источники
1. DeepSeek V3.2 — Intelligence, Performance & Price Analysis — Artificial Analysis
2. Anthropic 'Mythos' AI model revealed in data leak — Fortune, март 2026
3. Claude Mythos Benchmarks Explained: 93.9% SWE-bench — NxCode
4. Project Glasswing: Securing critical software for the AI era — Anthropic
5. Claude Opus 4.7 leads on SWE-bench and agentic reasoning — The Next Web
6. Claude Opus 4.7 Benchmarks Explained — Vellum AI
7. Introducing Anthropic's Claude Opus 4.7 model in Amazon Bedrock — AWS Blog
8. JetBrains Developer Survey 2026 — данные по Claude Code adoption и CSAT
9. GPT-5.4 vs Gemini 3.1 Pro — Detailed Performance & Feature Comparison — DocsBot AI
10. Gemini 3.1 Pro vs GPT-5.4: Which AI Model Should You Choose? — NxCode
11. Claude Opus 4.7 Pricing: The Real Cost Story Behind the "Unchanged" Price Tag — Finout