Китайские модели ИИ конкурируют с американскими гигантами без многомиллиардных инвестиций
В январе 2025 года DeepSeek, относительно небольшая китайская студия, произвела революцию в отрасли, выпустив модель ИИ, которая демонстрирует возможности, аналогичные ChatGPT. Несмотря на миллиарды долларов США, потраченные на разработку и многочисленные доработки моделей от ведущих американских компаний в области ИИ, гонка остается напряженной. Arvind Krishna, генеральный директор IBM, считает, что инвестиции крупных технологических компаний в расширение центров обработки данных, ориентированных на ИИ, могут не окупиться. Независимая компания Artificial Analysis из Сан-Франциско составила подборку ведущих моделей ИИ от разных компаний в порядке убывания «индекса искусственного интеллекта»:
- Gemini 3 Pro от Google (США) – 73%;
- Claude Opus 4.5 от Anthropic (США) – 70%;
- GPT-5.1 от OpenAI (США) – 70%;
- Kimi K2 Thinking от Moonshot AI (Китай) – 67%;
- DeepSeek V3.2 (Китай) – 66%;
- Grok 4 от xAI (США) – 65%;
- MiniMax-M2 (Китай) – 61%;
- Qwen3 235B от Alibaba Cloud (Китай) – 57%;
- GLM-4.6 от Z.ai (Китай) – 56%;
- Mistral Medium 1.2 от Mistral (Франция) – 52%.

Индекс рассчитывается как средневзвешенное значение производительности моделей по нескольким сложным показателем (эффективность моделей ИИ в обработке токенов не оценивается). Если поставить перед моделями одну и ту же задачу, то стоимость ее выполнения будет различной. Аналитика показывает, что китайские модели превосходят конкурентов из других стран. Себестоимость генерации одного миллиона токенов искусственным интеллектом:
- $54 – DeepSeek V3.2;
- $159 – MiniMax-M2;
- $226 – GLM-4.6;
- $380 – Kimi K2 Thinking;
- $497 – Magistral Medium 1.2;
- $859 – GPT-5.1;
- $934 – Qwen3 235B;
- $1201 – Gemini 3 Pro;
- $1498 – Claude Opus 4.5;
- $1888 – Grok 4.
В начале декабря 2025 года DeepSeek анонсировала релиз моделей V3.2, у которых насчитывается 671 миллиард общих параметров и 37 миллиардов активных параметров. Соответствующий пост в X (Twitter) набрал 4,4 миллиона просмотров. Для сокращения периода разработки студия внедрила множество решений по оптимизации. Несколько тестов подтвердили превосходство модели над Gemini 3 Pro и R1. Три ключевые «прорывные» технологии включают:
- «DeepSeek Sparse Attention» (DSA) – снижает вычислительную сложность;
- «Scalable Reinforcement Learning Framework» – масштабирует вычислительные ресурсы после обучения;
- «Large-Scale Agentic Task Synthesis Pipeline» – генерирует синтетические данные, необходимые для облегчения обучения агентов.

DeepSeek выпустила две версии модели V3.2 – одна предназначена для использования с инструментами, а другая, Speciale, ориентирована на решения логических задач, но без поддержки инструментов. Для усиления акцента на ценовом преимуществе версии 3.2-Exp разработчики снизили цены на входные и выходные токены. Многие эксперты в области технологий на форуме Hacker News от Y Combinator признали победу DeepSeek в плане экономической эффективности. Однако существуют проблемы с доверием из-за геополитической ситуации и неоднозначного восприятия нормативных требований.
Стартап все еще отстает от Gemini 3.0 и других передовых моделей с закрытым исходным кодом, в частности, из-за меньшего количества операций с плавающей запятой (FLOP) при обучении «знаниям о мире». Этот пробел планируется устранить в будущих разработках за счет масштабирования вычислительных ресурсов для предварительного обучения. Второй проблемой остается эффективность использования токенов (DeepSeek обычно требует больше токенов для достижения того же качества выходных данных, что и модели типа Gemini 3 Pro). В будущем стартап планирует оптимизировать «плотность интеллекта» в рассуждениях. В-третьих, при решении сложных задач DeepSeek все еще уступает передовым моделям, что мотивирует разработчиков к дальнейшему совершенствованию алгоритмов.
По материалам cybernews.com