К содержимому страницы

LLM в мобильном приложении: on-device, edge или API?

После анонса Apple Intelligence в iOS 26 «AI в мобильном приложении» перестало означать «обращение к OpenAI API». Появилась реальная развилка: on-device модель, собственный edge-сервис или внешний провайдер. У каждой стратегии своя экономика и свои продуктовые ограничения.

On-device через Apple Foundation Models

С iOS 26 разработчику доступен фреймворк FoundationModels — генеративная модель работает прямо на устройстве. Бесплатно с точки зрения трафика и latency, плюс приватность данных пользователя сохраняется по умолчанию.

Ограничения честные: модель меньше GPT-4-класса, размер контекста скромнее, специализированные задачи (генерация кода, юридический анализ) даются хуже. Зато для классификаций, суммаризации коротких текстов, ассистента в UI — отлично. И никаких затрат на инфраструктуру.

Edge: свой бэкенд с open-source моделью

Llama 3, Qwen, Mistral, GigaChat — open-source модели стали достаточно сильными, чтобы их деплоить на своих серверах. Это даёт контроль над данными, фиксированную стоимость и независимость от санкционной политики внешних API.

Главное «но»: одна GPU стоит как 5–10 ChatGPT-Plus подписок в месяц. Окупается, когда количество запросов превышает несколько миллионов в месяц, или когда требования к данным не позволяют их вообще выпускать за периметр.

Внешний API: быстро, но с нюансами

OpenAI, Anthropic, YandexGPT, GigaChat API, Cohere — всё это запускается за один день. Платишь за токены, получаешь топовое качество. Подходит для MVP и продуктов с нерегулярной нагрузкой.

Минусы становятся видны на росте: токены могут стоить дороже инфраструктуры на большой нагрузке, есть зависимость от доступности и rate limits провайдера, есть юридические вопросы по 152-ФЗ при обработке российских пользовательских данных через зарубежные API.

Что мы обычно рекомендуем

На старте — внешний API. Это самый быстрый путь к валидации продуктовой гипотезы. Если фича приживается, делаем «слой абстракции»: бизнес-логика не знает, откуда приходит LLM-ответ. И дальше переключаемся: лёгкие задачи → on-device на iOS, тяжёлые → свой edge при объёме, чувствительные данные → российский провайдер с размещением на территории РФ.