
2025-11-21
Модели Qwen3-VL 4B/8B были успешно адаптированы для развертывания на Суанненг BM1684X, достигнув скорости вывода 13,7/7,2 токенов в секунду. Это делает их оптимальным выбором для развертывания больших мультимодальных моделей на периферии.
Недавно Алибаба Квен официально открыла исходный код версий 4B и 8B моделей серии Qwen3-VL, предоставив более эффективные мультимодальные решения искусственного интеллекта для периферийных вычислений и конечных устройств. Чип На солнце BM1684X завершил адаптацию для этой серии, достигнув производительности вывода 13,7/7,2 токенов/с для моделей 4B/8B на периферии.
Прорыв в производительности модели: компактные параметры, значительные возможности
Серия Qwen3-VL пополнилась новыми моделями: Qwen3-VL-8B с плотной архитектурой и Qwen3-VL-4B, разработанные для локального развертывания. Эти модели превосходят сопоставимые аналоги в таких тестах, как MMMU и MathVista, демонстрируя при этом производительность, сопоставимую с более крупными моделями в определенных тестовых сценариях. Благодаря оптимизации архитектуры они эффективно устраняют дисбаланс между визуальными и текстовыми возможностями, часто встречающийся в более мелких моделях, предлагая дополнительные решения для сценариев пограничных вычислений.
Модели Qwen3-VL 4B и 8B сохраняют легкую архитектуру, обеспечивая при этом комплексные возможности мультимодального понимания. Обе модели предлагаются в вариантах Instruct и Thinking для различных сценариев применения.
Модель Qwen3-VL проактивно выявляет аномальное поведение, автоматически активирует отслеживание с помощью нескольких камер и запускает инструменты для генерации протоколов реагирования, обеспечивая замкнутый цикл от восприятия до принятия решений. Используя расширенные возможности пространственного мышления, система точно анализирует траектории движения персонала, обнаруживает аномальные скопления людей, строит динамические карты ситуации с безопасностью и выдает ранние предупреждения о потенциальных рисках. Дальнейшее расширение возможностей долгосрочного контекста позволяет осуществлять точное позиционирование второго уровня в расширенных видеозаписях. Опираясь на текстовый поиск, система обеспечивает логически обоснованный анализ событий, существенно повышая эффективность расследований.
Кроме того, многочисленные крайние случаи, не рассматриваемые традиционными алгоритмами, больше не требуют ручной аннотации для обучения. Вместо этого они могут быть достигнуты непосредственно путем быстрой настройки, продвигаясь от «видения» к «пониманию». Qwen3-VL придаст новый импульс интеллектуальному обновлению различных периферийных устройств.
Ускорение адаптации BM1684x: непревзойденная производительность вывода
Чип BM1684X завершил адаптацию для серии Qwen3-VL, причем адаптация открыта для общего доступа в репозитории LLM-TPU. Все устройства, вычислительные карты и микросерверы на базе BM1684X теперь могут стабильно работать.
Развертывание API в один клик: для интеграции мультимодальных возможностей Qwen3-VL в другие системы стандартизированный API, инкапсулированный в AIGC-SDK, позволяет выполнить реализацию с помощью одной команды:скрипты bash/init_app.sh qwen3vl.
Тестовые данные показывают, что модель Qwen3-VL достигает скорости вывода 13,7 токенов/с на платформе BM1684X. Такая производительность обеспечивает мультимодальное понимание в реальном времени на периферии. Кроме того, многоканальная способность чипа кодировать/декодировать видео позволяет одновременно обрабатывать 32 видеопотока 1080p, что создает основ.
Интеграция моделей серии Qwen3-VL с BM1684X открывает новые технические возможности для интеллектуальных обновлений в различных отраслях. Локальное развертывание эффективно сокращает задержку передачи данных в облаке, повышая отзывчивость системы.
Набор инструментов с открытым исходным кодом предоставляет пользователям больше контроля, еще больше упрощая развертывание моделей. Разработчики могут легко переносить свои настроенные модели на пограничные устройства, ускоряя внедрение приложений.