Я заметил интересное движение. Похоже, Moondream запустила новый сервис «Lens», специально предназначенный для повышения точности визуальных языковых моделей. Это произошло на прошлой неделе, 21 апреля.



До этого VLM хорошо показывали себя в лабораторных условиях, но при переносе в реальную среду точность резко падала. Lens — это сервис донастройки, который исправляет именно это, поддерживая как обучение с усилением, так и обучение с учителем. API работает по модели платной по мере использования, поэтому можно использовать только необходимое.

Что особенно впечатляет, так это возможность значительного улучшения с небольшим объемом данных. Например, при анализе видеотрансляций NBA точность F1 выросла с 28% до 79%. Также значительно снизилось количество ложных срабатываний.

Говорят, что он показывает превосходные результаты в задачах определения страны по изображениям с уличных видов и в медицинской обработке изображений. Кажется, практическое применение визуальных языковых моделей сделало очередной шаг вперед.

Партнер Moondream, PTZOptics, планирует интегрировать Lens для повышения точности отслеживания целей и обнаружения аномалий. Ранее Moondream выпустила движок Photon для инференса, а Lens дополняет его, обеспечивая баланс скорости и точности при эксплуатации VLM.

Решая задачи реального мира с помощью технологий, такие постепенные улучшения, вероятно, приведут к широкому распространению VLM.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить