Зустрівся з досить цікавим рухом. Здається, Moondream запустила нову послугу «Lens», яка спеціалізується на підвищенні точності візуальних мовних моделей. Це сталося минулого тижня, 21 квітня.



Раніше VLM були відмінними в лабораторних умовах, але при застосуванні у реальних ситуаціях їх точність суттєво падала. Lens — це сервіс донастроювання для виправлення цієї проблеми, який підтримує як підкріплювальне навчання, так і навчання з учителем. Це API з оплатою за використання, тому можна використовувати лише стільки, скільки потрібно.

Що робить його особливим, так це здатність значно покращувати результати за допомогою невеликої кількості даних. Наприклад, при аналізі відео трансляцій NBA, точність F1 зросла з 28% до 79%. Також значно зменшилася кількість помилкових спрацьовувань.

У задачах ідентифікації країни за зображеннями з Google Street View або обробки медичних зображень, модель показує результати, що перевищують існуючі. Це здається кроком вперед у практичному застосуванні візуальних мовних моделей.

Партнер Moondream, PTZOptics, планує інтегрувати Lens для підвищення точності відстеження цілей і виявлення аномалій. Раніше Moondream випустила інференційний двигун Photon, але Lens доповнює його, забезпечуючи баланс між швидкістю та точністю у роботі з VLM.

Розв’язуючи задачі реального світу за допомогою технологій, такі поступові покращення сприятимуть широкому впровадженню VLM.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити