Мені дуже сподобалася ця історія про NVIDIA з Groq. В основному, те, що пояснив Хуанг Женьсюнь, тепер має дуже стратегічний сенс.



Уся справа почалася через зміну ринку інференції. Раніше всі зосереджувалися лише на одному: збільшенні пропускної здатності, обробці більшої кількості запитів одночасно. Але потім люди зрозуміли, що на практиці все не так просто. Деякі користувачі готові платити більше за швидші відповіді, незалежно від загального обсягу.

Це приблизно так: у вас є дві однакові моделі, але одна відповідає за 50мс, а інша — за 500мс. Якщо ви інженер, який розробляє застосунок у реальному часі, скільки б ви заплатили більше за ту, що в 10 разів швидша? Саме так, цей ринок з низькою затримкою зовсім інший від ринку високої пропускної здатності.

Тут і входить Groq. Їхня архітектура LPU спеціалізована саме на цьому — низькій детермінованій затримці. Поки GPU NVIDIA домінують у сфері масової пропускної здатності, Groq заповнює зовсім іншу нішу. Коли дивишся на Groq 3 LPU, випущений у березні, зроблений у 4нм Samsung, здатність інференції на мегават у трильйонних моделях у 35 разів краща за Blackwell NVL72. Це зовсім не мало.

Що говорить Хуанг у основному, так це те, що NVIDIA зрозуміла, що існує не один ринок інференції, а два дуже різні сегменти з абсолютно різною динамікою ціноутворення. Можна мати меншу пропускну здатність, але якщо ціна за токен дуже висока, це вигідно. Це як розширення границь Парето на ринку.

Це був дуже продуманий хід NVIDIA, насправді. Вони визнали прогалину і пішли на неї. Джонатан Росс і команда Groq продовжують працювати незалежно, але тепер із усією підтримкою NVIDIA. Здається, нарешті хтось починає думати про інференцію більш складно.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити