Модель GPT 5.5 випущена: спеціалізується на наукових дослідженнях і програмуванні! Порівняємо відмінності з Claude Opus 4.7 один раз

OpenAI несподівано випустила модель GPT-5.5, яка відзначається найпотужнішими та інтуїтивно зрозумілими можливостями написання коду та роботи з різними інструментами, у цій статті наведено порівняльний аналіз ефективності основних моделей GPT-5.5, Claude Opus 4.7 та Gemini 3.1 Pro.

OpenAI представила GPT-5.5! Основні характеристики одразу

Гігант штучного інтелекту OpenAI у ніч з 24 квітня за тайм-зоною Тайваню несподівано випустила нову модель GPT-5.5, яка заявлена як найрозумніша та найінтуїтивніша система штучного інтелекту на сьогодні.

OpenAI заявляє, що модель GPT-5.5 має потужні можливості автоматичного програмування, добре справляється з виправленням помилок у коді, онлайн-дослідженнями та роботою з різними інструментами.

У порівнянні з попередньою GPT-5.4, GPT-5.5 зберігає той самий рівень затримки обчислень і може виконувати завдання з меншим кількістю маркерів.

Генеральний директор OpenAI Грег Брокман зазначив, що нова модель є важливим кроком у напрямку інтуїтивних обчислень і є ключовим етапом у створенні суперзастосунків, що поєднують ChatGPT, Codex та AI-браузер.

Ціни та доступність GPT-5.5

Відтепер користувачі планів ChatGPT Plus, Pro, Business та Enterprise, а також користувачі Codex можуть використовувати GPT-5.5, а розширена версія GPT-5.5 Pro доступна для користувачів Pro, Business та Enterprise.

Щодо цін на API, вартість за вхідний токен GPT-5.5 становить 5 доларів за 1 мільйон токенів, а за вихід — 30 доларів за 1 мільйон. GPT-5.5 Pro коштує 30 доларів за 1 мільйон вхідних токенів і 180 доларів за 1 мільйон вихідних.

Цікаво, що випуск GPT-5.5 співпав із судовим процесом між Ілоном Маском та генеральним директором OpenAI Самом Альтманом, що привернуло увагу громадськості.

Результати тестування GPT-5.5: переваги та недоліки

У тестах на базі ефективності (Benchmark) GPT-5.5 показала технічні переваги, але в окремих сферах залишаються виклики.

За даними офіційних даних OpenAI, у тесті Terminal-Bench 2.0, що оцінює складні командні рядки, GPT-5.5 досягла точності 82,7%; у тесті GDPval для оцінки знань у роботі з даними — 84,9%, що свідчить про високу практичну цінність у повсякденних офісних задачах.

У відкритому тесті SWE-Bench Pro для вирішення реальних проблем на GitHub GPT-5.5 набрала 58,6%, трохи поступившись Claude Opus 4.7 із 64,3%.

OpenAI зазначає, що результати тестів можуть бути впливом пам’яті моделі, але все ж демонструють, що GPT-5.5 має недоліки у виправленні помилок у процесі розробки.

Джерело зображення: OpenAI

Результати тестів GPT-5.5: переваги та недоліки

У галузі безпеки, Anthropic нещодавно представила модель Claude Mythos Preview, орієнтовану на високий рівень безпеки, тоді як GPT-5.5 покращила захист, але наразі її використовують лише через спеціальні канали для захисту інфраструктури сертифікованих компаній.

Порівняння основних моделей: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro

Порівняння даних GPT-5.5 та Claude Opus 4.7

За даними офіційних тестів OpenAI та ITmedia, у тесті OSWorld-Verified, що імітує реальні комп’ютерні операційні системи, GPT-5.5 отримала 78,7%, трохи випередивши Claude Opus 4.7 із 78,0%.

У тесті BrowseComp, що оцінює логічні операції та роботу з інструментами, GPT-5.5 набрала 84,4%, перевищивши Claude Opus 4.7 із 79,3%; у тестах FrontierMath Tier 1–3 для високорівневої математики GPT-5.5 отримала 51,7%, тоді як Claude Opus 4.7 — 43,8%.

Порівняння даних GPT-5.5 та Gemini 3.1 Pro

У порівнянні з Gemini 3.1 Pro, GPT-5.5 переважає у більшості професійних тестів. У тесті GDPval для знань, GPT-5.5 набрала 84,9%, тоді як Gemini 3.1 Pro — 67,3%.

У тесті Toolathlon, що оцінює використання зовнішніх інструментів, GPT-5.5 отримала 55,6%, перевищивши Gemini 3.1 Pro із 48,8%.

Джерело зображення: OpenAI

У мульти-модальному тесті MMMU Pro без використання інструментів GPT-5.5 показала результат 81,2%, Gemini 3.1 Pro — 80,5%, що дуже близько.

GPT-5.5 — чи готує вона вихід на IPO?

Дослідник OpenAI Марк Чен зазначив, що GPT-5.5 суттєво покращує процеси наукових і технічних досліджень, і в майбутньому може допомогти в прискоренні відкриття нових ліків та інших галузях.

Зовнішні ЗМІ, зокрема The Verge, вказують, що цей запуск відображає боротьбу OpenAI та Anthropic за домінування на ринку корпоративних AI-інструментів і готує ґрунт для можливого IPO, яке може відбутися вже цього року.

Додаткові матеріали:
Як користуватися ChatGPT Images 2.0? Практичні приклади меню з м’ясною локшиною, обкладинок журналів, багато мовних наукових матеріалів

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити