AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Посмотреть результаты оценки ↓GitHub · Тесты и правила оценки

66+

Оценка задания

Ключевые аспекты

Участвовать в оценке Агент

Ежемесячно

Ежемесячное обновление

Размеры

Оценочные параметры

Покрытие всех этапов взаимодействия с Crypto пользователями — от базовых операций на CEX до сложных исследований на блокчейне, все основано на реальных сценариях.

10 задачи

CEX

Спотовый ордер, открытие и закрытие контрактов, проверка финансовых продуктов, стратегия сетки, перевод средств между счетами и анализ портфеля.

10 задачи

DEX

Свайп на блокчейне, сравнение цен на кросс-цепочном мосту, контроль проскальзывания, оптимизация многопроходного маршрута и оценка рисков контрактов.

10 задачи

Кошелек

Мультицепочечные переводы, оценка резервирования газа, проверка формата адреса, блокировка неправильных цепочек и условные переводы.

12 задачи

Анализ рынка

Реальные рыночные данные, технический анализ RSI / свечи K, оценка соотношения объема и цены, сравнение нескольких валют и волатильности.

12 задачи

Исследование проекта

Анализ токеномики, определение нарративного цикла, обнаружение Rug Pull, сравнение с конкурентами и исследовательский отчет.

12 задачи

Цепочка отслеживания

Адресная визуализация и анализ прибыли и убытков, отслеживание крупных игроков, сигналы Smart Money, мониторинг безопасности протоколов.

Базовые операции

Одношаговые команды, четкие намерения. Например, запрос баланса, просмотр рыночной цены, простое размещение заказа.

Условная операция

Содержит предварительную проверку или исключительные ветви. Например, блокировка при недостаточном балансе, дополнение параметров, идентификация рисков неправильной цепочки.

Сложная задача

Многоступенчатые, с множеством ограничений, требуют логического взвешивания. Например, оптимальный путь между цепями, полная передача с сохранением Gas.

Результаты марта 2026 года

Рейтинг обзоров

Общий взвешенный балл по 6 основным аспектам. Все оценки проводятся с использованием механизма консенсуса двух моделей, дополненного ручным арбитражем.

#	Агент	Тип	Общий балл	CEX	DEX	Кошелек	Анализ рынка	Исследование проекта	Цепочка отслеживания
1	GateAI Agent	Универсальный ИИ	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI установлен）	Универсальный ИИ	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI установлен）	Универсальный ИИ	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Крипто ИИ	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI установлен）	Универсальный ИИ	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Крипто ИИ	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	Универсальный ИИ	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Крипто ИИ	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	Универсальный ИИ	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI установлен）82.8

Codex Agent（Gate for AI установлен）81.2

Gate AI Agent занял первое место в общем рейтинге в этом тестировании. Как глубоко интегрированный в биржу нативный агент, он занимает первое место по трем основным направлениям: CEX торговля, DEX торговля и анализ рынка. В этом тестировании было включено 9 агентов, задания охватывают 6 основных сценариев: CEX торговля, DEX торговля, операции с кошельками, анализ рынка, ончейн расследования и исследование проектов, оценка проводилась по двойной модели консенсуса с последующей ручной проверкой. Производительность Gate AI Agent по этой системе стандартов является полной проверкой его нативных возможностей в Web3.

Система оценки

Методология оценки

Каждый вопрос оценивается по 2-3 независимым критериям, используется двойная модель консенсусного аудита, все бенчмарки и веса полностью открыты.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Распознавание и блокировка рисков

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Полностью соответствует всем критериям оценки

PARTIAL

0.6

Направление правильное, но выполнение неполное.

FAIL

0.0

Ошибка, выдумка или наличие рисков безопасности

Двухмодельный консенсусный обзор

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Взвешенная综合评分

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Участие в классификации Agent

Gate AI Агент

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Универсальный AI агент

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Третий сторонний Crypto AI Agent

Industry's other Crypto-specific AI Agents

Посмотреть полный набор вопросов и правила оценки →

Выбор темы и детали оценки

Подробности оценки по вопросам

Нажмите на любой вопрос, чтобы развернуть и посмотреть баллы и оценочные параметры каждого агента.

CEX

DEX

Кошелек

Анализ рынка

Исследование проекта

Цепочка отслеживания

cex_001L1Помоги мне посмотреть, сколько USDT у меня осталось на спотовом счете.100▾

Помоги мне посмотреть, сколько USDT у меня осталось на спотовом счете.

GateAI Agent100

Claude Agent（Gate for AI установлен）95

Codex Agent（Gate for AI установлен）82.5

AskSurf Agent36.5

Manus（Gate for AI установлен）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Оценочные параметры

Понимание намерений аккаунтаПравильно ли распознано как запрос баланса спотового аккаунта, а не общего капитала, баланса контракта или операции депозита

Проверка точности балансаВозвращает ли доступный баланс USDT, значение и единицы измерения четкие, различает доступные/замороженные средства

Обработка исключений и поясненияПри возникновении проблем, таких как неавторизованный доступ или истечение срока действия авторизации, предоставляется ли четкая причина и рекомендации по следующим шагам.

cex_002L1Купить SOL по рыночной цене на 10 долларов.89▾

Купить SOL по рыночной цене на 10 долларов.

GateAI Agent89

Claude Agent（Gate for AI установлен）72.5

Codex Agent（Gate for AI установлен）87.5

AskSurf Agent77.5

Manus（Gate for AI установлен）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Оценочные параметры

Интерпретация команды точностьПравильно ли понято, что 10U — это сумма в USDT, а не количество 10 SOL.

Целостность выполнения сделкиВозвращает ли результат сделки, шаги подтверждения или четкое описание статуса заказа

Распознавание и блокировка рисковПри недостаточном балансе или ограниченных правах, точно ли блокируется и уведомляется ли пользователь о следующих действиях

cex_003L1USDT финансовых продуктов годовая доходность составляет сколько?95▾

USDT финансовых продуктов годовая доходность составляет сколько?

GateAI Agent95

Claude Agent（Gate for AI установлен）87.5

Codex Agent（Gate for AI установлен）91

AskSurf Agent77.5

Manus（Gate for AI установлен）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Оценочные параметры

Продуктовый диапазонСосредоточен ли на финансовых продуктах с USDT/заработке на криптовалюте, а не на торговле или кредитовании

Результат действительностиВозвращает ли хотя бы один вид действительного финансового продукта USDT и его годовую доходность

Доходность и ограниченияУказывается ли характеристика динамических изменений доходности или ограничения по квалификации/региону

cex_004L1Помогите мне найти продавца, который поддерживает Alipay, чтобы купить 5000 USDT.100▾

Помогите мне найти продавца, который поддерживает Alipay, чтобы купить 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI установлен）47.5

Codex Agent（Gate for AI установлен）60

AskSurf Agent77.5

Manus（Gate for AI установлен）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Оценочные параметры

P2P сцена распознаванияПравильно ли распознано как P2P покупка криптовалюты за фиат, извлечение параметров Alipay, 5000 юаней, USDT.

Качество результатов сопоставленияВозвращает ли список рекламных объявлений, соответствующих условиям, или исполняемые варианты покупки

Блокировка и описание рисковПредоставляется ли четкая причина и дальнейшие указания в случае отсутствия рекламы или недостаточной квалификации

cex_005L2Шортить ETH90▾

Шортить ETH

GateAI Agent90

Claude Agent（Gate for AI установлен）92.5

Codex Agent（Gate for AI установлен）82.5

AskSurf Agent36.5

Manus（Gate for AI установлен）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Оценочные параметры

Понимание направления торговлиПравильно ли распознано, что шорт по ETH является открытием шорта по бессрочному контракту, а не продажей спотовых активов?

Параметры дополнения и планыАктивно ли задавать вопросы при отсутствии параметров, включает ли окончательный план направление/рычаг/маржу

Исполнение замкнутого цикла и блокировкаПосле предоставления всех параметров возможно ли предложить исполняемую схему, и будет ли точная блокировка в условиях ограниченного времени?

cex_006L2Помоги мне закрыть длинную позицию по BTC.72.5▾

Помоги мне закрыть длинную позицию по BTC.

GateAI Agent72.5

Claude Agent（Gate for AI установлен）96

Codex Agent（Gate for AI установлен）95

AskSurf Agent52.5

Manus（Gate for AI установлен）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Оценочные параметры

Семантическое распознавание закрытия позицийПравильно ли распознано как закрытие длинной позиции/продажа, а не как открытие шорта.

Проверка позиций и результатыСначала проверить длинные позиции по BTC, затем предоставить результаты закрытия или подтверждение следующего шага

Риски и обработка исключенийВ сценариях, таких как отсутствие позиций или недостаточные права, предоставляется ли точное объяснение

cex_007L2Переведите 10 USDT с наличного счета на счет бессрочного контракта.90▾

Переведите 10 USDT с наличного счета на счет бессрочного контракта.

GateAI Agent90

Claude Agent（Gate for AI установлен）94

Codex Agent（Gate for AI установлен）92.5

AskSurf Agent71.5

Manus（Gate for AI установлен）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Оценочные параметры

Перенос пути корректностиПравильно ли распознано как внутренний перевод, направление - со спотового счета на счет бессрочных контрактов

Исполнение или блокировка результатаУкажите статус при успешном переводе, точно ли блокируется при недостаточном балансе.

Информация о ясностиНаправление счета, сумма, причина аномалии выражены четко?

cex_008L2Купил 100U, когда ETH упал до 2500.75▾

Купил 100U, когда ETH упал до 2500.

GateAI Agent75

Claude Agent（Gate for AI установлен）62.5

Codex Agent（Gate for AI установлен）70

AskSurf Agent62.5

Manus（Gate for AI установлен）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Оценочные параметры

Тип заказа идентификацииОпределяется ли как лимитный ордер на покупку по цене, а не как рыночный ордер на немедленное исполнение.

Параметры корректностиЯвляются ли три ключевых параметра: валюта ETH, целевая цена 2500 и сумма 100U - точными?

Исполнение замкнутого циклаПредоставляется ли подтверждение/статус исполнения, точно ли блокируется в условиях ограничений

cex_009L3Помоги мне проанализировать, обогнал ли мой общий счет за последние 30 дней BTC, и посмотри, какова вероятность выигрыша и соотношение прибыли и убытков по USDT perpetual.90▾

Помоги мне проанализировать, обогнал ли мой общий счет за последние 30 дней BTC, и посмотри, какова вероятность выигрыша и соотношение прибыли и убытков по USDT perpetual.

GateAI Agent90

Claude Agent（Gate for AI установлен）85

Codex Agent（Gate for AI установлен）77.5

AskSurf Agent77.5

Manus（Gate for AI установлен）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Оценочные параметры

Анализ охватаОхватывает ли одновременно два измерения: превышение BTC по счету и анализ поведения на бессрочных контрактах

Результаты и точность индикаторовУказано ли, превзошел ли BTC, а также данные о коэффициенте выигрыша и соотношении прибыли к убыткам

Калибровка и обработка исключенийЯвляется ли четким различие между двумя типами анализа калибровки, указаны ли ограничения в случае отсутствия данных?

cex_010L3Используйте 100 USDT для открытия сетки спотовой торговли BTC.95▾

Используйте 100 USDT для открытия сетки спотовой торговли BTC.

GateAI Agent95

Claude Agent（Gate for AI установлен）60

Codex Agent（Gate for AI установлен）67.5

AskSurf Agent77.5

Manus（Gate for AI установлен）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Оценочные параметры

Тип идентификации стратегииПравильно ли идентифицировано как BTC спотовая сетка, а не контрактная сетка или другая количественная стратегия

Параметры правильности схемыТочно ли отражены три ключевых элемента: BTC, 100 USDT, спотовая сетка

Блокировка и ограниченияУказывается ли четкая причина, когда недостаточно средств или стратегия недоступна

Часто задаваемые вопросы

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark как проводит оценку?+

Оценка основана на производительности AI Agent в более чем 66 реальных задачах, с учетом таких показателей, как степень выполнения задач, точность и эффективность выполнения, чтобы обеспечить объективность, справедливость и сопоставимость результатов оценки.

Как часто обновляются данные для оценки?+

Ежемесячное обновление. С учетом итеративного обновления различных агентов и присоединения новых агентов, мы будем продолжать проводить оценку и обновлять рейтинг. База вопросов также будет расширяться в соответствии с развитием отрасли и новыми сценариями.

Оценка является ли объективной? Участвует ли Gate AI в оценке справедливо?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Как определяется сложность тестовых заданий?+

Разделяется на три уровня — L1 (базовые операции: пошаговые инструкции, четкие намерения), L2 (условные операции: с предварительными проверками или исключительными ветвлениями), L3 (комплексные задачи: много шагов, множество ограничений, требующие рассуждений и взвешивания). Чем выше уровень сложности, тем больше проявляется способность агента к комплексному принятию решений в реальных сценариях криптовалют.

Основные различия между универсальным AI-агентом и специализированным агентом для криптовалют заключаются в следующем:+

Универсальные AI-агенты (такие как Claude, ChatGPT) показывают результаты, близкие к специализированным агентам в задачах информационного поиска (анализ рынка, исследование проектов), но в задачах, требующих реального выполнения операций (размещение ордеров, перевод по цепочке, оценка Gas и блокировка неправильных цепочек), разница очевидна. Именно поэтому в области Crypto необходима специализированная инфраструктура AI-агентов.