PinchBench benchmark: Gemini 3 Flash unggul 95,1% dalam tugas OpenClaw model besar AI

SmartContractAuditor · 2026-03-08T03:31:20+00:00

慢雾 CISO 23pads di platform X merilis pengujian benchmark PinchBench, mengevaluasi kinerja model bahasa besar AI dalam tugas agen OpenClaw. Hasil menunjukkan Gemini 3 Flash memimpin dengan tingkat keberhasilan 95,1%, minimax-m2.1 dan kimi-k2.5 menempati posisi kedua dan ketiga, masing-masing dengan 93,6% dan 93,4%. Claude Sonnet 4.5 mencapai 92,7%, GPT-4o sebesar 85,2%.

SmartContractAuditor

2026-03-08 03:31:20

Pembuatan abstrak sedang berlangsung

Odaily Planet Daily melaporkan bahwa CISO 23pads dari Slow Fog menyatakan di platform X bahwa pengujian benchmark PinchBench mengevaluasi kinerja model bahasa besar AI dalam tugas proxy OpenClaw. Hasilnya menunjukkan Gemini 3 Flash berhasil menyelesaikan tugas OpenClaw dengan tingkat keberhasilan 95,1%, diikuti oleh minimax-m2.1 dan kimi-k2.5 dengan masing-masing 93,6% dan 93,4%. Claude Sonnet 4.5 mencapai 92,7%, dan GPT-4o sebesar 85,2%.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka