PinchBench benchmark: Gemini 3 Flash unggul 95,1% dalam tugas OpenClaw model besar AI

robot
Pembuatan abstrak sedang berlangsung

Odaily Planet Daily melaporkan bahwa CISO 23pads dari Slow Fog menyatakan di platform X bahwa pengujian benchmark PinchBench mengevaluasi kinerja model bahasa besar AI dalam tugas proxy OpenClaw. Hasilnya menunjukkan Gemini 3 Flash berhasil menyelesaikan tugas OpenClaw dengan tingkat keberhasilan 95,1%, diikuti oleh minimax-m2.1 dan kimi-k2.5 dengan masing-masing 93,6% dan 93,4%. Claude Sonnet 4.5 mencapai 92,7%, dan GPT-4o sebesar 85,2%.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan