a16z领投3300万美元种子轮,Yupp如何基于区块链与激励重塑AI评估模式?

中级6/19/2025, 8:25:51 AM
a16z 领投 3300 万美元种子轮,Yupp 如何通过区块链与激励机制重塑 AI 模型评估?本文详解其众包评估模式、VIBE 评分系统、技术架构与发展愿景,探讨 AI 与 Web3 交叉的新可能。

随着AI应用深入各行各业,如何准确评估模型性能与提升用户信任成了当下亟待解决的难题。传统评测多依赖集中化机制,既难以覆盖多样化场景,也无法反映真实用户偏好;与此同时,模型“幻觉”问题频出,用户在选择时常陷入信息茧房。

在这一背景下,Yupp作为一家新晋平台,凭借其独特的众包模式和激励机制,正试图重塑AI模型的发现、比较与使用方式,并为AI评估领域带来一场范式变革。本文将深入剖析Yupp的核心机制、技术亮点、团队背景及其对AI生态的潜在影响。

团队背景与融资:科技巨头经验加持

Yupp立足于解决AI领域长期存在的评估难题,致力于构建一个“去信任”(trustless)的AI反馈市场——让多元化的用户反馈在区块链和加密经济激励的保障下自由流通,从而形成一个可扩展、公平且透明的模型评估层。通过对高质量人工标注数据的激励分发,Yupp可以及时捕捉真实用户在不同场景下的需求和偏好,帮助AI开发者以迭代的方式优化模型性能。

该项目由Pankaj Gupta(联合创始人兼CEO)和Gilad Mishne(联合创始人兼AI负责人)于2024年6月创立,首席科学家Jimmy Lin(滑铁卢大学教授)亦参与核心团队。三人早在2010年于Twitter共事,曾打造并优化大规模推荐与搜索系统,后在Google和Coinbase积累了丰富经验。

因去中心化、数据价值透明化的愿景能够切中AI厂商对可信评估和用户参与的双重诉求,以及得益于核心团队的丰富履历,Yupp赢得了科技行业知名人士和顶级风投的高度认可。

上周,Yupp宣布完成3300万美元种子轮融资,A16z合伙人Chris Dixon领投,其他投资方还包括Google首席科学家Jeff Dean、Twitter联合创始人Biz Stone、Pinterest联合创始人Evan Sharp、Perplexity CEO Aravind Srinivas、斯坦福大学Dan Boneh、Chris Re、Nick McKeown和Balaji Prabhakar等45位知名天使及企业高管,以及Coinbase Ventures。

核心功能与用户体验:构建“AI议会”

作为一个中心化的AI评估平台,Yupp秉持“人人共享的AI(Every AI for everyone)”理念,让用户轻松发现、比较并使用最新的AI模型。与传统单一响应不同,Yupp针对每个提示同时返回两个(乃至更多)模型的答案,形成一个“AI议会”。这种设计不仅满足了用户对多样化选择的需求,更能有效甄别模型可能出现的“幻觉”,帮助用户通过对比做出更明智的决策。正如Yupp CEO Pankaj Gupta所言,并排输出对于关注生成错误的用户尤为有益,因为他们可以借此交叉验证结果。

平台现已支持逾500款AI模型,涵盖文本与图像生成领域,包括ChatGPT、Claude、Gemini、DeepSeek、Grok、Llama等知名模型,以及众多新兴模型。为进一步优化体验,Yupp还推出了“QuickTake”功能,可将冗长回复提炼为一条简洁的推文。

此外,Yupp高度重视用户隐私:所有聊天记录默认私密,除非用户主动公开;即使公开分享,也不透漏任何个人信息。用户可随时控制分享内容及范围。

经济模型与激励机制:数据劳动价值化

Yupp将免费使用与用户反馈结合,通过“Yupp积分”系统衡量模型使用情况。新用户注册秒获5000积分,后续可通过对模型回复打分、选择偏好并阐述理由来赚取更多积分。反馈质量越高,奖励越丰厚,确保用户可持续免费使用包括Claude Opus 4或OpenAI o3等高端模型。平台承诺,积分只增不减,且当前所有模型皆能免费体验。

在每次提问后,用户会获得两份模型回答,并通过反馈赢取“数字刮刮卡”,奖励0~250不等的Yupp积分。每1000积分可兑换1美元,用户每日最高可提现10美元、月度最高50美元。积分支持兑换美元、欧元等20余种货币,合作伙伴包括Stripe、PayPal、Coinbase。同时,平台集成了Base Ethernet L2和Solana稳定币,为全球用户提供即时、免手续费的奖励。

正如Pankaj Gupta所说,用户产生的高质量反馈对于AI公司的模型微调与强化学习价值远超奖励本身。虽然用户月度收益或仅相当于几杯咖啡,但这些付费标注数据对AI迭代至关重要。

为激励更多人参与,Yupp还设立推荐奖励:推荐人获5000积分,被推荐人获1000积分;目前新注册用户可获5000积分,被推荐人额外获得2500积分。

Yupp VIBE评分:AI评估的新范式

针对现有排行榜透明度不足、公平性欠缺、评估数据获取不均等问题,Yupp推出了测试版AI排行榜和“Yupp VIBE (Vibe Intelligence Benchmark) Score”评分系统。该系统汇聚全球用户在自然交互中产生的偏好数据,力求提供稳健且可信赖的评估结果。

Yupp的评估原则包括:

  • 稳健性(Robust):保证代表性(覆盖多样场景)、真实性(反映用户关切)、抗作弊性(抵御恶意行为);
  • 可信赖性(Trustworthy):公平中立(对模型不偏不倚)、透明公开(详细披露排名算法)、严谨科学(遵循评估规范)。

平台不仅收集二元偏好,还鼓励用户指出回复的优缺点(如“切中要害”、“速度快”、“风格佳”等),并根据用户的年龄、教育、职业等信息进行分群分析,展现不同群体的偏好差异。

在技术层面,Yupp正在探索利用区块链、密码学原语及零知识证明等技术,确保评估过程的公正、透明和可验证。同时,平台已与专业AI数据提供商合作,通过档案验证和多层质量检测校准评分员,清除恶意数据。

近期榜单已更新,展示了GPT‑4.5 Preview、Claude Opus 4、Claude Sonnet 4等模型的VIBE得分及其胜率、不喜欢率、速度、延迟、上下文窗口和成本指标。

发展历程与未来展望

Yupp于2025年6月13日正式上线,前期进行了六个月内部测试。自上线以来,产品持续迭代:

  • 多模态支持:接入Dall‑E、Flux、Stable Diffusion、Luma Photon、Google Imagen 4等模型,并支持用户上传图像/PDF提问;
  • 交互方式拓展:新增语音输入与语音朗读功能;
  • 模型更新:陆续引入DeepSeek R1/V3、Mistral Small 3、OpenAI o3‑pro、Hermes 3、Amazon Nova Pro v1、Microsoft Phi系列及“MAX模型”类别;
  • 实时信息:将在线查询请求路由至Perplexity和Google Gemini Live,并附带超链接引文;
  • 支付升级:新增美国PayPal、Venmo提现及24种货币PayPal支持;
  • 分享导出:支持格式保留的复制、PDF/文本/Markdown导出,按需分享单条回复或整段对话;
  • 社区活动:举办“AI提示挑战赛”等活动,奖品最高达数万积分;新增个人资料页、AI自动生成的聊天名称等功能。

Yupp的使命是“赋能人类塑造AI的未来”。Pankaj Gupta认为,AI发展需要每个人的参与与贡献。通过多视角AI回应和用户反馈,Yupp不仅助力用户更好决策,也为AI进化提供源源不断的动力。

值得一提的是,Yupp的主要竞争对手之一是开放AI模型评测平台LMArena(网址:https://lmarena.ai/), 该网站在AI业内人士中非常受欢迎,但该平台目前正处于商业化探索阶段,并没有借用区块链技术对用户参与提供直接的物质奖励或积分激励机制。

总的来说,Yupp以众包模式、激励机制与真实用户偏好驱动的评估系统,开辟了AI评估的新路径。它不仅为用户提供免费、多样的AI互动体验,更将用户反馈转化为高价值训练数据,推动模型持续优化。凭借经验丰富的团队和顶级资本加持,Yupp有望在未来AI生态中扮演关键角色,实现“人人皆享AI,人人塑造AI”的愿景。

然而,对于刚刚上线的Yupp而言,如何在大规模用户参与下,持续确保数据质量、抵御潜在的作弊行为,以及在商业化与用户激励之间取得平衡,仍将是其未来发展中需要不断探索和优化的方向。

声明:

  1. 本文转载自 [PANews],著作权归属原作者 [ShenZhen],如对转载有异议,请联系 Gate Learn 团队,团队会根据相关流程尽速处理。
  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
  3. 文章其他语言版本 由Gate Learn 团队翻译, 在未提及 Gate 的情况下不得复制、传播或抄袭经翻译文章。
即刻开始交易
注册并交易即可获得
$100
和价值
$5500
理财体验金奖励!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.