人類AI評估系統Yupp上線，可測試逾500個大型語言模型

去年成立的AI新創Yupp日前正式推出人類評估系統，邀請使用者協助評估全球逾500個大型語言模型，包括ChatGPT、Claude、Gemini、DeepSeek、Grok及Llama 等，也涵蓋了必須付費訂閱的各種Pro與Max模型，並根據使用者的回饋制定Yupp AI VIBE（Vibe Intelligence BEnchmark）排行榜。

曾於Twitter共事的Pankaj Gupta與Gilad Mishne是在2024年6月共同創立了Yupp，當時獲得了由Andreessen Horowitz（a16z）領投的3,300萬美元的種子資金，也有超過40名科技業的天使投資人參與，包括Twitter共同創辦人Biz Stone、Google首席科學家Jeff Dean、Perplexity AI 執行長Aravind Srinivas，以及Coinbase法務長Paul Grewal等。

當使用者在Yupp上問問題時，系統會提供兩個不同模型的答案供使用者比較，並列出優、劣原因供使用者勾選，亦允許使用者直接輸入意見，回答後系統就會出現「積分刮刮樂」，讓使用者刮出積分，這些積分可用來持續使用模型，或是用來兌換加密貨幣及法幣，目前新註冊的使用者可直接獲得5,000積分。

圖片來源／Yupp

系統所提供的模型可能是隨機的、符合提示需求的、匿名的，但使用者也可指定特定模型來回答，一個問題最多可測試6個模型，但如果一直問問題卻不提供比較結果，就可能會被系統踢出去。

Yupp執行長Gupta說明，該平臺透過Yupp積分運作，每個人在註冊時都會收到積分，以用來使用各種AI模型，也會因為回饋而獲得積分，回饋的品質愈高，積分就愈多；使用者的提示永遠是私密的，除非使用者選擇對外分享。

Gupta表示，回饋有助於打造個人化AI，也可幫助AI社群建置更好的模型。來自一個用戶的意見或許不夠可靠，但凝聚全球數百萬用戶的資料便會產生強大的訊號，讓AI模型供應商可以使用這些訊號來改善它們的系統及代理人。

至於Yupp AI VIBE提供了使用者最喜愛的模型、最快的模型、最好的低價模型、最好的開源模型、最好的圖像生成模型、最好的推理模型、最好的即時模型、最好的文字模型，以及最常被否決的模型的列表供外界參考。

熱門新聞