去年成立的AI新創Yupp日前正式推出人類評估系統,邀請使用者協助評估全球逾500個大型語言模型,包括ChatGPT、Claude、Gemini、DeepSeek、Grok及Llama 等,也涵蓋了必須付費訂閱的各種Pro與Max模型,並根據使用者的回饋制定Yupp AI VIBE(Vibe Intelligence BEnchmark)排行榜

曾於Twitter共事的Pankaj Gupta與Gilad Mishne是在2024年6月共同創立了Yupp,當時獲得了由Andreessen Horowitz(a16z)領投的3,300萬美元的種子資金,也有超過40名科技業的天使投資人參與,包括Twitter共同創辦人Biz Stone、Google首席科學家Jeff Dean、Perplexity AI 執行長Aravind Srinivas,以及Coinbase法務長Paul Grewal等。

當使用者在Yupp上問問題時,系統會提供兩個不同模型的答案供使用者比較,並列出優、劣原因供使用者勾選,亦允許使用者直接輸入意見,回答後系統就會出現「積分刮刮樂」,讓使用者刮出積分,這些積分可用來持續使用模型,或是用來兌換加密貨幣及法幣,目前新註冊的使用者可直接獲得5,000積分。

圖片來源/Yupp

系統所提供的模型可能是隨機的、符合提示需求的、匿名的,但使用者也可指定特定模型來回答,一個問題最多可測試6個模型,但如果一直問問題卻不提供比較結果,就可能會被系統踢出去。

Yupp執行長Gupta說明,該平臺透過Yupp積分運作,每個人在註冊時都會收到積分,以用來使用各種AI模型,也會因為回饋而獲得積分,回饋的品質愈高,積分就愈多;使用者的提示永遠是私密的,除非使用者選擇對外分享。

Gupta表示,回饋有助於打造個人化AI,也可幫助AI社群建置更好的模型。來自一個用戶的意見或許不夠可靠,但凝聚全球數百萬用戶的資料便會產生強大的訊號,讓AI模型供應商可以使用這些訊號來改善它們的系統及代理人。

至於Yupp AI VIBE提供了使用者最喜愛的模型、最快的模型、最好的低價模型、最好的開源模型、最好的圖像生成模型、最好的推理模型、最好的即時模型、最好的文字模型,以及最常被否決的模型的列表供外界參考。

熱門新聞

Advertisement