如果 GPT-4、Claude-3-Opus、Llama-3-70B……外加一個(gè)神級新秀 Nana banana 同時(shí)站在你面前,你能在 30 秒內(nèi)挑出最會寫代碼、最懂梗、也最會哄人的那個(gè)嗎?
99% 的人會搖頭。但 LMArena.ai 把這道題做成了游戲,而且讓人上癮到停不下來。
LMArena 是一個(gè)用于評估和比較不同大型語言模型(LLM)的在線平臺。
它主要以其“競技場(Arena)”功能而聞名,其運(yùn)作方式如下:
- 匿名對戰(zhàn):平臺會向用戶展示兩個(gè)匿名的AI模型,并讓它們回答用戶提出的相同問題或指令。
- 用戶投票:用戶根據(jù)兩個(gè)模型生成回答的質(zhì)量,投票選出他們認(rèn)為更好的一個(gè)。
- 模型排名:通過收集大量用戶的投票數(shù)據(jù),平臺對各個(gè)語言模型進(jìn)行統(tǒng)計(jì)和排名,并將其結(jié)果展示在排行榜(Leaderboard)上。
該工具主要運(yùn)用于人工智能研究與開發(fā)領(lǐng)域,特別是大型語言模型的性能評估和基準(zhǔn)測試。它通過眾包(crowdsourcing)的方式,利用真實(shí)用戶的偏好作為評價(jià)標(biāo)準(zhǔn),為AI開發(fā)者和研究人員提供關(guān)于不同模型在實(shí)際應(yīng)用中表現(xiàn)的參考。
現(xiàn)在爆火的Nano Banana模型也可以在LMArena使用哦,詳細(xì)的工具評測大家可以戳文章:http://76r.com.cn/lmarena