說明 Uedu 平台如何透過 ELO 評分系統與盲測 A/B 比較,讓使用者評估不同 AI Prompt 的回應品質,類似 LM Arena / Chatbot Arena 的機制。
Uedu 的 Prompt 排行榜(ELO Leaderboard)是一個以 ELO 評分系統為核心的 Prompt 評估工具,靈感來自 LM Arena(原 Chatbot Arena)。使用者透過盲測 A/B 比較,評判兩個不同 Prompt 產生的 AI 回應孰優孰劣,系統據此動態調整每個 Prompt 的 ELO 分數。
此機制讓教師與學生能以群眾智慧(crowdsourced evaluation)的方式,找出最適合特定任務的 Prompt 設計,同時也為 Prompt Engineering 的研究提供量化數據。
ELO 評分系統最初用於西洋棋選手排名,核心概念是:每場對局後,根據實際結果與預期結果的差異調整雙方分數。勝方加分、敗方扣分,且「爆冷」的幅度更大。
| 參數 | 值 | 說明 |
|---|---|---|
| K 值 | 32 | 每場對局的最大分數變動量 |
| 初始分數 | 1500 | 新 Prompt 的起始 ELO 分數 |
| 最低對局數 | 30 | Prompt 需累計至少 30 場盲測才會進入排行榜 |
盲測消除了使用者對特定 Prompt 作者或名稱的偏見,確保評判純粹基於回應品質。這與學術研究中的雙盲實驗精神一致。
在一場 A vs. B 的對局中,A 的預期得分(Expected Score)為:
EA = 1 / (1 + 10(RB - RA) / 400)
其中 RA、RB 分別為 A 與 B 的當前 ELO 分數。同理,B 的預期得分 EB = 1 - EA。
根據實際對局結果(actual score),更新 A 的 ELO 分數:
ΔRA = K × (SA - EA)
其中 SA 為 A 的實際得分:
| 結果 | SA | SB |
|---|---|---|
| A 勝 | 1.0 | 0.0 |
| B 勝 | 0.0 | 1.0 |
| 平手 | 0.5 | 0.5 |
假設 Prompt A(ELO 1500)vs. Prompt B(ELO 1600),使用者選擇 A 勝(爆冷):
由於 A 的預期勝率較低,爆冷獲勝時獲得較多加分。
盲測使用的問題分為以下類型,確保 Prompt 在不同任務面向都被評估:
| 類型代碼 | 說明 |
|---|---|
knowledge | 知識型問題(事實回答、概念解釋) |
coding | 程式設計問題(寫程式、除錯、解釋程式碼) |
writing | 寫作類問題(文章撰寫、潤稿、翻譯) |
reasoning | 推理問題(邏輯推演、數學、因果分析) |
creative | 創意問題(腦力激盪、故事創作、方案設計) |
每個 Prompt 可標記多個標籤,方便使用者篩選與研究者分析:
| 標籤 | 說明 |
|---|---|
beginner_friendly | 適合初學者使用 |
coding_expert | 擅長程式設計相關任務 |
detailed | 傾向提供詳細完整的回應 |
concise | 傾向提供簡潔精煉的回應 |
academic | 適合學術研究場景 |
系統收集盲測參與者的基本人口統計資訊(user profiles),作為研究分析的背景變項,例如使用經驗、學科領域等。
為確保排名的可靠性,Prompt 需滿足以下條件才會出現在公開排行榜:
未達門檻的 Prompt 仍會持續參與盲測配對,但其 ELO 分數標記為「暫定」,不列入正式排名。
根據中央極限定理,30 次以上的獨立觀測可初步趨近常態分布,使 ELO 分數具有一定的統計穩定性。
AI Prompt 的品質評估採用 Uedu 平台的 ELO Leaderboard 模組,參考 LM Arena(Chatbot Arena)的盲測比較機制。系統隨機配對兩個 Prompt,分別生成 AI 回應後以盲測方式呈現給使用者,由使用者判定勝負或平手。ELO 評分參數為 K=32、初始分數 1500,依公式 EA = 1/(1+10(RB-RA)/400) 計算預期得分,再以 ΔR = K×(S-E) 更新分數。Prompt 需累計至少 30 場盲測方進入正式排名。盲測問題涵蓋知識、程式、寫作、推理與創意五種類型。詳細方法論說明見 https://uedu.tw/doc/leaderboard。
建議同時提供: