Home
學生控制台
註冊會員/登入
研究知情同意書
UeduGPTs
Uedu Jupyter
我的學習畫像
學習特質探索
Uedu Mind
Uedu Fit
Garmin 儀錶板
運動紀錄
Wellness Toolkit
PALM
Uedu Brain Dev
Learning Portfolio
山巒地圖
我的證書
教師控制台
課程設定
EMI Toolkit
Assessment Toolkit
Interaction Toolkit
Forum Toolkit
AI 知識庫
功能介紹
教學實踐研究
學術交流
教學工作坊
活動主辦
課程搜尋
FAQ常見問答
使用教學
更新紀錄
學生研究團隊招募
建立AI助教說明
教師研究社群
教學研究支援
Uedu Labs
隱私權政策
資料安全
研究倫理
支援與訊息
支持 Uedu
Uptime 數據

UeduGPTs

--

Jupyters

6

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

METHODOLOGY

ELO Leaderboard
Prompt 排行榜方法論

說明 Uedu 平台如何透過 ELO 評分系統與盲測 A/B 比較,讓使用者評估不同 AI Prompt 的回應品質,類似 LM Arena / Chatbot Arena 的機制。

1. 概述

Uedu 的 Prompt 排行榜(ELO Leaderboard)是一個以 ELO 評分系統為核心的 Prompt 評估工具,靈感來自 LM Arena(原 Chatbot Arena)。使用者透過盲測 A/B 比較,評判兩個不同 Prompt 產生的 AI 回應孰優孰劣,系統據此動態調整每個 Prompt 的 ELO 分數。

此機制讓教師與學生能以群眾智慧(crowdsourced evaluation)的方式,找出最適合特定任務的 Prompt 設計,同時也為 Prompt Engineering 的研究提供量化數據。

2. ELO 評分系統

2.1 基本概念

ELO 評分系統最初用於西洋棋選手排名,核心概念是:每場對局後,根據實際結果與預期結果的差異調整雙方分數。勝方加分、敗方扣分,且「爆冷」的幅度更大。

2.2 系統參數

參數說明
K 值32每場對局的最大分數變動量
初始分數1500新 Prompt 的起始 ELO 分數
最低對局數30Prompt 需累計至少 30 場盲測才會進入排行榜

3. 盲測比較流程

  1. 系統隨機選取兩個 Prompt(A 與 B),並隨機選擇一道問題
  2. 兩個 Prompt 分別生成 AI 回應,呈現給使用者
  3. 使用者不知道哪個回應來自哪個 Prompt(盲測)
  4. 使用者選擇:A 較好、B 較好、或平手(tie)
  5. 系統依據選擇結果更新雙方的 ELO 分數
為何採用盲測?

盲測消除了使用者對特定 Prompt 作者或名稱的偏見,確保評判純粹基於回應品質。這與學術研究中的雙盲實驗精神一致。

4. 數學公式

4.1 預期得分

在一場 A vs. B 的對局中,A 的預期得分(Expected Score)為:

EA = 1 / (1 + 10(RB - RA) / 400)

其中 RA、RB 分別為 A 與 B 的當前 ELO 分數。同理,B 的預期得分 EB = 1 - EA

4.2 分數更新

根據實際對局結果(actual score),更新 A 的 ELO 分數:

ΔRA = K × (SA - EA)

其中 SA 為 A 的實際得分:

結果SASB
A 勝1.00.0
B 勝0.01.0
平手0.50.5

4.3 計算範例

假設 Prompt A(ELO 1500)vs. Prompt B(ELO 1600),使用者選擇 A 勝(爆冷):

  • EA = 1 / (1 + 10(1600-1500)/400) = 1 / (1 + 100.25) ≈ 0.36
  • ΔRA = 32 × (1.0 - 0.36) = +20.5
  • ΔRB = 32 × (0.0 - 0.64) = -20.5
  • 新分數:A = 1520.5,B = 1579.5

由於 A 的預期勝率較低,爆冷獲勝時獲得較多加分。

5. 問題類型與標籤

5.1 問題類型

盲測使用的問題分為以下類型,確保 Prompt 在不同任務面向都被評估:

類型代碼說明
knowledge知識型問題(事實回答、概念解釋)
coding程式設計問題(寫程式、除錯、解釋程式碼)
writing寫作類問題(文章撰寫、潤稿、翻譯)
reasoning推理問題(邏輯推演、數學、因果分析)
creative創意問題(腦力激盪、故事創作、方案設計)

5.2 Prompt 標籤

每個 Prompt 可標記多個標籤,方便使用者篩選與研究者分析:

標籤說明
beginner_friendly適合初學者使用
coding_expert擅長程式設計相關任務
detailed傾向提供詳細完整的回應
concise傾向提供簡潔精煉的回應
academic適合學術研究場景

5.3 使用者人口統計

系統收集盲測參與者的基本人口統計資訊(user profiles),作為研究分析的背景變項,例如使用經驗、學科領域等。

6. 排名條件

為確保排名的可靠性,Prompt 需滿足以下條件才會出現在公開排行榜:

  • 累計至少 30 場盲測對局
  • 對局需來自不同使用者(避免單一使用者大量灌票)

未達門檻的 Prompt 仍會持續參與盲測配對,但其 ELO 分數標記為「暫定」,不列入正式排名。

30 場的統計依據

根據中央極限定理,30 次以上的獨立觀測可初步趨近常態分布,使 ELO 分數具有一定的統計穩定性。

7. 研究引用建議

方法論描述範本

AI Prompt 的品質評估採用 Uedu 平台的 ELO Leaderboard 模組,參考 LM Arena(Chatbot Arena)的盲測比較機制。系統隨機配對兩個 Prompt,分別生成 AI 回應後以盲測方式呈現給使用者,由使用者判定勝負或平手。ELO 評分參數為 K=32、初始分數 1500,依公式 EA = 1/(1+10(RB-RA)/400) 計算預期得分,再以 ΔR = K×(S-E) 更新分數。Prompt 需累計至少 30 場盲測方進入正式排名。盲測問題涵蓋知識、程式、寫作、推理與創意五種類型。詳細方法論說明見 https://uedu.tw/doc/leaderboard。

建議同時提供:

  • 排行榜的 Prompt 數量與對局總數
  • 盲測參與者人數與人口統計摘要
  • 各問題類型的對局分布
  • 資料收集期間