Design of a Distributed Semantic Analysis System for Scalable Processing of Heterogeneous Text Data
大規模 AI 課程助教累積的對話文本涵蓋句子、對話、長文等多種粒度, 若要從中量化「學習者提問的語意發散程度」, 現有方法多倚賴詞頻、TF-IDF 距離或向量間的成對餘弦距離。 這些方法只能反映局部成對關係, 無法刻畫高維語意空間的整體結構, 跨文本類型時也難以維持一致的判讀標準。
本研究提出 CSVI(Core Semantic Variance Index,核心語意變異指標), 將文本嵌入後計算共變異矩陣的特徵值頻譜, 並以 Participation Ratio 量化語意分布的有效維度, 再透過樣本量校正機制將指標壓縮到 0–1 區間, 使不同對話長度之間具備可比性。
在系統層,研究實作一套以 Apache Spark 為核心的分散式語意分析服務平台, 將處理流程拆為三個獨立可擴展階段: 資料攝入與前處理層(分散式結構偵測、長度切分、文本清理)、 語意嵌入層(以 broadcast 模型權重執行 Transformer 編碼以降低 shuffle 成本)、 與 CSVI 計算層(在 Spark MLlib 的分散式線性代數原語上執行 PCA 特徵值分解)。 各階段以記憶體內交換降低 I/O 延遲, 並以分區 key-value store 維護個別使用者的語意發散軌跡。
研究在三個語料粒度上比較三種方法: M1(CSVI)、M2(Average Adjacent Cosine Distance, ACD)、M3(Entropy/JSD)。 Python Class GPT Dialogue 含 865 段真實大學課程對話, 涵蓋中英文 code-switching 與多輪話題轉換。
透過量化學生提問的語意發散與收斂程度, 教師得以推估學習者的認知狀態與理解深度, 不再僅依賴測驗分數作為唯一指標。 CSVI 提供細粒度且連續的學習歷程視角, 可作為差異化教學與適性介入的依據; 搭配分散式服務架構後, 語意分析能在大規模課程資料下維持時效性, 支援跨課程、跨班級的即時語意趨勢觀察。
ClassroomGPT 與 UeduGPTs 每日累積大量學習對話文本, Python Class GPT Dialogue 資料集即取自本平台真實課程紀錄。 CSVI 與其分散式分析服務為這些對話資料提供可擴展的語意發散量化方法, 讓對話焦點分析、認知投入評估與跨課程語意比較等下游應用, 得以在規模擴展時維持效率與一致性。
前往使用