數據基礎建設

異質文本資料可擴展處理之分散式語意分析系統設計

Design of a Distributed Semantic Analysis System for Scalable Processing of Heterogeneous Text Data

研討會論文 Y.-Y. Chang, M.-C. Tsai, Y.-C. Chien, Y.-Z. Chai, and C.-K. Chang* （* 通訊作者） IEEE BigDataService 2026

研究問題

大規模 AI 課程助教累積的對話文本涵蓋句子、對話、長文等多種粒度，若要從中量化「學習者提問的語意發散程度」，現有方法多倚賴詞頻、TF-IDF 距離或向量間的成對餘弦距離。這些方法只能反映局部成對關係，無法刻畫高維語意空間的整體結構，跨文本類型時也難以維持一致的判讀標準。

研究方法：CSVI 與分散式服務架構

本研究提出 CSVI（Core Semantic Variance Index，核心語意變異指標），將文本嵌入後計算共變異矩陣的特徵值頻譜，並以 Participation Ratio 量化語意分布的有效維度，再透過樣本量校正機制將指標壓縮到 0–1 區間，使不同對話長度之間具備可比性。

在系統層，研究實作一套以 Apache Spark 為核心的分散式語意分析服務平台，將處理流程拆為三個獨立可擴展階段： 資料攝入與前處理層（分散式結構偵測、長度切分、文本清理）、 語意嵌入層（以 broadcast 模型權重執行 Transformer 編碼以降低 shuffle 成本）、與 CSVI 計算層（在 Spark MLlib 的分散式線性代數原語上執行 PCA 特徵值分解）。各階段以記憶體內交換降低 I/O 延遲，並以分區 key-value store 維護個別使用者的語意發散軌跡。

實驗結果

研究在三個語料粒度上比較三種方法： M1（CSVI）、M2（Average Adjacent Cosine Distance, ACD）、M3（Entropy/JSD）。 Python Class GPT Dialogue 含 865 段真實大學課程對話，涵蓋中英文 code-switching 與多輪話題轉換。

Multilingual-STSB（句子層）：CSVI 86.35% / ACD 82.54% / Entropy 73.55%
Python Class GPT Dialogue（對話層）：CSVI 93.05% / ACD 79.15% / Entropy 65.34%
20 Newsgroups（長文層）：CSVI 88.32% / ACD 77.75% / Entropy 70.62%
CSVI 較 ACD 在三組資料分別領先 +3.81、+13.90、+10.57 個百分點
嵌入式方法（CSVI、ACD）整體優於詞彙統計方法（Entropy）

對教學的啟示

透過量化學生提問的語意發散與收斂程度，教師得以推估學習者的認知狀態與理解深度，不再僅依賴測驗分數作為唯一指標。 CSVI 提供細粒度且連續的學習歷程視角，可作為差異化教學與適性介入的依據；搭配分散式服務架構後，語意分析能在大規模課程資料下維持時效性，支援跨課程、跨班級的即時語意趨勢觀察。

在 Uedu 上的實踐：ClassroomGPT 對話語意分析

ClassroomGPT 與 UeduGPTs 每日累積大量學習對話文本， Python Class GPT Dialogue 資料集即取自本平台真實課程紀錄。 CSVI 與其分散式分析服務為這些對話資料提供可擴展的語意發散量化方法，讓對話焦點分析、認知投入評估與跨課程語意比較等下游應用，得以在規模擴展時維持效率與一致性。

前往使用

引用資訊

Y.-Y. Chang, M.-C. Tsai, Y.-C. Chien, Y.-Z. Chai, and C.-K. Chang, "Design of a Distributed Semantic Analysis System for Scalable Processing of Heterogeneous Text Data," in Proc. 2026 IEEE International Conference on Big Data Computing Service and Machine Learning Applications (BigDataService), Fukuoka, Japan, Jul. 2026.

上一篇 C-GRASP：基於臨床推理的情感訊號處理框架

想做類似研究？

我們提供研究設計諮詢、IRB 支援與資料匯出，讓您的教學實踐也能成為學術研究。

預約討論

--

1

--

32.3%

140.05

82.02%

62,201

AI Reply Desktop Notifications

Chat Message Notifications

Sound notification

More settings