top of page

APMIC × Twinkle AI|繁體中文推理資料集三大禮包開源發布|打造台灣 LLM 最強語料庫

2025年5月7日 上午4:30:00

企業新訊, 產業亮點

APMIC 與 Twinkle AI 社群合作發起資料集建置計畫,打造三大繁體中文推理資料集,全面涵蓋數理邏輯、日常推理與工具指令應用三大面向。

在推動繁體中文大型語言模型(LLM)自主化發展過程中,APMIC 與 Twinkle AI 社群共同發現 Hugging Face 等主流平台上缺乏高品質繁體中文推理語料,導致許多企業與研究者在模型訓練階段面臨瓶頸。為解決這一問題,雙方合作發起資料集建置計畫,從語料範疇規劃、翻譯流程設計、品質審核到生成驗證,打造三大繁體中文推理資料集,全面涵蓋數理邏輯、日常推理與工具指令應用三大面向。

我們不僅提供語料設計策略與品質標準,也整合算力資源與自動化處理流程,讓繁中資料建置更快速、更準確、更實用。這批資料集現已於四月正式開源,將成為繁中 LLM 模型訓練與落地部署的重要基礎設施。


這些資料集以 MIT 與 Creative Commons Attribution 4.0 授權釋出,支援繁體中文推理、逐步思考、Function Calling 等核心能力,也與 Twinkle Eval 評測框架無縫結合,成為台灣 LLM 自主化生態系的重要組成。


一、數理推理資料集 

twinkle-ai/tw-math-reasoning-2k(MIT License)

本資料集從 HuggingFaceH4/MATH 英文數學題庫中精選 2,000 題,透過 perplexity-ai/r1-1776 模型將題目轉譯並重寫為具邏輯步驟與答案的繁中版本,廣泛適用於訓練數學推理能力。

應用場景:數學解題助手、教育問答系統、邏輯推論測試




二、日常推理資料集

 twinkle-ai/tw-reasoning-instruct-50k(MIT License)

精選五萬筆涵蓋生活、教育、法律等情境的繁中推理對話資料。資料設計強調「思考過程 + 最終答案」的雙層結構,協助模型學會具備步驟邏輯與條理表達。特別強調符合台灣本地語言與文化背景的應用需求。

應用場景:教育助理、客服系統、合規回答、在地語境推理任務






三、Function Calling 資料集 

twinkle-ai/tw-function-call-reasoning-10k(CC BY 4.0)

本資料集為 Salesforce/xlam-function-calling-60k 的精簡翻譯版,翻譯與人工校對後,提供 10,000 筆繁中格式的函式呼叫資料,用於訓練模型具備指令理解與程式邏輯處理能力。

應用場景:AI 工具操作介面、自然語言 API 指令解析、ChatOps 代理人



從模型到資料集:ACE-1 Series 與 Twinkle Eval 的深度整合

這三組資料集也同步支援由 APMIC 合作推出的繁中語言模型「ACE-1 Series」與評測框架 Twinkle Eval。ACE-1 Series 為台灣首個可於手機端運行的 3B 繁體中文推理模型,現已支援模型上下文協定(Model Context Protocol, MCP),可串接企業 API、ERP、IoT 系統實現語言控制流程。

APMIC 並同步提供微調、蒸餾與模型代工解決方案,協助企業將 ACE-1 Series 客製化為私有部署模型,滿足在地知識、邏輯推理與低功耗裝置部署需求。

更多資訊:




推理資料集的應用價值

這三組繁中推理語料,讓模型具備:

  • 更好的步驟邏輯能力(Chain-of-Thought)

  • 在地語境理解能力(台灣繁體語料)

  • Function Calling 任務處理能力

無論是學界研究、企業內部模型訓練、教育應用或 AI 工具建置,皆可直接使用這些高品質語料快速上手。



APMIC:打造台灣繁中 LLM 生態的推動者

APMIC 長期深耕本地語言模型與企業私有化 AI 建置,本次由 APMIC 領頭策劃並協同 Twinkle AI 社群開發三大繁體中文推理資料集,補足現階段 Hugging Face 生態中繁中語料的空缺,協助模型訓練與應用快速落地。


“透過這批開源資料集,我們期待企業、開發者、教育機構等能以更低成本快速取得高品質繁中語料,推動台灣生成式 AI 能力向下扎根、向上開展。”

如何參與與回饋?

社群歡迎所有使用者在實際應用後提供反饋,若您發現語料缺乏某個任務類型,歡迎於討論區回報,我們將持續擴充主題覆蓋,打造更多繁體中文 LLM 訓練資源。



從資料集到部署,協助台灣企業打造自主 AI

從語料、模型、到私有化部署,Twinkle 社群與 APMIC 正在建立完整的繁中 LLM 生態系。三大資料集是推動台灣 AI 在地應用的重要基礎,結合 Twinkle Eval 與 APMIC 所開發專為企業設計的繁中推理模型 ACE-1 Series,企業將更有信心落實語言模型建置與整合,真正打造屬於自己的 AI 大腦。


有 AI 建置需求,歡迎聯繫 APMIC 專人取得技術支援與客製化規劃。

APMIC 與 Twinkle AI 社群合作發起資料集建置計畫,打造三大繁體中文推理資料集,全面涵蓋數理邏輯、日常推理與工具指令應用三大面向。

APMIC 與 Twinkle AI 社群合作發起資料集建置計畫,打造三大繁體中文推理資料集,全面涵蓋數理邏輯、日常推理與工具指令應用三大面向。

bottom of page