生成式 AI 技术崛起,各国致力发展与自身语言相关的大型语言模型,台湾有不少机关和企业着手发展繁体中文模型和应用。
AI 公司 iKala 近期推出的繁体中文验证集「TMMLU+」正式被 AI 语言模型学术会议 COLM(Conference on Language Modeling)接受,在众多论文审查过程中,获得前 10% 的高分。
有监於各国语言差异性,台湾特有的文化和用字习惯,例如「8+9」、「北车」或台语等,建构繁体中文模型过程需要专属验证集调校,才能获得更精准的 AI 应用成果。
iKala 内部 AI 团队以联发科所推出的框架 TMMLU 为基础,透过社群媒体资料深入扩展,涵盖更多台湾在地用语和人文背景,让新开发的繁体中文验证集 TMMLU+ 更贴近繁体中文的词语情境和表达方式,加上开源形式,可协助台湾企业开发繁体中文模型时,使用 TMMLU+ 做为模型验证的工具,贴近在地需求。
iKala 自 2023 年 10 月着手开发 TMMLU+,2024 年春季送审至 COLM。COLM 由来自 Google DeepMind、Meta、微软及常春藤等 AI 领域的知名学者共同成立,是极具公信力的 AI 组织。iKala 的 AI 团队在评审过程特别针对繁体中文的字形、用法等特色进行详细说明,阐述价值所在,进而在激烈竞争中脱颖而出。
iKala 多年来深耕 AI 技术获得肯定,TMMLU+ 目前被多家台厂采用,进行大语言模型评测,为台湾企业提供可靠且统一的验证标准。
(首图为 iKala 共同创办人暨执行长程世嘉,首图来源:科技新报)