确定一系列核心方言,并为其建立自动语音识别(ASR)模型。当一个未知方言出现时,我们可以通过分析哪些方言接近这一系列核心方言来识别这个未知方言的内容。

方言应用的窗口期大概是二三十年。AI识别方言非常困难。中国各方言系统之间甚至各方言内部的地域差异普遍存在。各地方言往往以口头形式流传,缺乏相应的文字,不易收集。能够用于模型训练的方言语料数据很少。

新艺科技算法科学家倪博一。

10月24日,在第八届信义科技杯算法大赛决赛上,9支人工智能队伍展开角逐,探索利用AI技术识别和还原语音数据中的方言信息,测量不同方言之间的距离,推动智能语音识别技术的发展。

方言距离是一个开放的问题。比如,人们通常会直观地认为上海话和杭州话的距离比上海话和北京话的距离更近。从实用的角度来看,距离越近,自动语音识别引擎在交叉使用时能得到的效果越好。这样,利用少数核心方言的自动语音识别引擎,就近抄录各种未知方言,是方言ASR识别问题的潜在解决方案之一。

金融科技集团信义科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音的特征,提升用户体验;从长远来看,用核心方言来支持所有方言的音译,找到核心方言的最优布局。

测量方言之间的距离

中国幅员辽阔,人口众多,方言情况十分复杂。方言系统之间甚至每种方言内部的地域差异是普遍存在的。这就导致了客服语音沟通中方言或口音的挑战。

为了对客服人员与客户沟通过程中产生的大量语音数据进行完善的分析和质量检测,需要利用语音和NLP(自然语言处理)算法进行批量处理、分析和质量检测。通常,质检任务的第一步算法是ASR传递。

不过,信义科技算法科学家倪博一表示,ASR音译的一个实际问题是,通用的ASR模型是基于普通话数据,无法准确音译方言。目前商业解决方案还不能满足大部分方言的音译。大多数可用的中文ASR模型要么不支持方言,要么只覆盖有限数量的方言。

理论上,最理想的解决方案是为每种方言建立一个ASR引擎。只要有语音和对应的文字,就可以训练出每个方言的模型,但是这种方法成本高,费时费力。单独对一种方言建模,往往需要考虑这个地区的方言是否相对统一,地区经济和科研实力是否允许。

倪博一认为,工程可行的办法是先确定一系列核心方言,并为其建立ASR模型。当一个从未被AI识别过的方言出现时,我们可以通过分析哪些方言接近这一系列核心方言来识别这个未知方言。但是,“必须先选择一种方言与另一种核心方言的相似程度,才能用这种核心方言作为对比来识别其他方言。”因此,衡量不同方言之间的距离是解决问题的关键。倪博一表示,方言距离的研究有助于进一步探索如何从语音层面对方言进行建模,提取方言特征,分析方言的形成和演变机制。这些结果也可以与传统的方言分类方法相互验证,并服务于更广泛的研究目标。

第八届信义科技杯算法大赛决赛现场,选手们正在卫冕。

那么如何衡量方言之间的距离呢?倪博一说,目前他们对方言的发音进行了加权,得到一个0到100之间的值,代表距离,这是一个比较客观的指标。但是,判断不同方言之间的距离还有其他方法。本次信义科技杯算法大赛也旨在寻找优秀的算法方案,在思想碰撞中衡量方言之间的距离,拓展商用ASR接口的模型应用范围,推动核心方言引擎的布局,提高方言识别的准确率。

方言底层逻辑+大模型

今年5月,Meta推出了大规模多语言语音(MMS)模型,将文本到语音和语音到文本的技术从大约100种语言扩展到1100多种,还识别了4000多种口语。在中国,Tik Tok推出了当地方言的自动翻译功能。一键即可将粤语、闽南语、吴语、西南官话、中原官话等方言视频翻译成普通话字幕。科大讯飞的方言识别语言已扩展到23种,并探索了智能语音帮助方言保护的方法。

语言是人类特有的属性,是文化的载体。有些语言甚至只有少数人掌握,一旦这些老人去世,这种语言就会消失。一旦语言消失,文化就无处可寻。

“方言是个宝库,里面包含了太多的东西。如果只剩下普通话,语言就没有乐趣了。但目前方言正在消失,方言应用的窗口期大概是二三十年。AI识别方言非常困难,经济价值也不大,所以很少有人愿意推广这个。”倪博一表示,各地方言往往以口头形式流传,缺乏对应的文字,收集难度大,可用于模型训练的方言语料数据少之又少。今天,我们已经有了互联网数据。如果我们能够消除数据获取的障碍,并将语音数据开放给公共资产,这对研究人员来说将是一个巨大的优势。

虽然科技金融业务带来的客服语音已经积累了方言语料,但是从大量语音中提取方言数据又是一个挑战。从10000个小时的语音数据中找出100个小时的方言就像大海捞针。倪博一表示,识别方言的距离有助于解决这个问题,但这只是AI识别方言的解决方案之一,还有其他解决方案可以探索。

在倪博一看来,AI不可能对很多方言一一识别,而应该研究方言的底层逻辑和特征,构建统一的识别框架。同时大模型的前期训练可以自我学习,探索借助大模型技术提高识别准确率。倪博一提出了一个想法,由于音标是固定的,是否可以用国际音标序列来标注各种方言,构建一个语言模型来识别方言,他认为这或许可以解决大部分方言没有对应文字的问题。他也期望通过本次大赛,构建一个长长的问题列表(即连续的正常问题,参与者可以长期停留在gallants),支持社区共同构建语音语料库和模型算法,以更低的成本服务于方言保护。