当前的 AI 翻译主要应用于书面语言。但世界现存的几千种语言,近一半是口头语言。口头语言几乎没有规范的书写系统,难以用通常方法来开发、训练翻译模型。
为了应对这一挑战, 建立了第一个以口语为主的闽南语 AI 翻译系统,其可一定程度上让说闽南语与说英语的人,进行良好对话。
对外表示:“口头交流可以帮助打破人与人之间的隔阂,也有助于人们在元宇宙(Metaverse)中交流。”该公司当前正在全力发展元宇宙业务,甚至在 2021 年 11 月将公司名字由 改为 。如果元宇宙要取得成功,需要实现更加身临其境和自然的体验。
据了解,开发闽南语翻译系统的一个重要前提是,需要有足够的数据。如今的机器翻译模型大都需要海量的书面文本来做训练。而闽南语的文本资源较少,在收集和注释数据方面存在不足。
因此,研究者决定利用高资源语言的数据来解决这一问题。他们选择使用普通话作为中介,即将闽南语转为普通话后,再译成相应的另一语言。该方法极大提高了模型的性能。
另外, 还采用了一种语音挖掘的训练数据生成方法,借助预训练的语音编码器,将闽南语和其他语言嵌入到同一语义空间中。这样,即使闽南语没有文字形式,其也能和英语或语义相似的文本对应。
值得一提的是, 还为非书面语言翻译开发了一种新的建模方法。
据了解,目前的语音翻译模型开发,大都需要借助转录或语音生成文本系统。但由于口头语言缺少规范的文字,因此, 将重点放在了语音到语音的翻译上。
研究人员使用“语音到单元的转换”(Speech-to-Unit Translation,S2UT)方法,把输入的语音变成许多声学单元。然后,再让声学单元产生波形。此外,他们还采用双通道解码机制,分别用来生成单元和以相关语言(普通话)生成文本。
接着, 对闽南语翻译系统的准确性做了评估。一般来说,语音翻译系统的评估采用的是 ASR-BLEU 指标。该指标指的是,用自动语音识(ASR Automatic Speech Recognition)将翻译的语音转换成文本,再对比转换文本与人工翻译文本,从而计算 BLEU 分数。BLEU 全称为 Bilingual evaluation understudy(双语评价替补),是一种标准的机器翻译指标。
凡注有"环球传媒网"或电头为"环球传媒网"的稿件,均为环球传媒网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网",并保留"环球传媒网"的电头。
资讯
焦点
- 首次超过美国 全球最佳大学排行榜:338所中国大学上榜
- Meta市值缩水至2017年水平 扎克伯格身价排名跌出全球前十
- “双11”成立自营物流公司 菜鸟回应:消息不实
- 瑞信(CS.US)CEO发表备忘录 试图让市场相信其财务稳定性
- 财务大臣重申捍卫日元立场 日本央行9月政策会议摘要提及政策转向
- 英国迎来黄金抢购潮 新政府“迷你预算”刮起恐慌风暴
- 高盛:美国家庭和外国投资者将分别净抛售1000亿美元股票
- 违约概率飙升至至少10年来最高水平 百年银行巨头瑞信被传“爆雷”!
- 美联储在加息速度问题上已现分歧 市场Q4能否扭转颓势?
- 进一步加码全球黄油市场 威士兰乳业收购新西兰乳企Canary Foods