Daniel Povey:新一代的Kaldi基本布局完成 实现了让代码更优雅

新一代的Kaldi让代码更优雅,降低了耦合性,比初代Kaldi代码库更灵活,允许用户更轻松地尝试新想法,更方便用户使用

近日,小米Kaldi团队对外发布新一代Kaldi项目基本布局完成,小米集团语音首席科学家、“Kaldi之父”Daniel Povey(丹尼尔·波维)对科技讯表示,新一代的Kaldi让代码更优雅,降低了耦合性,比初代Kaldi代码库更灵活,允许用户更轻松地尝试新想法,更方便用户使用;同时也可以用在任意其他语音识别库里来处理音频和文本数据,拥有更好的泛用性与兼容性。并且强调Kaldi将一直坚持做项目开源。

Daniel Povey:新一代的Kaldi基本布局完成  实现了让代码更优雅

详解新一代Kaldi:

新一代 Kaldi 是一个全新的代码库,其中共分为三个部分: Lhotse、Icefall和k2。

k2是新一代Kaldi的核心,核心贡献在于将加权有限状态转换器(WFST)和相关算法无缝地集成到基于Autograd的机器学习工具包,如PyTorch和TensorFlow中。

Lhotse是训练数据准备部分,设计了通用又不失灵活性的接口,以适应包括语音识别、文本转语音等多种语音任务,并引入了Audio Cuts的概念从而在不影响数据处理效率的前提下,降低了数据存储所需空间。

Icefall是训练脚本集合,包含有大量的基于不同数据集的示例脚本,大大降低了用户的学习成本。

Daniel Povey是语音识别开源工具Kaldi的主要开发者和维护者,因此被称为“Kaldi之父”。针对新一代Kaldi,Daniel博士说:“新一代Kaldi依旧采用了高效的C++代码实现,且更重要的是由于将k2的C++代码都包装到了Python, 模型的训练迭代都可以使用纯Python代码完成,大大方便了用户的使用。”

新一代Kaldi的未来和应用:

Daniel博士透露对于Kaldi也有自己明确的规划。目前新一代Kaldi是由3 个独立的项目组成,分别为 k2、Lhotse 和 Icefall。 其中k2是核心项目,未来计划把k2中一部分的Python的脚本用C++重写,这样既提高效率并更利于产品化部署。同时,团队接下里还会创建 k2 的 2.0版本 ,计划在 12 月之前完成。

Lhotse作为训练数据准备部分,现在已经实现基本所有功能,还将持续迭代并发布新版本。而Daniel博士认为, Icefall作为训练脚本集合当前非常具有可塑性,因为这个代码库还很新,而且发展非常快。

对于Kaldi在小米产品中的应用落地,Daniel博士透露,小米产品中的 ASR 现在用的还是第一代 Kaldi。新一代Kaldi将逐步融入到小米产品之中,例如进行离线/在线语音识别加速、端到端的声纹识别等工作,随着集成和测试工作的逐步推进,新一代Kaldi将有望于今年年底或明年初在小米产品之中登场,与大众正式见面,让更多人享受到科技的乐趣。

原创文章,作者:苹果派,如若转载,请注明出处:https://www.kejixun.com/article/535205.html

(0)
苹果派的头像苹果派管理团队

相关推荐