09. 小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?
多模态能力的融合正在改写AI发展路径。语音、视觉与自然语言处理的边界日益模糊,以Transformer为代表的通用解决方案,正在重塑传统技术领域。在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?本期《智者访谈》邀请到著名开源语音识别项目Kaldi的创始人、小米集团语音首席科学家Daniel Povey博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为Google Gemini等标志性项目的负责人。当整个行业都在追逐大模型和通用方法时,Povey博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进AI,那些容易被发现的方法早就已经被人发现了。」在他看来,技术进步不应被某一主流范式所限制,AI领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。Transformer确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学AI就能年薪百万的时代已经过去了,现在进入AI领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。希望这番坦诚的对话,能为我们在AI发展的万千可能性中,找到属于自己的方向。【时间线】01:35 Kaldi 之后的新探索02:51 语音成了神经网络的子领域04:37 多模态:Transformer 大一统?07:54 大模型 vs 小模型11:13 会议不再是交流研究的最佳方式14:01 如何判断真正的技术进步?18:10 Scaling Law 与数据极限21:18 未来机遇展望23:52 别把生活卷丢了【栏目简介】这是国内人工智能垂直媒体机器之心旗下的「智者访谈」播客栏目。栏目聚焦于人工智能领域的顶尖专家和学者,旨在洞悉人工智能的核心技术与行业趋势,深化行业认知,激发创新思考。【主播】闻菲,机器之心合伙人总监【嘉宾】Daniel Povey• Kaldi之父• 小米集团首席语音科学家• lEEE Fellow• 清华大学杰出访问教授、武汉大学客座教授• Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019年10月加入小米,担任集团语音首席科学家。2022年12月,Daniel Povey 凭借在语音识别和声学建模方面的杰出贡献入选IEEE Fellow。【联系方式】公众号:机器之心收听渠道:Apple Podcast | 小宇宙 | 喜马拉雅其他平台:bilibili(机器之心官方) | 视频号(机器之心)| 小红书(机器之心)联系我们:
[email protected] |
[email protected]