The Chinese University of Hong Kong
events & news


李丹电子工程学团队 以AI还原舌癌妇声线

(左起)团队成员博士生谭达新、李丹教授、博士生马敬恒和校友潘楚骞。

母亲的一声叮咛、安慰或嘱咐都包含着无限暖意,假如无法再听见其声音,你会怎办呢?校友潘楚骞Jackson(16崇基信息工程学)的母亲Jody因患上舌癌,须切除舌头及声带组织。他希望留住母亲的声线,在讨论区求助,引起中大电子工程学系教授李丹团队的关注。团队透过人工智能(AI)语音合成技术,把Jody的声音还原,配合特别开发的手机应用程式(apps),令手术后丧失说话能力的她,透过手机输入文字,以自己的声音与人沟通。

在连登求助 48小时内行动
去年6月中,Jackson女朋友代他在连登讨论区发出一个求助帖,博士生马敬恒(15联合生物医学工程学)获悉后,将情况转告老师李丹(88新亚电子 / 90研究院电子工程 / 96研究院电子工程哲学博士)。近两年李教授及其团队以AI语音合成技术,开发儿童故事创作读书计划,他相信自己的技术应用可协助Jody,马上联络Jackson。当时距离Jody接受手术的日子不足两星期,他立即安排翌日为Jody录音,「她的决心很大,那时她在教会工作,放工后来到中大的录音室,分4至5次完成十数小时的录音。我们要求她以日常的语气录音,但她说话速度较快,录音要放慢语速。录音内容包括日常对话、朗读圣经及讲儿童故事,前两者是生活需要,后者是因为语气变化较多。」

「Voice of Jody」apps独一无二
团队采集真人发音数据后,编写代码,并设计和训练AI语音合成模组,「AI模组要学习的是字的发音和Jody的语气,但广东话的多音字很多,例如:花『钱』与金『钱』的『钱』字,读音便不同。」幸好中大具备庞大的广东话数据库,经反复测试及修正,8月中初见成果,输入文字后,AI模组能以十分接近Jody的声线播放语句。李教授再找软件工程公司花约两星期开发专属的apps「Voice of Jody」。Apps将常用语句分为问候、疑问、反应、礼貌、回答和行动六类,有选单快速点选,Jody亦可以自行输入文字,再转化成自己的声音发声,更可以分享至WhatsApp等通讯软件。此apps尚有部分多音字及停顿位未够准确,李教授希望可新增定位侦测功能,按Jody身处地方,作出语句建议选单。

专属apps「Voice of Jody」,内置常用语句可选,亦可以自行输中文字再转化成「真人」发声,更可以选择语速。

Jackson对李教授团队的帮忙感激不已,「时间紧迫,工作量大又困难,他们很着紧和用心,妈妈亦感到开心和感动。」李教授指今次是机缘巧合下促成的好事,Jody试用后不久,透过WhatsApp发送了四段语音讯息感激团队,他们深受触动。李教授一直专注研究语音合成技术,认为语音是很个人化的,希望研究能真正帮助到声音或语言机能障碍者,而不是画蛇添足的应用。

访问原文:《中大校友》季刊第一百零九期.中大校友事务处 2022

网上阅读《中大校友》3月号
pdf版本:http://alumni.cuhk.edu.hk/zh-Hant/magazine/categories/pdfversion/202203
揭页式ISSUU版本:http://www.alumni.cuhk.edu.hk/magazine/issuu/