字体:大 中 小
护眼
关灯
上一章
目录
下一章
第四十三章:语音通话模型的制作(二更) (2 / 3)
如果是在良好的4g网络下或者wifi环境下,通话质量都挺好的,但是在3g甚至2g,或者信号不稳定的地方,发文字还正常,但是语音通话就不行,通话双方会感觉卡顿,对方听不到,听不清这是经常会发生的事情。
如果能开发出一个软件可以在各种复杂的网络环境下让语音通话都依然流畅。。应该很有市场。
林奇通过看手机上的各种软件,想到了这么一个赚钱的机会。
怎么才能实现这个目标呢?最好的就是发送文字,因为文字占用的带宽最少了,即使网络很不稳定也能收到,除非是完全没有网络。
最后林奇想到了一个非常精妙的方法,能实现这个功能。
那就是通过机器学习来建立每个人的音色库,然后再把不同的文字用上不同的语气,只要这个个人的模型训练好,发送对方的手机里面,然后把要说的话转换为文字,每次都只发送文字过去,这样需要传输的信息就会小很多。
虽然这个方法想起来非常的简单,但是做起来可不是这么容易的。
首先每个人都有一个自己的语音模型,训练这个模型需要有一个很优秀的训练好的模型,然后做迁移学习。
但是训练基础模型的时候,是需要很多数据的,程序林奇很快的就做好了,但是没有语音数据是硬伤。
最后林奇收集了很多的网络上公开的音频资料,来输入到模型中进行训练,刚开始的时候找来了很多的汉语的音频。包括从电视剧,电影还有广播,新闻等里面抽取的音频。
等训练好之后林奇测试之后发现针对标准的普通话,这个表现很好,但是如果是方言甚至是另一种少数民族,比如蒙古语,这个软件表现的就非常的不尽人意。
后来林奇换了一个思路,不把每个人的语音转换为文字。而是让机器自己发明一种能发音的文字,不需要人类能看懂,只需要这个软件自己能看懂就好,可以把听到的任何声音都转换为这种机器自己能识别的文字。
修改了核心的算法之后。林奇再次把数据输入进去,同时这次增加了很多的其他的数据,包括英语,德语,日语……几十种语言的数据。还有很多的大自然的声音,乐器的声音,等等。
电脑分析这些数据建立一个模型过程是很慢的,经过漫长的等待之后,终于重新生成了一个模型。
内容未完,下一页继续阅读
更多完整内容阅读登陆
《墨缘文学网,https://wap.mywenxue.org》
上一章
目录
下一章