可以在英文上测试,并在中文上进行测试。中英文上的embedding是有点差距的。
把DNA的组成替换成字符型的表示形式进行学习
用bert有明显的提升。不仅学到了语义信息,也学到了一些通用的能力,在其他领域也能有较好的性能,
在DNA 蛋白质 音乐上都有所帮助。
pre-trained模型有强化模型的能力
跨语言学习的能力用在语音回答系统。
终极状态:输入是语音,输出也是语音。
光用hubert是不行的,可以通过中间层后再加几层网络:
可以把Hubert的输出 丢给文字的预训练Bert
通过规则生成一些tokens,并将tokens进行映射,之后再送到网络中进行学习。