夹层standford分型 能自己训练语料吗

【摘要】本发明公开了一种训练語料的生成方法、装置、设备及存储介质其中,该方法包括:在与目标应用程序关联的用户行为日志中挖掘多条待标注的语料数据,語料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志以及与第一行为日志时间关联,且属于同一用户的第二行为日志;根据各待标注的语料数据中第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定為正反馈语料或者负反馈语料本发明实施例可以基于用户行为,自动地、有针对性地挖掘语音识别的正反馈语料和负反馈语料提供给后續的语音识别模型训练有效提升语音识别的效果,可以大大缩短语音识别模型的迭代周期节省大量的资源。

【授予单位】北京品源专利代理有限公司;

【会议召开年】2019

【申请/专利号】CN.4

【公开/公告号】CNA

【代理机构】北京品源专利代理有限公司;

【地址】100085 北京市海淀区上地十街10號百度大厦2层

打开demo.sh文件由于默认是下载TXT8作为語料,故将这段代码删除并修改CORPUS=×××.txt,最终文件内容如下:

其他应该都可以自行修改

第一个数指明一共有多少个向量,第二个数指明烸个向量有多少维

6.加载使用巽寮的词向量

接下来的使用就和word2vec一样

我要回帖

更多关于 夹层standford分型 的文章

 

随机推荐