那边有话直接说这边文字自动转 --中国科技网

“现在开庭！”一声清脆的法槌声响起。

日前，浙江省高级人民法院一起刑事案件开庭现场，现场人都见证了一款“审判神器”的应用：显示屏里同步显示着庭审中法官和诉讼参与人说的每一句话，几乎没有迟延，且不时进行自动纠错——书记员并没有操作电脑键盘。

从庭审记录改革角度看，这是一次有科技创新重大意义的“互联网+审判”。

“审判神器”其实是一款软件，“浙江高院智能庭审语音识别系统”。通过话筒，可以把语音瞬间变成文字。系统操作也很简单，只要点击即实现“一键开启”，还提供开庭、休庭、复庭、闭庭等操作。

传统庭审过程中，书记员要全程记录。庭审记录方式经历了诸多换代升级，最早是手工书写，后来是键盘录入电子文档。浙江高院2014年8月在全国首开先河，积极探索以庭审录音录像代替传统书面笔录。2016年3月启动智能语音识别项目的研发工作，5月份智能语音识别系统在杭州西湖、上城、下城等部分法院试运行。智能语音识别系统配合现有完善的高清数字法庭系统、庭审录音备份系统和“审务云”，形成了“视频+音频+文字”的全链路、多层安全、同步识别的智能记录体系。目前整体识别准确率可以达到95％以上。“审判神器”已经在西湖区法院两次亮相，识别准确率分别达到96.2％和97.7％。

智能庭审语音识别系统神奇在哪里？

浙江省高院信息中心刘克勤对科技日报记者说，是智能化识别。该软件以上千万场庭审的音频和文本数据为学习材料，在数据、算法、模型三个层面均作了优化，背靠阿里云ET的深度机器学习算法，专门针对法院庭审场景构造了专用的交互式识别模型。

与一般的语音识别场景不一样，浙江法院庭审智能语音识别系统更多应用在多人会话的场景中。据了解，该系统以云化的方式在浙江省集中部署，各法院按需随时接入使用，系统根据各地忙闲程度动态调度，IT资源利用率比传统本地化部署至少节省30％以上。除庭审外，该软件可以适用于调解、合议、听证、审判委员会讨论、文书校对等等场景。

据介绍，该系统盘活了全省法院数据中心已经汇聚的海量音频和文本数据。借助语音识别技术，语音经识别转化为文字后，经断句、分词和结构化等大数据处理，可以进行高频词分析、内容检索、争议焦点归纳、法官庭审习惯分析、当事人画像、案件预判、知识挖掘等大数据利用，使历史庭审的语音信息更智能地服务于法官办案、审判管理和为民诉讼服务。

音频转文字是如何实现的？

浙江大学计算机学院杨莹春副教授解释说：“首先是利用信号处理技术提取声音中有效的语音部分后进行压缩，并模拟人耳听觉感知机理转换存储成数字符号串的语音特征作为处理单元。训练是利用事先采集的大量甚至海量的真实语音和语言文字库，对人们的发音特点以及说话的语法规则进行知识挖掘，构建声学模型、发音字典和统计语言模型，使用时则是依据训练得到的字典和模型采用统计模式识别技术对输入语音逐步搜索和生成最有可能的音节、字、词串和组装成句子，即文字。”

浙江法院智能语音识别系统已全面上线，目前已在全省105家法院推广应用。