Google 开源全球最精确解析器SyntaxNet


五月 13 2016

今年三月的阿法狗让人工智能成了网络上最热门的话题。虽然目前的人工智能已经发展到了相对成熟的地步,但仍然不擅长识别和解析自然语言。近日谷歌在Google Research Blog(国内访问不了)上宣布开源一个名为SyntaxNet的项目,以帮助机器更好地理解自然语言。同时也发布了针对英语的预先训练的模型Parsey McParseface,用于分析英文的文本。

SyntaxNet是怎么工作的?

SyntaxNet 是一个框架,即学术圈所指的syntactic parser(句法分析),他是许多NLU(自然语言理解)系统中的第一个关键组成部分。给定一个句子,这个系统就能给句子中的每个单词贴上词性(pos)标签,即描述相应单词的句法功能(比如,主谓宾),还能判定给定句子中,单词之间的句法关系,并用依存句法树(dependency parse tree)来表示。这些句法关系与句子的潜在含义有着直接联系。

简单的依存句法树例子如下:Alice saw Bob

asawb.png

在这个结构中:Alice和Bob是名词,saw是动词。主动词是saw,Alice是saw的主语(nsubj),而Bob是saw的宾语(dobj)。正如研究人员所预期的,Parsey McParseface正确分析了句子的句法结构。不过,它还能分析像下面这更加复杂的例子:

drovedown2.png
Alice drove down the street in her car.

Google声称,Parsey McParseface是Google以TensorFlow框架(用来编写和执行机器学习算法的工具)训练出最复杂的网络之一,而结合机器学习及搜索技术,Parsey McParseface分析精准度高达94%,这将对信息分析、翻译及其他自然语言核心应用有兴趣的开发及研究人员有所帮助。 

标签:
在2016/05/17 05:59上被李立泓创建
 
本站采用XWiki系统搭建