关于我们 | 付费方式 | 联系我们 
首 页

|

网站建设

|

虚拟主机

|

企业邮箱

|

域名服务

|

网站推广

|

短信服务

|

WAP网站

|

软件项目

|

客户服务
 
帮助中心
>>> 百度中文分词分词算法

简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才把这个字符串肢解掉。
 
怎么证明呢?我们向百度提交“
百度搜索排名优化”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

 
 



  版权所有:珠海微导信息科技有限公司  | ICP备案号:粤ICP备05007035号

总部珠海地址:广东省珠海市香洲区人民西路420号
电 话:0756-3822565 | 传 真:0756-3822263 | 服务手机:13075616619
邮 件:kevin@microdao.com   | QQ:154929342

分公司地址:福建省龙岩市曹溪大唐世家117号
电话:0597-2966635 5396668 5396669 | 传真:5285569 | 邮件:lldun@microdao.com | QQ:125012566