Menu
帮助中心

帮助中心

专注网站建设12年,已为2600家公司提供网站建设
您当前所在位置:首页 > > 信息中心 > 帮助中心

中文搜索引擎的研究

 
目前搜索引擎的应用越来越广,是网民的上网必备工具。

在中国使用广泛的搜索引擎主要有:baidu google 中搜 北大天网 一搜 搜狗 还有一些专业的搜索,比如海量做的音乐搜索 http://www.1234567.com 还有 西祠胡同 的创始人 做的 http://www.pagou.com ,这些都是做的挺不错。由此可见,搜索引擎的市场还是非常庞大的。尤其是baidu的成功上市,给业界很大的鼓舞。

目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会首先对用户的输入进行分词,这样可以增加搜索结果的准确性,这是和普通数据库搜索的不同点(普通的数据库搜索,只是简单的用 like %关键字%),然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息,显示的结果会包含网页的相关摘要。


中文搜索引擎相关的技术包含:网络蜘蛛,中文分词,索引库,网页摘要的提取,网页相似度,信息的分类。

1。网络蜘蛛
网络蛛蛛是指对浩瀚网络抓取信息的程序,他们往往是多线程,不分昼夜的抓取网络信息,同时要防止对某个站点抓取过快,导致信息提供方服务器过载。

网络蜘蛛的基本原理:先从一个起始页面(建议从yahoo中文目录或者dmoz中文目录)开始抓取,获取此页面内容,摘要,然后提取页面所有连接,蜘蛛接着抓取这些连接,一直源源不断的抓取。这些只是基本原理,实际应用要复杂很多,你可以试着自己写一个蜘蛛,我曾经用PHP写过(PHP不能多线程,缺陷。)

2。中文分词
中文分词一直是中文搜索引擎的关键点,中文不同英文,英文每个单词是用空格分开,而中文一个句子往往是一些词的连结,没有分割符,人可以很容易的看懂句子的意思,但是计算机很难开懂。

目前我了解的中文分词方法(据说有老外的不用词典的中文分词方法),几乎都是有自己的中文词典,分词时去词典匹配,达到分词目的,分词的好坏,和词典关系很大。你可以看我上篇文章,是用PHP写的中文分词方法。

目前很多高校语言学的硕士论文都写的这个

baidu用的自己开发分词方法,google用的第3方的分词方法。。

海量中文分词挺不错,不过是商业的。。

猎兔的中文分词方法也不错,不过是.so的,无法研究

3。索引库
搜索引擎都不会用已经成型的数据库系统,他们是自己开发的类似数据库功能的东西。
搜索引擎需要保存大量网页信息,快照,关键字索引(建议应该也保存网页的截图,我在研究中),所以数据量特别大。

4。网页摘要的提取

网页摘要是指对某个网页信息的总结(初中语文课,老师经常让总结文章的中心思想,就这个意思,我最怕老师提问让我总结,人总结都这么难,现在让计算机总结,天啦),搜索引擎搜索结果里,往往会有网页标题下面,会有些介绍,让搜索者很容易的发现此文章是不是想要的信息。

5。网页相似度

网上经常有很多内容一样的网站,比如说同一条新闻,各大门户网站都会发布,它们的新闻内容都是一样的。还有一些个人网站,尤其是偷别人网站资料的网站,和别人网站搞的一模一样(我搞过,在此ps下自己),这样的网站毫无意义,搜索引擎会自动区分,降低其权值(baidu最狠,直接封站,我尝试过)。

目前我研究的计算网页相似度的几种方法如下:
1) 根据网页摘要来比较,如果多个网页摘要的md5值一样,证明这些网页有很高的相似性
2) 根据网页出现关键词,按照词频排序,可以取N个词频高的,如果md5值一样,证明这些网页有很高的相似性。

google baidu 的新闻,是对此技术的应用。

目前很多高校的数据挖掘专业的研究生论文都写的这个

6。信息的自动分类

网络的信息实在是太庞大了,如何对其进行分类,是搜索引擎面临的难题。要让计算机对数据自动分类,先要对计算机程序进行培训,目前我正在研究中

爬狗做的不错。

以上是我个人对搜索引擎了解后的看法,均为柳志强原创,其中难免有认识不全面或者错误的,恳请各位同仁指正(别砸我就行)!

相关阅读

汇总搜索引擎网站的免费提…

帮助中心 2009-11-15
1,Google免费网站提交入口http://www.google.com/addurl/2,百度免费网站提交入口http://www.baidu.com/se…阅读新闻

网站建设分为几个步骤?

帮助中心 2009-11-01
1.域名注册域名,是互联网上的一个企业或机构的名字,是在互联网上企业间相互联络的网络地址。一个企业如…阅读新闻

网站能干什么?

帮助中心 2009-11-01
例如一个企业在互联网上发布公司简介、新产品信息、产品说明、宣传公司服务、招聘人才等多方面信息。不仅可…阅读新闻

谷歌关闭三个工程办公室 全…

帮助中心 2009-11-01
谷歌周三表示,该公司将关闭三个工程办公室,并在全球范围内裁减约100名员工。据国外媒体报道,谷歌人力资源…阅读新闻

重庆网站制作对企业的帮助…

帮助中心 2023-03-27
作为现代企业的重要组成部分,网站对企业的帮助可以从多个角度进行深度分析:1.品牌形象塑造:网站是企业对…阅读新闻

建设一个网站需要多久

帮助中心 2022-10-17
建设一个网站到底需要多长时间?这要看你的网站具体的功能,要求。根据工作量来确定时间的,一般企业网站功…阅读新闻
返回全部新闻

最新发布

重庆网站制作对企业的帮助…

帮助中心 2023-03-27
作为现代企业的重要组成部分,网站对企业的帮助可以从多个角度进行深度分析:1.品牌形象塑造:网站是企业对…阅读新闻

传统行业如何把握ai人工智…

行业新闻 2023-03-27
传统行业可以通过以下几个步骤来把握AI人工智能的崛起:1.研究AI技术原理和应用场景:了解AI技术的基本原理…阅读新闻

AI人工智能对网站建设行业…

行业新闻 2023-03-27
人工智能(AI)对网站建设行业的影响越来越显著,它可以在自动化方面提供更高效、更准确的解决方案,同时也…阅读新闻

签约重庆韶恒科技有限公司…

公司新闻 2023-03-27
沛宣网络签约重庆韶恒科技有限公司营销型网站建设项目。网站定位:品牌营销型网站建设;企业宣传型网站建设…阅读新闻

福莱雅暖通设备有限公司官…

公司新闻 2023-03-27
热烈祝贺河南省福莱雅暖通设备有限公司官方网站正式上线!网站定位为:全网营销型网站建设。网站首页预览:…阅读新闻

祝贺重庆视吉通信工程有限…

公司新闻 2023-03-27
由沛宣网络公司设计开发制作的“重庆视吉通信工程有限公司”官方网站于2023年1月2日正式上线!网站首页预览…阅读新闻

建设一个网站需要多久

帮助中心 2022-10-17
建设一个网站到底需要多长时间?这要看你的网站具体的功能,要求。根据工作量来确定时间的,一般企业网站功…阅读新闻

签约重庆立平物联网科技公…

公司新闻 2022-10-17
公司签约重庆立平物联网科技公司品牌营销型网站建设。网站类型:品牌网站建设、公司营销型网站建设开发周期…阅读新闻

定制型网站到底有哪些好处…

新闻动态 2022-07-18
沛宣网络专注15年网站建设行业,主要以定制型的企业网站;高端网站建设,为客户制作有价值网站。定制网站是…阅读新闻

如何让你的网页设计更漂亮…

帮助中心 2022-07-18
什么样的网页设计能点亮你的眼睛?对你来说,什么是不可思议的网页设计项目?如果你的作品是现代的,简单易用…阅读新闻

网站如何通过设计来保持网…

网站建设中心 2022-07-18
网站设计系统稳定器不是一个框检查或组件建立。相反,它们是对系统的信任和尊重的衡量标准,它们是通过你与…阅读新闻

签约图源建筑设计公司官方…

公司新闻 2022-07-18
沛宣网络签约图源建筑设计公司网站设计与制作。网站定位为:品牌型网站建设;企业宣传型网站建设;H5响应式…阅读新闻
返回全部新闻
友情链接:
  • 企业网站建设
  • 营销型网站建设
  • 手机网站建设
  • 模板网站建设
  • H5网站建设
  • 网站改版升级
  • 重庆网站建设
  • 模板网站建设
  • 公司简介
  • 成功案例
  • 解决方案
  • 新闻中心
  • 联系我们
  • 网站地图
  • XML
  • 万州网站建设
  • 江津网站建设
  • 永川网站建设
  • 合川网站建设
  • 北碚网站建设
  • 黔江网站建设
  • 涪陵网站建设
  • 南川网站建设
  • 铜梁网站建设
  • 璧山网站建设
  • 大足网站建设
  • 綦江网站建设
  • 长寿网站建设
  • 开州网站建设
  • 潼南网站建设
  • 武隆网站建设
  • 奉节网站建设
  • 荣昌网站建设
  • 梁平网站建设
  • 城口网站建设
  • 云阳网站建设
  • 巫山网站建设
  • 丰都网站建设
  • 垫江网站建设
  • 秀山网站建设
  • 酉阳网站建设
  • 忠县网站建设
  • 石柱网站建设
  • 彭水网站建设
  • 巫溪网站建设
  • 万盛网站建设
  • 巴南网站建设
  • 江北网站建设
  • 南坪网站建设
  • 九龙坡网站建设
  • 沙坪坝网站建设
  • 大渡口网站建设
  • 毕节网站建设
  • 安顺网站建设
  • 六盘水网站建设
  • 铜仁网站建设
  • 黔东南网站建设
  • 黔南网站建设
  • 黔西南网站建设
  • 遵义网站建设
  • 昆明网站建设
  • 曲靖网站建设
  • 昭通网站建设
  • 绵阳网站建设
  • 自贡网站建设
  • 攀枝花网站建设
  • 玉溪网站建设
  • 保山网站建设
  • 丽江网站建设
  • 临沧网站建设
  • 大理网站建设
  • 普洱网站建设
  • 拉萨网站建设
  • 日喀则网站建设
  • 昌都网站建设
  • 林芝网站建设
  • 山南网站建设
  • 那曲网站建设
  • 阿里网站建设
  • 宝鸡网站建设
  • 汉中网站建设
  • 铜川网站建设
  • 咸阳网站建设
  • 渭南网站建设
  • 安康网站建设
  • 延安网站建设
  • 商洛网站建设
  • 榆林网站建设
  • Copyright © 2008-2018 沛宣网络 渝ICP备13000588号-5 工商备:500108000067794 渝公网安备 50010802002673号

    扫描二维码添加微信:沛宣网络
    确 认