搜索引擎是什么（搜索引擎是网站吗）

醉清弦 • 2022年12月13日 08:02:38 • 资讯投稿

在了解Lucene之前，我们先看下什么是搜索引擎？

在实际的项目中，我们可能会写了类似这样的SQL。

按标题模糊查询，查询标题与xxxxx有关的新闻:

select * from t_news where title like ‘%xxxxx%’;

按关键字查询，如查询与xxxx有关的新闻:

select * from t_news where title like \'%苍老师%\' or content like \'%苍老师\'’;

当数据量变大时，这四个查询都变慢了,我们可能会建立索引，但是有的like语句会使索引失效。

可能有的需求对搜索的结果进项相关度排名的显示，对应的sql是否可以满足需求吗？

例如：

要查询中国、冠状病毒、复工有关的新闻：

含有三个关键字（相关度最高）的新闻排前面

含两个关键字（相关度次之），排次之

含一个关键字的，排次次之。

这时利用数据库sql实现还是比较困难的。

数据库适合结构化数据的精确查询，而不适合半结构化、非结构化数据的模糊查询及灵活搜索（特别是数据量大时），无法提供想要的实时性。

这个问题，一个解决思路是：

我们查询时，输入的是冠状病毒，想要得到标题或内容中包含“冠状病毒”的新闻列表。

如果标题、内容列上都有一个这样的索引，里面能快速找到与冠状病毒关键字对应的文章id，再根据文章id就可以快速找到文章了。

倒排索引

上面建立索引就是倒排索引，或者又叫做反向索引。

例如：

标题列索引：

内容类索引：

这么多的词，那么需要建立多少个词呢？

反向索引的记录数会不会很大？

通过上面的看，词的总数也不多，那怎么分词，也就是怎么把一句话分成很多常用的词呢？

这时就需要用到了分词器。

分词器

分词器，可以将一段语句分出若干个词。

英文：this is my car 分词后：this，is，my，car

中文：今日头条厉害。今日头条，厉害

常用的中文分词器：

word分词器，Stanford分词器，Ansj分词器，smartcn分词器，FudanNLP分词器，

IKAnalyzer分词等。

有了分词器，还可以获取词在文章的位置，出现的次数。此时可以这样的索引：

词：中国，

内容包含该词的文章id：

{{1,2,{21,32}},{5,3,{18,29,45}}}

1：文章id

2：出现的次数

{21,22}：出现的位置

建立好了这样的反向索引，那怎么索引呢？

步骤1：对搜索输入的内容进行分词

步骤2：在反向索引中找出包含中国、复工的文章列表

步骤3：合并两个列表，排序输出

{1,12,8,5}

输出结果，那怎么排序输入结果呢？把最关注的放到最前面。怎么建立一个相关性评估模型？

这时可以按照词的出现的次数建立模型，当然还有其他的模型来面对更复杂的场景。

统计出现次数，根据次数从高到低排：

中国

排序后：

{{1,5},{5,3},{12,1},{8,1}}

文章id为1，总共出现了5词，文章id为5的出现了3词。。。

其他的复杂的相关性计算模型有：

tf-idf 词频-逆文档率模型

向量空间模型

贝叶斯概率模型，如： BM25

搜索引擎中会提供一种、或多种实现供选择使用，也会提供扩展。

电商网站中的搜索相关性计算会考虑更多，更复杂。

这里引入什么是搜索引擎？

搜索引擎

一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件。

最早应用于信息检索领域，经谷歌、百度等公司推出网页搜索而为大众广知。后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用。

搜索引擎专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。这种实时搜索数据库做不了。

使用场景：

信息检索（如电子图书馆、电子档案馆）

网页搜索

内容提供网站的内容搜索（如新闻、论坛、博客网站）

电子商务网站的商品搜索

如果你负责的系统数据量大，通过数据库检索慢，可以考虑用搜索引擎来专门负责检索。

核心部件：

数据源

分词器

反向索引（倒排索引）

相关性计算模型

工作原理：

从数据源加载数据，分词、建立反向索引

搜索时，对搜索输入进行分词，查找反向索引

计算相关性，排序，输出

开源搜索引擎组件、系统：

Lucene:Apache顶级开源项目，Lucene-core是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的框架，提供了完整的查询引擎和索引引擎，部分文本分词引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Nutch：Apache顶级开源项目，包含网络爬虫和搜索引擎(基于lucene)的系统（同百度、google）。Hadoop因它而生。

Solr:Lucene下的子项目，基于Lucene构建的独立的企业级开源搜索平台，一个服务。它提供了基于xml/JSON/http的api供外界访问，还有web管理界面。

Elasticsearch：基于Lucene的企业级分布式搜索平台，它对外提供restful-web接口，让程序员可以轻松、方便使用搜索平台，而不需要了解Lucene。

派优网部分新闻资讯、展示的图片素材等内容均为用户自发上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习交流。用户通过本站上传、发布任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们一经核实，立即删除。并对发布账号进行封禁。

赞 (0)

0

资讯投稿

拼多多无货开网店流程步骤是什么（拼多多开店无货源教学）

如何在拼多多上开无货源网店零库存创业新机遇？在现代电商潮流中，无货源网店成为了一种备受关注的新型商业模式，它允许创业者无需囤货无需大量资金投入，便能在拼多多这样的电商平台上开店经…

一只汪喵喵
2024年2月4日
资讯投稿

华阳最性价比的车，哪些品牌车型最适合你

随着车市的不断发展，越来越多的人开始购买汽车，但是在众多的品牌车型中，如何选择一款性价比最高的车型成为了许多人的难题。在华阳市场上，有哪些品牌车型最适合你呢？首先，我们需要了解什…

痞子配酒
2023年8月8日
资讯投稿

直通车恶意点击器怎么用的？可以加入黑名单吗？

直通车是阿里巴巴集团旗下淘宝网的一种付费推广方式，它能够让商家的商品在搜索结果中获得更高的曝光率。然而，随之而来的恶意点击问题也让许多商家头疼。本文将详细介绍直通车恶意点击器的使用…

一只汪喵喵
2024年11月13日
资讯投稿

微信小程序推广方式有哪些（微信小程序推广的6种实用方法分享）

很多商家做了小程序，但是苦于不知道怎么推广，下面我们罗列了小程序推广的六大方法，和大家一起来分享。小程序应用已经**到各行各业，用小程序获得百万新客、取得千万业绩的成功案例不在少…

派大星
2022年5月8日
资讯投稿

淘宝开店怎么上传宝贝（淘宝网店怎么发布宝贝）

最新发现有很多朋友还不知道怎么发布淘宝宝贝，不知道怎么上传，上传宝贝是必要的一项工作，所以一定要学会。淘宝开店怎么上传宝贝呢?接下来小编就来教一下大家怎么操作。淘宝开店上传宝贝的…

独梦幽兰
2022年11月13日
资讯投稿

排盘机加密怎么解决，排盘机加密解决方案全面解析

随着网络安全的日益重要，各种加密技术也越来越普及。排盘机加密作为一种常见的加密方式，因其操作简单、效果好而备受青睐。然而，有时候我们需要对排盘机加密进行解密，那么该如何解决呢？本文…

浅夏安然
2023年7月8日
资讯投稿

40多岁的女人应该怎样穿搭，让你的气质更显年轻，穿搭技巧大揭秘！

随着年龄的增长，女人的气质也会发生变化。穿搭在这个过程中扮演着重要的角色，它不仅能够让你更加自信，还能够让你的气质更显年轻。那么，40多岁的女人应该怎样穿搭呢？下面就为大家揭秘穿搭…

阳阳妈
2023年7月18日
毛峰茶产于哪里，中国毛峰茶的产地由来

黄山毛峰绿茶，是我国十大名茶之一，茶友们一般听到毛峰，第一时间想到的基本都是黄山毛峰。它形似雀舌，匀齐壮实，锋显毫露，色如象牙，鱼叶金黄；香气清香高长；茶汤汤色清澈，滋味鲜浓、醇…

派大星
2022年3月31日 • 资讯投稿
本草纲目的作者是谁啊，本草纲目的作者和简介

一个人要具有一种敢为天下先的奋斗精神，才能够在世界上取得过人的成就。真的英雄敢于直面现实，敢于披荆斩棘，敢于担当，负责。一个人不投身于社会实践，只是在局外呐喊，就什么事情都办不成。…

派大星
2023年2月2日 • 资讯投稿
资讯投稿

特种车如何省油耐用的车，选购指南！

随着经济的发展，特种车在我国的应用越来越广泛，如救护车、消防车、警车、工程车等。特种车的选购对于企业和个人来说都是一项重大的投资，因此，如何选购一辆省油耐用的特种车显得尤为重要。 …

有我他
2023年10月12日

返回顶部