搜索引擎 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:W.Bruce Croft

出品人:

页数:309

译者:刘挺

出版时间:2010-6-1

价格:56.00元

装帧:平装

isbn号码:9787111288084

丛书系列:计算机科学丛书

图书标签:

搜索引擎
信息检索
计算机
计算机科学
自然语言处理
IR
技术
编程
搜索引擎
技术
算法
网页爬取
索引
检索
用户体验
信息检索
关键词
搜索优化

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书目录大全

book.wenda123.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

本书介绍了信息检索（IR）中的关键问题，以及这些问题如何影响搜索引擎的设计与实现，并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题，书中主要涵盖了在网络上广泛使用的搜索技术。

本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生，对于专业人士而言，本书也不失为一本理想的入门教材。

《光影的低语》这是一部关于记忆、遗忘与重塑的文学作品。故事发生在一个被时间遗忘的古老城市，那里的一切都笼罩着一层薄雾，仿佛被卷入了永恒的静止。年轻的艺术家艾莉亚，在整理祖母的遗物时，意外发现了一本日记。这本日记并非记录寻常生活琐事，而是充满了模糊的诗句、破碎的旋律，以及一些她从未见过的奇特符号。艾莉亚被这些零碎的信息深深吸引，她开始着迷于解开日记背后的秘密。她相信，这本日记是连接她与那个失落世界的唯一桥梁。随着她对符号的深入研究，她发现这些符号并非随意涂鸦，而是某种古老的语言，一种能够唤醒沉睡记忆的语言。城市里流传着关于“回声者”的传说，据说他们能够听到过去的声音，并与逝者对话。艾莉亚起初并不相信这些传说，但当她跟随日记中的线索，在城市最隐秘的角落里寻找，并试图解读那些符号时，她逐渐感觉到一种莫名的力量正在苏醒。她开始听到一些微弱的低语，看到一些飘渺的幻影，这些都与日记中的内容惊人地契合。随着调查的深入，艾莉亚的现实世界开始与她所感知到的“过去”交织在一起。她发现，这个城市并非如表面看起来那般平静，而是隐藏着一段被刻意掩埋的历史。日记中的符号，不仅仅是语言，更像是某种锁，锁住了被遗忘的真相，也锁住了某些强大的情感。艾莉亚的旅程充满了挑战。她需要穿越层层迷雾，克服内心的恐惧，还要面对那些试图阻止她揭开真相的人。她遇到了形形色色的人物：一位对古老传说了如指掌的神秘老人，一位对现代科技嗤之以鼻的隐士，还有一位似乎对艾莉亚的行动了如指掌的陌生人。每个人都以自己的方式影响着艾莉亚的探索，有些引导她前进，有些则试图将她引向歧途。在解开每一个符号、理解每一段诗句的过程中，艾莉亚不仅在拼凑着这个城市的过去，更在重新认识自己。她发现，她与这个古老的秘密有着某种深刻的联系，而她自身的记忆，也并非如她一直以为的那般完整。日记中的每一个字句，每一幅模糊的画面，都像是她自己破碎记忆的碎片，随着她对日记的解读，一点点地拼凑回来。《光影的低语》不仅仅是一个关于解谜的故事，它更是一场关于自我发现的旅程。它探讨了记忆的脆弱性与韧性，以及过去如何影响现在，甚至塑造未来。当艾莉亚最终触及到日记核心的秘密时，她所面对的，不仅仅是一个失落文明的兴衰，更是关于爱、失去、以及在遗忘的阴影中如何寻找希望的深刻反思。故事的结局，并非简单的真相大白，而是一种对理解的升华。艾莉亚是否能够完全找回失去的记忆？她所揭开的真相，又将如何影响这个古老城市以及她自身的命运？这些问题，都将在光影交错之间，在低语的回响中，缓缓展开。这本书邀请读者一同潜入记忆的深处，感受那些被时间尘封的光影，倾听那些不曾被遗忘的低语。

作者简介

克罗夫特（W.Bruce Croft），马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心，发表了200余篇论文，多次获奖，其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。

Donald Metzler，马萨诸塞大学阿默斯特分校博士，是位于加州Santa Clara的雅虎研究中心搜索与计算机广告组的研究科学家。

Trevor Strohman，马萨诸塞大学阿默斯特分校博士。他开发了Galago搜索引擎，也是Indri搜索引擎的主要开发者。

目录信息

出版者的话
译者序
前言
第1章搜索引擎和信息检索 1
1.1 什么是信息检索 1
1.2 重要问题 2
1.3 搜索引擎 4
1.4 搜索工程师 5
参考文献和深入阅读 6
练习 6
第2章搜索引擎的架构 8
2.1 什么是软件架构 8
2.2 基本的构件 8
2.3 组件及其功能 10
2.3.1 文本采集 10
2.3.2 文本转换 12
2.3.3 索引的创建 13
2.3.4 用户交互 14
2.3.5 排序 15
2.3.6 评价 16
2.4 搜索引擎是如何工作的 17
参考文献和深入阅读 17
练习 17
第3章信息采集和信息源 18
3.1 确定搜索的内容 18
3.2 网络信息爬取 18
3.2.1 抓取网页 19
3.2.2 网络爬虫 20
3.2.3 时新性 22
3.2.4 面向主题的信息采集 24
3.2.5 深层网络 24
3.2.6 网站地图 25
3.2.7 分布式信息采集 26
3.3 文档和电子邮件的信息采集 27
3.4 文档信息源 28
3.5 转换问题 30
3.6 存储文档 31
3.6.1 使用数据库系统 32
3.6.2 随机存取 32
3.6.3 压缩和大规模文件 33
3.6.4 更新 34
3.6.5 BigTable 35
3.7 重复检测 36
3.8 去除噪声 39
参考文献和深入阅读 42
练习 43
第4章文本处理 45
4.1 从词到词项 45
4.2 文本统计 46
4.2.1 词表增长 49
4.2.2 估计数据集和结果集大小 51
4.3 文档解析 53
4.3.1 概述 53
4.3.2 词素切分 53
4.3.3 停用词去除 55
4.3.4 词干提取 55
4.3.5 短语和n元串 59
4.4 文档结构和标记 62
4.5 链接分析 63
4.5.1 锚文本 64
4.5.2 PageRank 64
4.5.3 链接质量 68
4.6 信息抽取 69
4.7 国际化 72
参考文献和深入阅读 73
练习 74
第5章基于索引的相关排序 76
5.1 概述 76
5.2 抽象的相关排序模型 76
5.3 倒排索引 78
5.3.1 文档 79
5.3.2 计数 81
5.3.3 位置 82
5.3.4 域与范围 83
5.3.5 分数 84
5.3.6 排列 85
5.4 压缩 85
5.4.1 熵与歧义 86
5.4.2 Delta编码 87
5.4.3 位对齐码 88
5.4.4 字节对齐码 90
5.4.5 实际应用中的压缩 90
5.4.6 展望 91
5.4.7 跳转和跳转指针 92
5.5 辅助结构 93
5.6 索引构建 94
5.6.1 简单构建 94
5.6.2 融合 95
5.6.3 并行与分布式 96
5.6.4 更新 99
5.7 查询处理 99
5.7.1 document-at-a-time评价 100
5.7.2 term-at-a-time评价 101
5.7.3 优化技术 102
5.7.4 结构化查询 107
5.7.5 分布式的评价 108
5.7.6 缓存 109
参考文献和深入阅读 109
练习 110
第6章查询与界面 113
6.1 信息需求与查询 113
6.2 查询转换与提炼 114
6.2.1 停用词去除和词干提取 114
6.2.2 拼写检查和建议 117
6.2.3 查询扩展 121
6.2.4 相关反馈 126
6.2.5 上下文和个性化 128
6.3 搜索结果显示 130
6.3.1 搜索结果页面与页面摘要 130
6.3.2 广告与搜索 132
6.3.3 结果聚类 134
6.4 跨语言搜索 137
参考文献和深入阅读 139
练习 140
第7章检索模型 142
7.1 检索模型概述 142
7.1.1 布尔检索 143
7.1.2 向量空间模型 144
7.2 概率模型 148
7.2.1 将信息检索作为分类问题 148
7.2.2 BM25排序算法 151
7.3 基于排序的语言模型 153
7.3.1 查询项似然排序 154
7.3.2 相关性模型和伪相关反馈 158
7.4 复杂查询和证据整合 162
7.4.1 推理网络模型 163
7.4.2 Galago查询语言 165
7.5 网络搜索 169
7.6 机器学习和信息检索 171
7.6.1 排序学习 172
7.6.2 主题模型和词汇不匹配 174
7.7 基于应用的模型 175
参考文献和深入阅读 176
练习 178
第8章搜索引擎评价 179
8.1 搜索引擎评价的意义 179
8.2 评价语料 180
8.3 日志 184
8.4 效果评价 186
8.4.1 召回率和准确率 186
8.4.2 平均化和插值 189
8.4.3 关注排序靠前的文档 192
8.4.4 使用用户偏好 194
8.5 效率评价 195
8.6 训练、测试和统计 196
8.6.1 显著性检验 196
8.6.2 设置参数值 200
8.6.3 在线测试 201
8.7 基本要点 201
参考文献和深入阅读 203
练习 203
第9章分类和聚类 205
9.1 分类 206
9.1.1 朴素贝叶斯 207
9.1.2 支持向量机 212
9.1.3 评价 216
9.1.4 分类器和特征选择 216
9.1.5 垃圾、情感及在线广告 219
9.2 聚类 224
9.2.1 层次聚类和K均值聚类 225
9.2.2 K近邻聚类 231
9.2.3 评价 232
9.2.4 如何选择K 233
9.2.5 聚类和搜索 234
参考文献和深入阅读 236
练习 236
第10章社会化搜索 238
10.1 什么是社会化搜索 238
10.2 用户标签和人工索引 239
10.2.1 搜索标签 241
10.2.2 推测缺失的标签 242
10.2.3 浏览和标签云 243
10.3 社区内搜索 244
10.3.1 什么是社区 244
10.3.2 社区发现 245
10.3.3 基于社区的问答 248
10.3.4 协同搜索 251
10.4 过滤和推荐 253
10.4.1 文档过滤 253
10.4.2 协同过滤 258
10.5 P2P搜索和元搜索 262
10.5.1 分布式搜索 262
10.5.2 P2P网络 264
参考文献和深入阅读 267
练习 268
第11章超越词袋 270
11.1 概述 270
11.2 基于特征的检索模型 270
11.3 词项依赖模型 271
11.4 再谈结构化 275
11.4.1 XML检索 276
11.4.2 实体搜索 277
11.5 问题越长，答案越好 278
11.6 词语、图片和音乐 281
11.7 搜索能否适用于所有情况 286
参考文献和深入阅读 287
练习 289
参考文献 290
· · · · · · (收起)

读后感

评分☆☆☆☆☆

最早的搜索引擎书籍是2005年北大天网的李晓明、阎宏飞等写的《搜索引擎》http://book.douban.com/subject/1481158/，那本书虽然有点老，但是对于搜索的技术点：爬虫、文本清洗、分词、存储、检索等都涉及到了，特别是对于中文的处理。如果想了解搜索引擎，可以先看那本书，...

评分☆☆☆☆☆

首先，十分感谢华章图书举办的这次图书免费试读活动。《搜索引擎-信息检索实践》是我读的第一本关于信息检索与搜索引擎方面的书籍，而且是我第一本如此认真去看的英文专业书籍。本书作者W.Bruce Croft是一位著名的计算机教授，现任马萨诸塞大学阿莫特斯分校计算机科...

用户评价

评分☆☆☆☆☆

这本书的出现，仿佛一股清流，激起了我对信息世界背后运作机制的好奇心。从它朴实无华但充满力量的书名，到扉页那句意味深长的话，都让我感受到一种回归本源、深入探究的决心。我还没有来得及细读，但仅仅是封面设计所传达出的那种沉静而坚毅的学术氛围，就足以让我心生敬意。我设想，这本书可能会将我们从碎片化的信息流中拉回，带领我们去审视那些支撑起整个信息生态系统的基石。它或许会像一位老练的匠人，一丝不苟地剖析信息检索的每一个环节，从数据的采集、整理，到最终的呈现，每一个步骤都凝聚着智慧与汗水。我尤其期待它能探讨搜索引擎如何不断演进，以适应人类日益增长的信息需求和不断变化的学习方式。它会不会揭示那些隐藏在智能推荐背后的逻辑，让我们理解为何我们会看到特定的内容？这本书给我一种预感，它将是一次严谨的学术探索，但又不失对普通读者的关怀，它会用最清晰的语言，解释最复杂的技术，让我们在理解信息的同时，也理解了我们自己与信息的关系，以及我们在数字时代所扮演的角色。

评分☆☆☆☆☆

当我拿起这本书，第一感觉是它传递出一种严谨而不失温度的气息。封面上那种略带复古又透着科技感的插图，让我联想到早期互联网的探索者们，他们是如何怀揣着连接世界的梦想，一步步奠定今天信息时代的基石。我还没来得及细读内容，但瞥到的几页序言，就让我感受到作者对这个领域的深厚情感和洞察力。他/她似乎在用一种讲述故事的方式，引导读者去理解搜索引擎不仅仅是一个工具，更是一种文明的产物，承载着人类对知识的渴望和对连接的追求。我尤其对其中提到的“信息鸿沟”和“算法偏见”等话题感到好奇，这似乎触及到了技术发展中更深层次的伦理和社会问题。这本书会不会探讨，在追求效率的同时，我们是否也可能在无意中加剧了某些不平等？或者，它会提出一些建设性的思考，关于如何让信息技术更好地服务于全人类，而不是加剧分裂。我期待它能提供一些独到的视角，让我重新审视这个我们每天都在使用的工具，去理解它背后的复杂性和多维度影响。这本书给我一种感觉，它不是一本枯燥的技术手册，而更像是一场关于信息、技术与人性的对话，引人深思。

评分☆☆☆☆☆

这本书给我一种“知识宝库”的即视感。打开它，就好像进入了一个精心设计的知识殿堂，里面的每一章节都像是一件等待被发掘的珍宝。我注意到书名本身就极具指向性，让我立刻联想到那些关于信息检索、数据挖掘和知识管理的宏大主题。虽然我还没有开始实质性的阅读，但仅仅是浏览目录和章节标题，就足以勾勒出它可能涵盖的广阔领域。“关键词的魔力”、“信息组织的艺术”、“搜索引擎的演进史”……这些字眼让我对它充满了期待。我猜想，这本书会以一种系统性的方式，为我们梳理出搜索引擎从无到有、从简陋到智能的完整脉络。它可能会深入浅出地讲解那些支撑起我们日常搜索行为的技术原理，比如爬虫、索引、排序等等，让我们不再觉得搜索结果是凭空出现的。更让我感兴趣的是，它是否会探讨搜索引擎在信息传播、舆论形成乃至社会认知方面所扮演的角色。毕竟，我们获取的信息很大程度上是由搜索引擎决定的，这其中蕴含着巨大的力量，也伴随着潜在的风险。这本书给我一种感觉，它不仅是技术的普及，更是一次关于信息时代主人翁意识的唤醒。

评分☆☆☆☆☆

拿到这本书，我的第一感觉是它充满了“探索未知”的吸引力。那简洁而富有设计感的封面，让我联想到在信息海洋中航行的探险者。我还没有深入翻阅，但仅从书名和大致的排版风格，就能感受到它所蕴含的深度和广度。那些看似寻常的搜索行为，背后究竟隐藏着怎样的智慧与挑战？这本书会不会像一位经验丰富的向导，带领我穿梭于互联网世界的复杂迷宫？我期待它能揭示那些驱动搜索引擎运作的“幕后英雄”，例如那些精妙绝伦的算法，它们是如何在亿万信息中捕捉到我们真正需要的那一闪而过的灵感。同时，我也好奇它是否会探讨人类在信息爆炸时代所面临的困境，以及搜索引擎如何成为我们应对这一挑战的重要工具。它会不会提供一些实用的技巧，让我们更有效地利用搜索引擎来获取知识、解决问题，甚至激发创造力？这本书给我的印象是，它不仅仅是关于技术，更是一种关于如何与信息建立更深层次连接的哲学思考。我准备好跟随作者的脚步，去揭开那个我们每天都在使用的“神秘盒子”的面纱，去理解它为何如此重要，又为何如此强大。

评分☆☆☆☆☆

这本书刚拿到手时，我被它的封面设计吸引了，那种简洁大气又带着一丝神秘感的风格，让我想起许多关于信息海洋的隐喻。迫不及待地翻开，我期待着一场思维的探索之旅。虽然我还没深入阅读，但仅仅从目录和前言的标题来看，就足以让人浮想联翩。“算法的奥秘”、“信息的边界”、“用户体验的革命”……这些词汇如同开启了新世界的大门，让我开始思考我们在日常生活中习以为常的搜索行为背后，隐藏着多么庞大而精密的系统。我猜想，这本书可能会带领我们深入了解那些无形却强大的力量，是如何将浩如烟海的互联网信息，精确地呈现在我们眼前的。它或许会揭示，那些我们随手输入关键词后瞬间获得的答案，并非偶然，而是无数次技术迭代和智慧结晶的产物。我特别好奇它会如何阐述“用户体验”这个概念，毕竟，一个好的搜索引擎不仅仅是找到信息，更是如何让我们在信息的海洋里，感受到轻松、高效和愉悦。这本书给我一种预感，它将不仅仅是技术层面的剖析，更会触及我们与信息互动方式的深刻变革，甚至可能影响我们的认知模式。我准备好迎接一场智识的洗礼，去探索那些隐藏在屏幕背后，重塑我们获取知识和理解世界的无形之手。

评分☆☆☆☆☆

现在社会化标签搜索和分类聚类搜索已经普及化，而语义语法检索也因为Quora和SO的兴起而越来越棒，但是超越词袋的搜索（图像视频）还是任重而道远啊……

评分☆☆☆☆☆

没全部看，看了个思路。

评分☆☆☆☆☆

不错，有点经验之后再看觉得蛮好的

评分☆☆☆☆☆

读过一点，完全不具备实践能力

评分☆☆☆☆☆

[先前所读]几个月前阅读的，不是很透彻，有时间再读