Web知识挖掘

Web知识挖掘 pdf epub mobi txt 电子书 下载 2026

出版者:科学出版社
作者:郑庆华
出品人:
页数:336
译者:
出版时间:2010-6
价格:50.00元
装帧:
isbn号码:9787030274991
丛书系列:
图书标签:
  • 算法
  • Web数据挖掘
  • 网络爬虫
  • 信息提取
  • 数据分析
  • 机器学习
  • 自然语言处理
  • 文本挖掘
  • 知识图谱
  • 大数据
  • Python
想要找书就要到 图书目录大全
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

《Web知识挖掘:理论、方法与应用》是一部关于Web知识挖掘的比较系统、完整,且理论和实践相结合的著作,共含7章:第1章与第2章是Web知识挖掘概论,其中,第1章总体上对Web知识挖掘的现状、概念、典型方法、应用领域以及面临的挑战进行综述性说明;第2章介绍了Web知识挖掘的预备知识、分类体系、基本流程等内容。第3~6章是Web知识挖掘的理论与方法,分别论述了Web爬取、Web结构挖掘、内容挖掘、日志挖掘相关理论与方法,并系统总结了我们自己在元数据、概念、知识元等多个层次上的知识获取以及个性化知识服务等方面的工作。第7章是Web知识挖掘的实践与应用实例,以实例对Web结构挖掘、日志挖掘及内容挖掘的应用进行了说明。

《Web知识挖掘:理论、方法与应用》不仅系统地介绍了Web知识挖掘领域的基础理论与方法,也阐述了我们在该领域的创新性工作,因而适合不同类型与层次的研究人员及学生。

《Web知识挖掘:理论、方法与应用》可作为信息领域的科研与工程技术人员的参考书,也可作为计算机与相关专业的研究生和高年级本科生的教材或辅导书目。

《数字文明的先声:古今中外信息处理技术演进史》 本书旨在勾勒一部宏大而精微的信息处理技术发展史,从人类文明之初对信息进行记录、存储和传播的需求萌芽,直至当代复杂系统的智能化处理,涵盖了跨越数千年的技术革新与思想飞跃。我们并非聚焦于单一的技术领域,而是以时间为轴,以需求为驱动,系统梳理信息如何在不同历史阶段被组织、转化和利用的轨迹。 第一部分:信息之源——早期记录与符号系统(史前至中世纪) 本部分将深入探讨人类早期为克服记忆局限、实现信息跨时空传递所付出的努力。从洞穴壁画、结绳记事、泥板刻符到莎草纸、羊皮卷的广泛应用,每一种媒介的革新都标志着信息存储密度和可靠性的飞跃。我们将重点剖析苏美尔楔形文字、古埃及象形文字以及汉字体系的形成机制,它们不仅是记录语言的工具,更是早期知识体系构建的基石。 书写材料的革命: 纸张在中国被发明前的替代品,如古希腊的蜡板和罗马的莎草纸,它们对信息传播速度和地域广度的制约。 图书馆的诞生与管理: 亚历山大图书馆等古代知识中心的建立,揭示了早期分类、编目和知识保护的实践与挑战,这本质上就是最早的信息组织工作。 中世纪手抄本时代: 欧洲修道院在保存古典知识中的核心作用,以及抄写过程中信息失真与修正的复杂性,这反映了信息在人工复制环节中的脆弱性。 第二部分:机械时代的曙光——印刷术与标准化(15世纪至19世纪) 古腾堡活字印刷术的出现,是人类历史上信息复制效率的第一次“工业革命”。本部分将细致分析印刷术如何从根本上改变了知识的获取成本、流传速度和社会结构。信息开始从精英阶层向更广泛的群体扩散,为后来的启蒙运动奠定物质基础。 活字印刷的技术细节与影响: 探讨活字合金的配方、排版流程,以及它如何催生了标准化文本的概念,减少了因手抄带来的歧义。 信息流通的地理扩张: 印刷术在欧洲的扩散路径,以及它如何促进了民族语言的规范化和科学共同体的形成。 早期的信息检索尝试: 目录、索引和附注等辅助工具在印刷书籍中的出现,标志着人们开始系统化地组织大量信息,以提高查找效率。 第三部分:电信号的魔力——信息论与自动化计算的兴起(19世纪末至20世纪中叶) 随着电磁学的突破,信息开始以抽象的电信号形式存在。本章将聚焦于信息理论的奠基工作和早期计算设备的诞生。摩尔斯电码、电话的发明,揭示了信息的传输可以脱离物质载体的物理移动而独立存在。 信息论的量化革命: 详细解读香农的信息论,解释“比特”的概念如何为信息处理提供了统一的数学度量衡,这是后续所有数字技术的理论基石。 机电计算的探索: 从巴贝奇的差分机到图灵的理论模型,探讨机械结构如何被设计来执行复杂的逻辑运算,为数据处理的自动化铺平道路。 编码与加密技术的基础: 二战时期对密码分析的需求如何极大地推动了信息安全和早期的电子计算机发展,展现了信息处理与国家安全之间的紧密联系。 第四部分:数字世界的构建——计算机与网络互联(20世纪下半叶至今) 这是信息处理技术爆发式增长的时代。晶体管的发明、集成电路的商业化,使得计算能力空前增强,并催生了信息处理的革命性载体——个人计算机和互联网。 数据结构的演进: 从早期的磁带、磁盘到现代的固态存储,探讨存储介质的密度提升如何支撑了更大规模的数据处理需求。 操作系统的核心职能: 介绍操作系统作为人与机器之间中介的角色,如何管理硬件资源、调度任务,并提供文件管理和内存分配等基础服务,确保信息处理的有序进行。 网络协议的统一与全球化: TCP/IP协议簇如何构建起一个无缝连接的全球信息基础设施,以及万维网(WWW)的出现如何将分布式信息以超文本的形式组织起来,极大地改变了信息的获取和共享模式。 第五部分:智能时代的边缘——信息治理与未来趋势展望 最后一部分将讨论在海量数据和高度互联的背景下,信息处理面临的新挑战,以及技术如何试图应对这些挑战。 信息的可靠性与治理: 面对信息过载、假新闻和数据隐私问题,社会和技术层面采取的应对措施,如数据清洗、权限管理和身份验证机制。 人机交互的深化: 从命令行界面到图形用户界面,再到自然语言处理和沉浸式交互,探讨信息呈现方式的持续进化,如何使信息更贴近人类的直觉。 未来的信息范式: 简要展望量子计算、生物信息学等前沿领域可能带来的信息处理能力飞跃,以及这些变化对社会结构可能产生的深远影响。 本书的核心不在于介绍如何“挖掘”特定领域(如网络)的知识,而在于提供一个广阔的历史和技术背景,理解信息从被记录到被计算、再到被网络化的完整脉络,为理解任何现代信息技术打下坚实的基础。它是一部关于人类如何理解、组织和利用符号、数据与知识的通史。

作者简介

目录信息

前言第1章 Web挖掘概述 1.1 Web发展历史与现状 1.1.1 Web技术发展 1.1.2 Web上的信息爆炸 1.2 Web挖掘的概念 1.2.1 典型的Web挖掘定义 1.2.2 Web挖掘与数据挖掘、信息检索、信息抽取的区别 1.3 Web挖掘面临的挑战 1.3.1 Web数据的高度复杂性 1.3.2 Web数据检索的局限性 1.4 Web挖掘的研究方向 1.5 小结第2章 Web挖掘的基础知识 2.1 Web挖掘的主要预备知识 2.1.1 数据挖掘 2.1.2 文本挖掘 2.1.3 信息检索 2.2 Web挖掘分类 2.2.1 Web数据的分类体系 2.2.2 Web挖掘分类 2.3 Web挖掘的主要应用 2.4 Web挖掘的基本流程 2.4.1 数据采集 2.4.2 数据预处理 2.4.3 模式挖掘 2.4.4 模式评估 2.5 Web挖掘领域的重要文献、国际期刊与会议、标准规范 2.5.1 Web挖掘领域的重要文献 2.5.2 Web挖掘相关的国际期刊与国际会议 2.5.3 Web挖掘相关的标准、规范及语言 2.6 小结第3章 Web爬取与页面组织管理 3.1 Web爬取概述 3.1.1 Web爬取的分类 3.1.2 Web爬取的基本原理 3.1.3 Web爬取面临的挑战 3.2 Web爬取中的主要技术问题 3.2.1 爬取次序 3.2.2爬取性能问题 3.2.3 爬取礼貌性问题 3.3 隐含Web爬取 3.3.1 隐含Web爬虫框架及工作机理 3.3.2 表单分析与提交 3.3.3 隐含Web爬虫实例HiWE 3.4 面向主题的Web爬取 3.4.1 主题相关度分析 3.4.2 确定下个访问URL 3.4.3 面向主题爬取的爬虫实例 3.5 爬取页面的存储与管理 3.5.1 爬取文档的特点 3.5.2 爬取文档的存储方法 3.5.3爬取文档的管理 3.6 小结第4章 Web结构挖掘 4.1 Web结构挖掘概述 4.1.1 Web结构挖掘的分类 4.1.2 Web结构挖掘的应用 4.2 PageRank算法 4.2.1 超链接分析的假设 4.2.2 随机冲浪(random surfing)模型 4.2.3 PageRank值的计算 4.2.4 PageRank算法的改进 4.2.5 PageRank算法在Google中的应用 4.3 HITS算法 4.3.1 HITS算法的基本思想 4.3.2 HITS算法具体过程 4.3.3 HITS算法与PageRank算法的对比 4.3.4 HITS算法改进 4.4 Hilltop算法 4.4.1 Hilltop算法基本思想 4.4.2 专家页面选取及分值计算 4.4.3 目标页面选取及分值计算 4.4.4 PageRank算法和Hilltop算法区别 4.4.5 Hilltop算法的缺陷 4.5 Web宏观结构特性分析 4.5.1 Web的无尺度特性 4.5.2 Web的小世界(small world)特性 4.5.3 “蝴蝶结”和“日冕”现象 4.5.4 Web宏观结构特性的主要应用 4.6 小结第5章 Web内容挖掘 5.1 Web页面的特征表示 5.1.1 特征表示的基本原理 5.1.2特征的离散化 5.1.3 Web页面特征分析 5.1.4页面文本建模 5.2 Web页面分类 5.2.1 分类方法综述 5.2.2 基于内容的网页分类 5.3 Web页面聚类 5.3.1 聚类方法综述 5.3.2 基于内容的页面聚类 5.4 面向Web的信息抽取 5.4.1 信息抽取概述 5.4.2命名实体识别 5.4.3 实体关系检测 5.4.4 页面元数据抽取 5.5 面向Web的本体学习 5.5.1 面向文本的本体学习概述 5.5.2 概念获取 5.5.3 概念关系获取 5.5.4 试验结果与分析 5.6 面向Web的知识元及其关联抽取 5.6.1 知识元及其关联抽取概述 5.6.2知识元抽取 5.6.3 知识元前序关系抽取 5.7 多媒体数据挖掘 5.7.1 图像数据的挖掘 5.7.2 视频数据的挖掘 5.7.3 音频数据的挖掘 5.8 Web内容挖掘的未来研究方向 5.9 小结第6章 Web日志挖掘 6.1 Web日志挖掘概述 6.1.1 Web日志挖掘的分类 6.1.2 Web日志挖掘的典型应用 6.1.3 Web日志挖掘的流程 6.2 Web日志预处理 6.2.1 Web日志数据的格式 6.2.2 Web日志数据清洗 6.2.3 用户识别和会话识别 6.2.4 访问路径填充 6.2.5 事务识别 6.3 序列模式挖掘 6.3.1 序列模式的定义 6.3.2 GSP算法 6.3.3 PrefixSpan算法 6.4 Web用户行为模式挖掘 6.4.1 研究现状 6.4.2 相关概念 6.4.3 用户行为模式挖掘工作机理 6.5 Web用户个性挖掘 6.5.1 个性挖掘的基本概念 6.5.2 个性属性归并 6.S.3 用户个性聚类 6.5.4 个性特征与行为的关联规则分析 6.5.5 个性特征的获取 6.5.6 实例 6.6 Web用户兴趣感知 6.6.1 研究现状 6.6.2 基于建构主义的学习兴趣感知 6.6.3 用户兴趣模型的表示和更新 6.6.4 用户兴趣感知举例 6.7 Web日志挖掘的未来研究方向 6.8 小结第7章 Web挖掘的应用实例 7.1 应用1:面向网络学习的学习者个性挖掘 7.1.1 学习者模型和数据收集 7.1.2 学习者个性挖掘机理 7.1.3 PELDIS工作流程 7.1.4 个性挖掘实例 7.2 应用2:海量Web资源中的知识处理与服务 7.2.1 体系结构与工作机理 7.2.2 基于主题图的Web资源组织与管理 7.2.3 主题图的自动生成 7.2.4 多维关联索引构建与检索结果的个性化排序 7.2.5 个性化资源推荐与导航 7.2.6 基于SOA的Yotta系统实现 7.3 小结参考文献
· · · · · · (收起)

读后感

评分

评分

评分

评分

评分

用户评价

评分

评分

评分

评分

评分

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.wenda123.org All Rights Reserved. 图书目录大全 版权所有