Creating and Digitizing Language Corpora

Creating and Digitizing Language Corpora pdf epub mobi txt 电子书 下载 2026

出版者:Palgrave Macmillan
作者:Beal, Joan C./ Corrigan, Karen P./ Moisl, Hermann L.
出品人:
页数:260
译者:
出版时间:2007-7
价格:$ 118.65
装帧:HRD
isbn号码:9781403943675
丛书系列:
图书标签:
  • 语料库语言学
  • 语料库构建
  • 数字化语言学
  • 计算语言学
  • 自然语言处理
  • 语言资源
  • 数据科学
  • 文本分析
  • 语言学研究
  • 数字人文
想要找书就要到 图书目录大全
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

A range of electronic corpora has become increasingly accessible via the WWW and CD-ROM. This development coincided with improvements in the standards governing the collecting, encoding and archiving of such data. Less attention, however, has been paid to making other types of digital data available. This is especially true of that which one might describe as 'unconventional', namely, the fragmentary texts and voices left to us as accidents of history. This book is a first step toward developing similar standards for enriching and preserving these neglected resources.

《语言的轨迹:语料库的构建、分析与应用》 本书是一本深入探讨语言学研究方法论的专著,聚焦于语料库的构建、分析及其在语言学各分支领域的广泛应用。作者以清晰的理论框架和丰富的实践案例,为读者勾勒出一幅完整的语料库语言学图景。 第一部分:语料库构建的基石 本部分详细阐述了语料库构建的各个关键环节,从语料的采集、标注到组织的逻辑,力求为读者提供一套系统化的操作指南。 语料采集的策略与实践: 探讨了不同类型语料的来源,包括书面语(文学作品、报刊杂志、学术文献等)和口语(访谈、对话、广播电视节目等)。强调了语料选择的代表性、多样性和规模性原则,并介绍了有效的语料库设计思路,以满足不同研究需求。讨论了版权、隐私等法律法规在语料采集过程中的考量。 规范化的语料标注: 深入剖析了语料标注的重要性,涵盖了词法标注(词性、形态)、句法标注(依存关系、短语结构)、语义标注(词义消歧、语义角色)以及语用标注(语篇连贯、言语行为)等不同层次。详细介绍了常见的标注工具和标准,如Penn Treebank、Universal Dependencies等,并讨论了跨语言标注的一致性问题。 语料库的组织与管理: 阐述了如何有效地组织和管理庞大的语料库,包括数据库的设计、索引的建立、数据的存储与检索等。介绍了面向不同研究目的的语料库架构,例如平衡语料库、特定领域语料库、纵向语料库等。强调了数据质量控制和元数据的重要性。 第二部分:语料库分析的工具与方法 本部分将视角转向语料库的分析过程,介绍了一系列行之有效的分析工具和方法,帮助研究者从海量数据中提取有价值的语言信息。 核心分析工具的应用: 详细介绍了语料库分析中常用的软件工具,如AntConc、Sketch Engine、CLTK等。阐释了这些工具在词频统计、关键词分析、搭配分析(collocation)、词语的n-gram分析、韵律模式识别等方面的功能与用法。 统计学方法的引入: 强调了统计学在语料库分析中的作用,介绍了频率分布、概率模型、回归分析、聚类分析等常用统计方法。通过实例说明如何利用统计学方法验证语言现象的普遍性、发现潜在的语言规律。 可视化技术的辅助: 探讨了数据可视化在呈现语料库分析结果方面的优势,介绍了各种图表类型(如词云图、网络图、热力图)在展示词汇分布、句法结构、语义关系等方面的应用。 第三部分:语料库在语言学各领域的应用 本部分展示了语料库方法在现代语言学研究中的广泛适用性,涵盖了词典编纂、语言教学、机器翻译、社会语言学、历史语言学等多个重要领域。 词典编纂的革新: 论述了语料库如何为词典的修订和新词的收录提供坚实的数据支持,以及如何通过语料库分析揭示词语的实际用法、搭配和语义变化。 语言教学的优化: 探讨了语料库在语言教学中的作用,包括为教材编写提供语言证据、帮助学习者掌握地道的语言表达、以及用于第二语言习得研究。 计算语言学的驱动: 详细介绍了语料库在自然语言处理(NLP)领域的核心地位,包括词性标注器、句法分析器、机器翻译系统、信息检索、情感分析等技术的研究与开发。 社会语言学的洞察: 分析了语料库如何帮助研究者追踪语言在不同社会群体、地域和时间上的变异,以及如何分析语言与社会因素(如年龄、性别、社会阶层)之间的关系。 历史语言学的视角: 阐述了历史语料库在追踪语言演变、恢复古老语言、研究历史时期语言用法等方面的价值。 结论 本书旨在为语言学研究者、计算语言学工作者、词典编纂者以及对语言现象有浓厚兴趣的读者提供一本集理论与实践于一体的参考书。通过对语料库构建、分析和应用的全面阐释,本书希望能启发读者运用数据驱动的方法,更深入、更准确地理解和描述语言的本质。

作者简介

目录信息

读后感

评分

评分

评分

评分

评分

用户评价

评分

评分

评分

评分

评分

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.wenda123.org All Rights Reserved. 图书目录大全 版权所有