《红楼梦》中英文语料库的创建及应用研究

《红楼梦》中英文语料库的创建及应用研究 pdf epub mobi txt 电子书 下载 2026

出版者:
作者:刘泽权
出品人:
页数:180
译者:
出版时间:2010-5
价格:35.00元
装帧:
isbn号码:9787511206961
丛书系列:
图书标签:
  • 语言学
  • 红楼梦
  • 红楼梦
  • 语料库
  • 中文语料
  • 英文语料
  • 对比研究
  • 计算语言学
  • 文学研究
  • 自然语言处理
  • 文本挖掘
  • 中国古典文学
想要找书就要到 图书目录大全
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

《 中英文语料库的创建及应用研究》是2005年国家社科基金资助项目“《红楼梦》中英文语料库的创建及应用研究”的成果。全书分为两部分,上篇围绕《红楼梦》一文三译平行语料库的创建,着重介绍了在建库过程中所遇到的问题和挑战,以及在实践中所摸索出来的解决办法,包括平行语料库概述、《红楼梦》版本及英译述要、语料库的设计、全库数据统计分析及检索软件功能介绍;下篇为基于该平行语料库所展开的系统全面、定量与定性相结合的应用研究,涉及习语、叙事标记语、报道动词、委婉语、称谓、人物形象塑造及其三种英译的翻译研究。期望本项目建设的经验和初步成果能对《红楼梦》其他语种乃至其他典籍的翻译研究起到抛砖引玉的作用。

《红楼梦》中英文语料库的创建及应用研究 图书简介 本书系统地阐述了构建一个高质量、大规模的《红楼梦》中英文平行语料库的理论基础、技术路线、实施细节及其在多个领域的前沿应用。本书聚焦于如何将这部中国古典文学巨著——《红楼梦》——的文本资源转化为可供计算语言学、机器翻译、文学比较研究等领域深入挖掘的数字化工具。 第一部分:语料库的理论基础与构建原则 第一部分首先深入探讨了古典文献语料库建设的特殊挑战,特别是像《红楼梦》这样语言风格复杂、文化内涵丰富的文本所面临的编码、分词和对齐难题。我们详细分析了语料库建设的必要性,强调了在大数据时代下,对经典文本进行定量分析和跨语言对比研究的学术价值。 1.1 文本基础与版本选择: 本章详细梳理了《红楼梦》现存的主要版本,包括程甲本、程乙本以及脂砚斋批注本的核心区别。为确保语料库的权威性和一致性,我们确立了以通行本为基础,并整合关键批注信息的文本源选择原则。讨论了如何处理异文、残卷以及不同版本间的细微差别,以构建一个既忠实于原貌又便于计算的基准文本。 1.2 中文文本的预处理与规范化: 中文文本的数字化是语料库创建的第一步。本章重点介绍了针对古典白话文(特别是清代白话)的特殊处理技术。内容涵盖: 字符集编码与统一: 解决早期印刷体、异体字在现代计算机系统中的兼容性问题。 断句与分词策略: 针对古典语法的特点,设计了适应性强的分词模型,区别于现代汉语分词的常见误区。讨论了如何利用词性标注(POS Tagging)来提升后续分析的准确性。 文本清洗与标注: 如何去除印刷错误、批语干扰,并引入基本的句法和语义标注层级,为深层应用打下基础。 1.3 英文译本的甄选与对齐挑战: 语料库的核心价值在于跨语言的对比性。本章详细评估了杨宪益/戴乃迭、大卫·霍克斯(David Hawkes)等多个权威英文译本的优劣。重点攻克了“对齐”(Alignment)这一核心技术难题: 句级与段落级对齐算法: 针对古典小说叙事节奏和句式结构差异导致的对齐困难,提出了基于语义相似度和结构特征的混合对齐方法。 翻译变异分析的理论框架: 建立了一套评估和量化不同译本在特定文学主题(如人物刻画、意象传达)上的翻译策略的分析框架。 第二部分:语料库的设计、存储与管理 本部分着眼于语料库的工程实现和长期维护。我们设计了一个多层级的XML/TEI(Text Encoding Initiative)标准兼容的数据结构,以支持复杂的查询和标注的层次化存储。 2.1 语料库的架构设计: 详细阐述了语料库的逻辑结构,包括元数据层(描述文本来源、翻译者、年代信息)、文本层(原始文本与译文)和标注层(分词、词性、对齐链接)。探讨了如何利用关系型数据库与非关系型数据库相结合的方式,优化对大规模非结构化文本的存取效率。 2.2 批注与文化信息的整合: 区别于一般的机器翻译语料库,本书强调对《红楼梦》的文化信息进行数字化管理。这包括对特定名词(如服饰、药材、园林术语)的注释链接,以及如何将脂批中的关键评论嵌入到对应文本位置,便于研究者进行“文本-批注”的关联查询。 2.3 语料库的质量控制与迭代更新: 阐述了从人工校对到众包验证的质量保障流程,以及如何设计反馈机制,确保语料库在应用过程中能持续修正错误、不断优化对齐精度。 第三部分:语料库的应用研究 本部分是本书的核心实践部分,展示了如何利用构建的《红楼梦》中英文语料库在多个前沿领域进行创新性研究。 3.1 机器翻译的性能评估与优化: 古典文学翻译的挑战数据集: 利用语料库构建了专门用于测试神经机器翻译(NMT)模型在处理长难句、隐喻和文化特定词汇(CSW)方面的基准数据集。 特定场景下的术语翻译一致性分析: 针对“大观园”建筑群、人物称谓等高频专有名词,量化分析不同NMT模型在保证译文忠实度上的表现,并提出基于语料库知识注入的微调方法。 3.2 跨语言文学风格计量分析: 句法复杂度的对比研究: 通过对中文文本的句法树结构和英文译文的从句使用频率进行定量比较,深入分析曹雪芹的原作句法特点与译者风格的相互影响。 情感倾向与意象分布的词典构建: 针对《红楼梦》中独特的悲剧美学,我们创建了适应古典语境的情感词典,并利用语料库进行跨语言的情感分布追踪,揭示“千红一哭,万艳同悲”的文学主题在不同语言中的量化表达差异。 3.3 语义网络与人物关系建模: 共现分析与核心人物网络构建: 利用语料库中的人物名词和代词指代消解结果,构建出以贾宝玉、林黛玉为核心的动态人物关系网络,并追踪人物关系在不同章节的演变。 跨文化修辞与意象的映射: 研究如“月亮”、“泪水”、“花”等核心意象在中文叙事中的文化负载和在英文译文中的对应表达策略,为理解翻译中的文化损耗或增益提供实证依据。 结论与展望 本书最后总结了语料库构建的实践经验,并对未来基于该语料库的进一步研究方向进行了展望,包括引入深度学习方法进行自动批注、扩展至其他清代小说进行类型学比较等。本书不仅是方法论的探讨,更是为《红楼梦》研究注入了强大的数字化工具和计算视角,是古典文学研究者、计算语言学家和机器翻译工程师不可或缺的参考资源。

作者简介

目录信息

读后感

评分

评分

评分

评分

评分

用户评价

评分

评分

评分

评分

评分

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.wenda123.org All Rights Reserved. 图书目录大全 版权所有