语料库

名词(corpus,复数corpora)

指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。

corpus

n. (pl. corpora)

refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。

相关查询: 语料库
最新查询:digestive Enforcer Chester VACCINATION failure All-Rounder primary Another integrity. beginning Novadry Buzzcocks tpimage 洛阳 LFAP Scheherezade Copernicus COMMUNAUTE General contribution projects ASSOCIATION Mashreq Secrets Committee ADAPTATION Executor process sqlserver Controller 双涡轮增压 费萨尔一世 以赛亚 速记法 破铜烂铁 先锋派 深圳市东湖汽车客运站 反射角 莲花峰 塔里仓鸮 多事之秋 垂直性 葡萄糖 四川省成都未成年犯管教所 约瑟芬 弗里德里希大街 硬脂酸 gelatus Francolinus designing Marggraf 自我实现人 共青城 萍州村 太白星 边防检查 朝鲜语 丹枫白露苑 代数方程 田径赛 公路运输 olivine 铁树开花 超音速队 保甲制度 宣讲会 单口相声 妥善处理 接二连三 er5钢 Jhuoshuei Marys+Of+The+Sea producer purpuratus dlfilexxx 资产组合理论 9787532786411 口语化 语料库
友情链接: 知道 电影 百科 好搜 问答 微信 值得买 巨便宜 天天特价 洛阳汽车脚垫 女装 女鞋 母婴 内衣 零食 美妆 汽车 油价 郑州 北京 上海 广州 深圳 杭州 南京 苏州 武汉 天津 重庆 成都 大连 宁波 济南 西安 石家庄 沈阳 南阳 临沂 邯郸 保定 温州 东莞 洛阳 周口 青岛 徐州 赣州 菏泽 泉州 长春 唐山 商丘 南通 盐城 驻马店 佛山 衡阳 沧州 福州 昆明 无锡 南昌 黄冈 遵义
© 2025 haodianxin 百科 豫ICP备14030218号-3 消耗时间:0.005秒 内存0.84MB 2025-09-21 20:13:55