语料库

名词(corpus,复数corpora)

指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。

corpus

n. (pl. corpora)

refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。

语料库有三点特征

⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;

⒉语料库是承载语言知识的基础资源,但并不等于语言知识;

⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。

语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库

刚刚查询:语料库 马头山 Twynholm 雪菜红白汤 保守政府 阳痿康复汤 学生处 跑垒员 大南门 召开会议 不伦瑞克 简化字 ľרҵӢ 公元468年 汉普郡 地拉那 皮蛋宝宝城镇大骚动 长长的路慢慢地走 Telecommunication 国防大学 杀人灭口 株连绝宦 走私集团 山姆大叔 灵魂不能下跪:冯骥才文化遗产思想学术论集 国际社会 凉拌海藻沙拉 内骨骼 信得过 Inhabited 社会经济 Melitta 酷米动漫 Ministry 吕春梅 有赖于 埃及人 董春柏 草豆蔻 ˽ 著作者 鱼肝油 官夫人 快餐馆 玉溪二中 sakatan 多学科 PAYSANE 未来街头相遇 Testament 朋友 滑雪板 八周年 Greatand alveoli 政见者 身临其境 �ۺ����� 皇华镇 郢曲文 耶稣教 萝卜煮鲜贝 干细胞 成矿控制因素 大师级 秘制香辣烤鲫鱼 能够使 辽宁省道教协会 荷马史诗 一次方程 鼻咽癌 ��ʹ���� 机器厂 到一起 回顾性 东北侧 在改革中 侏罗纪 下梅林 如有所失
友情链接: 知道 电影 百科 好搜 问答 微信 值得买 巨便宜 天天特价 洛阳汽车脚垫 女装 女鞋 母婴 内衣 零食 美妆 汽车 油价 郑州 北京 上海 广州 深圳 杭州 南京 苏州 武汉 天津 重庆 成都 大连 宁波 济南 西安 石家庄 沈阳 南阳 临沂 邯郸 保定 温州 东莞 洛阳 周口 青岛 徐州 赣州 菏泽 泉州 长春 唐山 商丘 南通 盐城 驻马店 佛山 衡阳 沧州 福州 昆明 无锡 南昌 黄冈 遵义
© 2025 haodianxin 百科 消耗时间:0.033秒 内存2.5MB