语料库

名词(corpus,复数corpora)

指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。

corpus

n. (pl. corpora)

refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服务(SMS)语料)等。

刚刚查询:揭露出 李保同 古越族 五万人 市政建设 不同点 淡蓝色 秃尾巴 尚武精神 上天堂 等周问题 Tolbert 乙醇汽车 伊朗人 Imbruglia 约阿尼纳 Planetarium 去离子水树脂 白话小说 欧登塞 免疫系统 首阳山 情报员 燕子 旁遮普邦 domovine 瓦尔纳 电子控制 香芹醚 博兴县 劳伦斯 永春牌坊 荷香蛙鸣 orthorhombic 同母异父 卡洛斯·阿德里亚诺 渔湖 Rheinwiesenlager 李柚 波兰人 应该是 人造毛 秋香 北京话 华迦 人口数 语料库 口语化 9787532786411 资产组合理论 dlfilexxx purpuratus producer Marys+Of+The+Sea Jhuoshuei er5钢 接二连三 妥善处理 单口相声 宣讲会 保甲制度 超音速队 铁树开花 olivine 公路运输 田径赛 代数方程 丹枫白露苑 朝鲜语 边防检查 太白星 萍州村 共青城 自我实现人 Marggraf designing Francolinus gelatus
友情链接: 知道 电影 百科 好搜 问答 微信 值得买 巨便宜 天天特价 洛阳汽车脚垫 女装 女鞋 母婴 内衣 零食 美妆 汽车 油价 郑州 北京 上海 广州 深圳 杭州 南京 苏州 武汉 天津 重庆 成都 大连 宁波 济南 西安 石家庄 沈阳 南阳 临沂 邯郸 保定 温州 东莞 洛阳 周口 青岛 徐州 赣州 菏泽 泉州 长春 唐山 商丘 南通 盐城 驻马店 佛山 衡阳 沧州 福州 昆明 无锡 南昌 黄冈 遵义
© 2025 haodianxin 百科 消耗时间:0.002秒 内存0.8MB