语料库与基础英语教育
摘 要: 本文简要介绍了语料库的概念,强调了标注语料库在语言教学中的用途,并用大量的语言证据从词语搭配、词类搭配等方面说明语料库对基础的意义。同时,文章提出了应加强基础教育领域的语料库研究,使语料库能在该领域内发挥更大作用,促进我国基础教育进一步。
关键词:语料库;英语基础教育;语料库应用
一、语料库的概念
语料库的使用早在几百年前就开始了(Kennedy 2000: 13-15)。但是,过去的“语料库”是非机操作,人们把需要的句子抄在卡片或纸条上,然后对其检索。所以,这种现象我们只能称之为语料库方法,而非意义上的语料库。
有人把语料库定义为语言材料的仓库,该定义远远不能说明语料库的特征。
语料库以计算机检索为手段。计算机有一个强大的检索功能,这是人所不及的。语料库中聚集了大量文本,而计算机对任意大的语料库进行检索易如反掌。所以,有人认为术语“语料库语言学”应为“计算机语料库语言学”(Leech 1997: 1)。
语料库文本的收集是按照某些原则进行的。英国国家语料库(British National Corpus,以下简称BNC)的书面语占总库的90%,口语占10%,整个库的结构如表1所示。Brown语料库不包括口语,书面语的收集方法和BNC有很大不同,其结构见何安平(2004:141-143)。BNC的文本长度参差不齐,长的达436 048个单词,短文本只有25个单词;而Brown把文本的长度固定在2 000词左右,超出则删除。LOB(与Brown结构相同)语料库的文件长度平均为2 013单词左右。
表1BNC文本结构信息
语域 | 总码数 | 文档总数 | 形符数 |
applied science | 7 104 636 | 370 | 7 424 216 |
Arts | 6 600 741 | 263 | 6 939 259 |
belief and thought | 2 972 665 | 145 | 3 087 156 |
Commerce | 7 257 529 | 295 | 7 565 415 |
Imaginative | 16 386 486 | 477 | 17 548 572 |
Leisure | 12 139 853 | 437 | 12 662 241 |
natural sciences | 3 784 273 | 146 | 3 934 819 |
social science | 13 906 177 | 527 | 14 482 806 |
Spoken | 10 341 729 | 910 | 10 425 409 |
world affairs | 17 116 377 | 483 | 17 870 882 |
world news | 15 627 | 1 | 16 367 |
total | 97 626 093 | 4054 | 101 957 142 |
语料库分为生语料库(raw corpus)和标注语料库语料库语言学中“标注”、“赋码”、“附码”、“标识”、“标记”等均指对语料库内容标以识别信息,以便专用程序对其进行统计查询等。相应的英语术语(动词)有annotate, tag, parse, encode, markup, bracket等。本文统一使用“标注”这一说法。(annotated corpus),前者只是库(electronic archive),而利用标注语料库,不仅可以研究词语搭配,还可以研究词类搭配。标注就是文本标记词性码、语法码、语义码等,是语料库建设的重要阶段,是对文本增加语言信息的过程(Hunston 2002: 79-80)。例如BNC [DCK.104]即文档DCK中的104行。中的一个句子:
<s n=“65"><w AV0>Possibly <w AV0>so<c PUN>, <w ITJ>yeah<c PUN>.
尖括号中的部分就是被标注的内容,这里有句子开始标记和句子序列信息、词性码、标点符号码。利用生语料库,可能的查询为Possibly so这样的搭配情况。但so前面还能使用其他什么副词,利用生库无法知道。利用标注语料库可以很容易找到和so搭配的其他副词:right / just / quite / much / more / rightly / a bit / actually / alright等。这些语言信息就是在有词性码的情况下得到的。所以,从语料库中提取语言信息时,码的作用不可比拟。
语料库使用的语言材料应该是真实的。学习者语料库就应该体现出学生使用英语的原始情况,包括错误句子、拼写等。李文中多次批评“大学英语教材语料库由薛学彦建立的教材语料库。目前该库收集930个文本,近80万词容的语料,该库建设的第一阶段于2004年4月完成,包括结构标注和词性标注。”的真实性。他认为教材中的文本和原始文本相去很远,是经过编写人员改编的,从真实性的角度来讲已不能代表其原始文本个人交流。。总之,语料库的概念不是一个简单的语言材料的仓库,不是简单的文本量的增加。它涉及到取样、文本量、标注、甚至相关软件开发等问题。
二、语料库应用与基础英语教育
20世纪90年代以后,语料库和语料库语言学发展很快,原因是计算机硬件的普及和发展。世界上第一个计算机语料库Brown用了10年的时间尚未完工,而现在建立一个同样大小的语料库就易如反掌。
目前,语料库的应用主要在辞书和其他工具书的编写,而且,欧洲国家远远领先我国的研究。朗文等几个大的出版社已出版几种有影响的、基于语料库的字典和工具书,我国的出版社在这方面的工作还很薄弱。
从应用层面来讲,语料库应用更应该在教学方面,尤其在基础教育领域。
从语料库语言学著作和其他研究成果中得知,常用词汇应该是语言学习的重心,而这些常用词语教学恰恰是在基础教育阶段。
有研究表明,英语中出现频率最高的1 000个单词,覆盖全部语料的80%左右(见桂诗春1988: 19-20;Kennedy 2000: 96)。表2是根据一个近5千万词的语料库统计出来的结果。大学英语教材语料库中出现频率为1次到2次的单词,占全部类符的50%;BNC的数据表明,出现频率为1次到2次的单词,占全部类符的60.2%。
表2单词(类符)在语料中的使用比率
频率最高的类符 | 占总形符的百分比* | 频率最高的类符 | 占总形符的百分比* |
100 | 52.77 | 4 200 | 88.12 |
1 000 | 76.06 | 5 500 | 90.09 |
1 800 | 81.19 | 6 500 | 91.23 |
2 000 | 82.1 | 10 000 | 93.84 |
3 000 | 85.49 | total: 192 656 | 100 |
4 000 | 87.75 |
*说明:出现频率最高的前100个类符占总形符(即全部语料)的52.77%,等。
Sinclair和Renouf(1988,见卫乃兴 2002:26)认为,词语应当在教学大纲中占据中心地位。Alexander(1984,ibid.)也认为应以一种系统的方法对待词汇教学,其中,词组的学习,包括成语和种种固定表达方式,应是教学的起点。他建议教学过程中应重视“搭配”这一语言现象。
但是在我国,中小学阶段的教学很大程度上还停留在语法教学阶段,即使使用一套好的教材,有些教师还是不会放弃久已熟悉的教学方法,这样导致学生的语法知识比较扎实,但是他们的语用能力不是很好。图1和图2说明5,学生在单词a (an), the, no, every的使用方面还有很大的问题。
图1COLSEC中的冠词使用情况
图2COLSEC中名词使用情况
通过语料库进一步查询得知中国学生在复数名词前面使用冠词(主要是the)的现象非常普遍。使用(AT|ATI)+NNSAT、ATI、NN1和NN2四个码分别表示a/an,every;the,no;单数名词和不可数名词;复数名词。表达式的意思为“AT或ATI与复数名词”的搭配。进行统计,在频率为50以上的单词中,BNC有7个单词,而COLSECCOLSEC为“中国学习者口语语料库”。这里的引用BNC的数据是重新标注了的,并和COLSEC的语料量相同。中有9个,而且总频率远远超出BNC:
BNC:people (168) / police (122) / things (101) / women (88) / children (76) / men (72) / flats (61)
COLSEC:people (324) / students (275) / children (157) / pictures (114) / parents (101) / examinations (84) / advantages (71) / things (66) / benefits (63)
AT和NNS的搭配有111组,这显然是错误的。属于这一类的单词有:children / students / people / coins / friends / kinds / lots / savings / sports / women / computers / girls/ parents / pictures/ scientists / advantages / applicants / bikes / bookworms / boys / cards / cars等,其中和a 的搭配占74次,和an搭配占1次,和every 的搭配占36次。例如:
(*) He can?t take care of every children in the family.
(*) I think every people should live a happy life.
这种错误在CLECCLEC为“中国学习者英语语料库”。中出现频率较低,但是也有89次。
这种错误是第二语言习得过程中的问题,说明学生的表达能力有待提高。这个提高就是要通过教材、教学活动、教学课件等途径,并编写适当的练习对学生经常犯的错误进行纠正。
CLEC语料库中还有这样的句子:
The government no longer allocate jobs for students.
仅从词语搭配方面,这个句子的正确性就值得怀疑。在基于BNC的《当代朗文英语词典》的版中没有此搭配,整个BNC语料库中也找不到这样的搭配。
以上种种例子表明,学生对基础词汇的掌握还不够,需要进一步加强,而这正是基础阶段的内容。
早在20世纪初,西方就有人提出“搭配”的概念,后来又有许多人和完善这个概念的内容。但是,在机读语料库时期之前,人们对单词搭配能力的观察只能停留在“直觉”这个阶段,通过个人的行为观察文本,然后得出结论,对搭配词的使用统计没有一个依据,如频率等。搭配在语言教学中的应用很受限制。
有了机读语料库以后,这些变得很容易。例如,单词fairly、rather和hot、good、poor、fluently的搭配情况如何呢?从BNC中提取所有搭配并其频率,结果如下:
1 fairlyfluently
85 fairlygood
7 fairlyhot
9 fairlypoor
101 rathergood
5 ratherhot
47 ratherpoor
从结果中观察,有意义的区别在fairly poor和rather poor两个搭配上,其他的数据差别不大。而fluently前面经常会有什么副词修饰呢?对BNC的查询结果为:
1 aloud fluently
6 as fluently
1 fairly fluently
5 more fluently
2 most fluently
2 quite fluently
10 so fluently
1 very fluently
利用语料库统计VB+NN+to结构中动词位置上的单词频率,较高的有GIVE / TAKE / GET / DRAW / SEND / SAY等,而在VB+NN+on结构中,出现频率较高动词则是:PUT / GET / TAKE / MAKE / GIVE等。相关的例句有:
[J9V.1049]And I think we did draw attention to
the fact that ...
[HYG.69]We do obviously make grants to youth clubs and organizations.
[HM2.108]Erm doorway there, always a doorways always add interest to a picture.
[HEM.532]When you came in the Winter, to gain access to the stack,...
[HDX.13]Before you can make changes to the system, you have to understand it, and that takes an awful long time.
[G3U.1618]How does one put pressure on civil servants?
[FL7.61]Erm you get comments on the street!
[GY4.791]...that you?re the only one that?s doing ...that someone will take retribution on you.
以上例句表明,利用语料库,我们不仅可以观察单词的搭配情况,还可以研究词类的搭配情况。语料库语言学中搭配的概念不只是固定词组,涉及的搭配词是一组开放的词汇总和,而这些词汇总和也不是任意的,是受语义制约的,它们之间是“相互期待”的(卫乃兴2002:2)。
三、小结
语言学至今尚未找到理想的研究方法。而20世纪60年代计算机语料库的出现,为人们研究语言行为提供一个很好的手段。现在,语料库语言学研究方法日渐成为一种权威的语言研究方法,已经“进入语言学与应用语言学研究的主流”(何安平 2004:128)。
语料库是一个巨大的数据资源,它不仅可为字典编撰提供可靠的依据、为教材编写和大纲制定提供参照、还可为课件开发提供动态数据,为英语外语教学误用分析提供支撑等等,它必将成为基础教育领域教师的得力助手。
Hunston, S.Corpora in Applied Linguistics [M].
Kennedy, G.An Introduction to Corpus Linguistics [M](影印版)北京:外语教学与研究出版社.2000.
Leech, G.Introducing corpus annotation [A].In Roger Garside, Geoffrey Leech & Tony McEnery (eds.) Corpus Annotation [C].Essex:
桂诗春.应用语言学[M].长沙:湖南教育出版社,1988.
何安平.语料库语言学与英语教学[M].北京:外语教学与研究出版社, 2004.
卫乃兴.词语搭配的界定与研究体系[M].上海:上海大学出版社,2002.