语料库与基础英语教育

来源:岁月联盟 作者:薛学彦 时间:2010-08-19

  要: 本文简要介绍了语料库的概念,强调了标注语料库在语言教学中的用途,并用大量的语言证据从词语搭配、词类搭配等方面说明语料库对基础的意义。同时,文章提出了应加强基础教育领域的语料库研究,使语料库能在该领域内发挥更大作用,促进我国基础教育进一步。

关键词:语料库;英语基础教育;语料库应用

一、语料库的概念

    语料库的使用早在几百年前就开始了(Kennedy 2000: 13-15)。但是,过去的“语料库”是非机操作,人们把需要的句子抄在卡片或纸条上,然后对其检索。所以,这种现象我们只能称之为语料库方法,而非意义上的语料库。

    有人把语料库定义为语言材料的仓库,该定义远远不能说明语料库的特征。

    语料库以计算机检索为手段。计算机有一个强大的检索功能,这是人所不及的。语料库中聚集了大量文本,而计算机对任意大的语料库进行检索易如反掌。所以,有人认为术语“语料库语言学”应为“计算机语料库语言学”(Leech 1997: 1)。

    语料库文本的收集是按照某些原则进行的。英国国家语料库(British National Corpus,以下简称BNC)的书面语占总库的90%,口语占10%,整个库的结构如表1所示。Brown语料库不包括口语,书面语的收集方法和BNC有很大不同,其结构见何安平(2004:141-143)。BNC的文本长度参差不齐,长的达436 048个单词,短文本只有25个单词;而Brown把文本的长度固定在2 000词左右,超出则删除。LOB(与Brown结构相同)语料库的文件长度平均为2 013单词左右。

1BNC文本结构信息

语域

总码数

文档总数

形符数

applied science

7 104 636

370

7 424 216

Arts

6 600 741

263

6 939 259

belief and thought

2 972 665

145

3 087 156

Commerce

7 257 529

295

7 565 415

Imaginative

16 386 486

477

17 548 572

Leisure

12 139 853

437

12 662 241

natural sciences

3 784 273

146

3 934 819

social science

13 906 177

527

14 482 806

Spoken

10 341 729

910

10 425 409

world affairs

17 116 377

483

17 870 882

world news

15 627

1

16 367

total

97 626 093

4054

101 957 142

    语料库分为生语料库(raw corpus)和标注语料库语料库语言学中“标注”、“赋码”、“附码”、“标识”、“标记”等均指对语料库内容标以识别信息,以便专用程序对其进行统计查询等。相应的英语术语(动词)有annotate, tag, parse, encode, markup, bracket等。本文统一使用“标注”这一说法。(annotated corpus),前者只是库(electronic archive),而利用标注语料库,不仅可以研究词语搭配,还可以研究词类搭配。标注就是文本标记词性码、语法码、语义码等,是语料库建设的重要阶段,是对文本增加语言信息的过程(Hunston 2002: 79-80)。例如BNC [DCK.104]即文档DCK中的104行。中的一个句子:

      <s n=“65"><w AV0>Possibly <w AV0>so<c PUN>, <w ITJ>yeah<c PUN>.

     尖括号中的部分就是被标注的内容,这里有句子开始标记和句子序列信息、词性码、标点符号码。利用生语料库,可能的查询为Possibly so这样的搭配情况。但so前面还能使用其他什么副词,利用生库无法知道。利用标注语料库可以很容易找到和so搭配的其他副词:right / just / quite / much / more / rightly / a bit / actually / alright等。这些语言信息就是在有词性码的情况下得到的。所以,从语料库中提取语言信息时,码的作用不可比拟。

      语料库使用的语言材料应该是真实的。学习者语料库就应该体现出学生使用英语的原始情况,包括错误句子、拼写等。李文中多次批评“大学英语教材语料库由薛学彦建立的教材语料库。目前该库收集930个文本,近80万词容的语料,该库建设的第一阶段于2004年4月完成,包括结构标注和词性标注。”的真实性。他认为教材中的文本和原始文本相去很远,是经过编写人员改编的,从真实性的角度来讲已不能代表其原始文本个人交流。。总之,语料库的概念不是一个简单的语言材料的仓库,不是简单的文本量的增加。它涉及到取样、文本量、标注、甚至相关软件开发等问题。 

二、语料库应用与基础英语教育

    20世纪90年代以后,语料库和语料库语言学发展很快,原因是计算机硬件的普及和发展。世界上第一个计算机语料库Brown用了10年的时间尚未完工,而现在建立一个同样大小的语料库就易如反掌。

    目前,语料库的应用主要在辞书和其他工具书的编写,而且,欧洲国家远远领先我国的研究。朗文等几个大的出版社已出版几种有影响的、基于语料库的字典和工具书,我国的出版社在这方面的工作还很薄弱。

从应用层面来讲,语料库应用更应该在教学方面,尤其在基础教育领域。

从语料库语言学著作和其他研究成果中得知,常用词汇应该是语言学习的重心,而这些常用词语教学恰恰是在基础教育阶段。

有研究表明,英语中出现频率最高的1 000个单词,覆盖全部语料的80%左右(见桂诗春1988: 19-20;Kennedy 2000: 96)。表2是根据一个近5千万词的语料库统计出来的结果。大学英语教材语料库中出现频率为1次到2次的单词,占全部类符的50%;BNC的数据表明,出现频率为1次到2次的单词,占全部类符的60.2%。 

2单词(类符)在语料中的使用比率

频率最高的类符

占总形符的百分比*

频率最高的类符

占总形符的百分比*

100

52.77

4 200

88.12

1 000

76.06

5 500

90.09

1 800

81.19

6 500

91.23

2 000

82.1

10 000

93.84

3 000

85.49

total: 192 656

100

4 000

87.75

 

 

 

 *说明:出现频率最高的前100个类符占总形符(即全部语料)的52.77%,等。

     SinclairRenouf(1988,见卫乃兴 2002:26)认为,词语应当在教学大纲中占据中心地位。Alexander(1984,ibid.)也认为应以一种系统的方法对待词汇教学,其中,词组的学习,包括成语和种种固定表达方式,应是教学的起点。他建议教学过程中应重视“搭配”这一语言现象。

但是在我国,中小学阶段的教学很大程度上还停留在语法教学阶段,即使使用一套好的教材,有些教师还是不会放弃久已熟悉的教学方法,这样导致学生的语法知识比较扎实,但是他们的语用能力不是很好。图1和图2说明5,学生在单词a (an), the, no, every的使用方面还有很大的问题。

1COLSEC中的冠词使用情况

2COLSEC中名词使用情况

    通过语料库进一步查询得知中国学生在复数名词前面使用冠词(主要是the)的现象非常普遍。使用(AT|ATI)+NNSAT、ATI、NN1和NN2四个码分别表示a/an,every;the,no;单数名词和不可数名词;复数名词。表达式的意思为“AT或ATI与复数名词”的搭配。进行统计,在频率为50以上的单词中,BNC有7个单词,而COLSECCOLSEC为“中国学习者口语语料库”。这里的引用BNC的数据是重新标注了的,并和COLSEC的语料量相同。中有9个,而且总频率远远超出BNC:

      BNCpeople (168) / police (122) / things (101) / women    (88) / children (76) / men (72) / flats (61)

      COLSECpeople (324) / students (275) / children (157) / pictures (114) / parents (101) / examinations (84) / advantages (71) / things (66) / benefits (63)

    ATNNS的搭配有111组,这显然是错误的。属于这一类的单词有:children / students / people / coins / friends / kinds / lots / savings / sports / women / computers / girls/ parents / pictures/ scientists / advantages / applicants / bikes / bookworms / boys / cards / cars等,其中和a 的搭配占74次,和an搭配占1次,和every 的搭配占36次。例如:

(*) He can?t take care of every children in the family.

(*) I think every people should live a happy life.

    这种错误在CLECCLEC为“中国学习者英语语料库”。中出现频率较低,但是也有89次。

    这种错误是第二语言习得过程中的问题,说明学生的表达能力有待提高。这个提高就是要通过教材、教学活动、教学课件等途径,并编写适当的练习对学生经常犯的错误进行纠正。

    CLEC语料库中还有这样的句子:

    The government no longer allocate jobs for students.

    仅从词语搭配方面,这个句子的正确性就值得怀疑。在基于BNC的《当代朗文英语词典》的版中没有此搭配,整个BNC语料库中也找不到这样的搭配。

    以上种种例子表明,学生对基础词汇的掌握还不够,需要进一步加强,而这正是基础阶段的内容。

    早在20世纪初,西方就有人提出“搭配”的概念,后来又有许多人和完善这个概念的内容。但是,在机读语料库时期之前,人们对单词搭配能力的观察只能停留在“直觉”这个阶段,通过个人的行为观察文本,然后得出结论,对搭配词的使用统计没有一个依据,如频率等。搭配在语言教学中的应用很受限制。

    有了机读语料库以后,这些变得很容易。例如,单词fairly、rather和hot、good、poor、fluently的搭配情况如何呢?从BNC中提取所有搭配并其频率,结果如下: 


1      fairlyfluently

85     fairlygood

7      fairlyhot

9      fairlypoor

101    rathergood

5      ratherhot

47     ratherpoor


    从结果中观察,有意义的区别在fairly poor和rather poor两个搭配上,其他的数据差别不大。而fluently前面经常会有什么副词修饰呢?对BNC的查询结果为:


1    aloud fluently

6    as fluently

1    fairly fluently

5    more fluently

2    most fluently

2    quite fluently

10    so fluently

1     very fluently


     利用语料库统计VB+NN+to结构中动词位置上的单词频率,较高的有GIVE / TAKE / GET / DRAW / SEND / SAY等,而在VB+NN+on结构中,出现频率较高动词则是:PUT / GET / TAKE / MAKE / GIVE等。相关的例句有:

J9V.1049]And I think we did draw attention to

the fact that ...

HYG.69]We do obviously make grants to youth clubs and organizations.

HM2.108]Erm doorway there, always a doorways always add interest to a picture.

HEM.532]When you came in the Winter, to gain access to the stack,...

HDX.13]Before you can make changes to the system, you have to understand it, and that takes an awful long time.

G3U.1618]How does one put pressure on civil servants?

FL7.61]Erm you get comments on the street!

GY4.791]...that you?re the only one that?s doing ...that someone will take retribution on you.

     以上例句表明,利用语料库,我们不仅可以观察单词的搭配情况,还可以研究词类的搭配情况。语料库语言学中搭配的概念不只是固定词组,涉及的搭配词是一组开放的词汇总和,而这些词汇总和也不是任意的,是受语义制约的,它们之间是“相互期待”的(卫乃兴2002:2)。

 

三、小结

     语言学至今尚未找到理想的研究方法。而20世纪60年代计算机语料库的出现,为人们研究语言行为提供一个很好的手段。现在,语料库语言学研究方法日渐成为一种权威的语言研究方法,已经“进入语言学与应用语言学研究的主流”(何安平 2004:128)。

     语料库是一个巨大的数据资源,它不仅可为字典编撰提供可靠的依据、为教材编写和大纲制定提供参照、还可为课件开发提供动态数据,为英语外语教学误用分析提供支撑等等,它必将成为基础教育领域教师的得力助手。 

Hunston, S.Corpora in Applied Linguistics M].Cambridge:   Cambridge University Press, 2002.

Kennedy, G.An Introduction to Corpus Linguistics M](影印版)北京:外语教学与研究出版社.2000.

Leech, G.Introducing corpus annotation A].In Roger Garside, Geoffrey Leech & Tony McEnery (eds.) Corpus Annotation [C].Essex: Addison Wesley Longman Limited, 1997.

桂诗春.应用语言学[M].长沙:湖南教育出版社,1988.

何安平.语料库语言学与英语教学[M].北京:外语教学与研究出版社, 2004.

卫乃兴.词语搭配的界定与研究体系[M].上海:上海大学出版社,2002.