我们在前面
![](/icons/32976de.gif)
系列中介绍和提到了
![](/icons/32976yi.gif)
些年轻有为
![](/icons/32976de.gif)
科学家
![](/icons/32976dou.gif)
迈克尔·柯林斯
![](/icons/32976dou.gif)
艾里克·布莱尔
![](/icons/32976dou.gif)
大卫·雅让斯基
![](/icons/32976dou.gif)
拉纳帕提等等
![](/icons/32976dou.gif)
他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下
![](/icons/32976dou2.gif)
就像许多武侠小说中描写
![](/icons/32976de.gif)
![](/icons/32976dou.gif)
弟子都成了各派
![](/icons/32976de.gif)
掌门
![](/icons/32976dou.gif)
师傅
![](/icons/32976yi.gif)
定了不得
![](/icons/32976dou2.gif)
![](/icons/32976de.gif)
确
![](/icons/32976dou.gif)
马库斯虽然作为第
![](/icons/32976yi.gif)
作者发表
![](/icons/32976de.gif)
论文并不多
![](/icons/32976dou.gif)
但是从很多角度上讲
![](/icons/32976dou.gif)
他可以说是自然语言处理领域
![](/icons/32976de.gif)
教父
![](/icons/32976dou2.gif)
马库斯教授长期当任宾夕法尼亚大学计算机系主任
![](/icons/32976dou.gif)
直到他在几年前从 AT&T 找到皮耶尔替代他为止
![](/icons/32976dou2.gif)
作为
![](/icons/32976yi.gif)
个管理者
![](/icons/32976dou.gif)
马库斯显示出在自然处理和计算机科学方面
![](/icons/32976de.gif)
卓识
![](/icons/32976de.gif)
远见
![](/icons/32976dou2.gif)
在指导博士生时
![](/icons/32976dou.gif)
马库斯发现语料库在自然语言处理中
![](/icons/32976de.gif)
重要性
![](/icons/32976dou2.gif)
马库斯呕心沥血
![](/icons/32976dou.gif)
花了十几年工夫建立了
![](/icons/32976yi.gif)
系列标准
![](/icons/32976de.gif)
语料库
![](/icons/32976dou.gif)
提供给全世界
![](/icons/32976de.gif)
学者使用
![](/icons/32976dou2.gif)
这套被称为 LDC
![](/icons/32976de.gif)
语料库
![](/icons/32976dou.gif)
是当今全世界自然语言处理
![](/icons/32976de.gif)
所有学者都使用
![](/icons/32976de.gif)
工具
![](/icons/32976dou2.gif)
我们在以前
![](/icons/32976de.gif)
系列中讲到
![](/icons/32976dou.gif)
当今
![](/icons/32976de.gif)
自然语言处理几乎都是使用给予统计
![](/icons/32976de.gif)
思路方法
![](/icons/32976dou2.gif)
要做统计
![](/icons/32976dou.gif)
就需要大量有代表性
![](/icons/32976de.gif)
数据
![](/icons/32976dou2.gif)
利用这些数据开发
![](/icons/32976yi.gif)
个自然语言处理系统
![](/icons/32976de.gif)
过程
![](/icons/32976dou.gif)
可以统称为训练
![](/icons/32976dou2.gif)
比如
![](/icons/32976dou.gif)
我们要训练
![](/icons/32976yi.gif)
个汉语分词系统
![](/icons/32976dou.gif)
我们需要
![](/icons/32976yi.gif)
些已经分好词
![](/icons/32976de.gif)
中文句子
![](/icons/32976dou2.gif)
当然这些句子需要有代表性
![](/icons/32976dou2.gif)
如果想知道
![](/icons/32976yi.gif)
个分词系统
![](/icons/32976de.gif)
准确性
![](/icons/32976dou.gif)
我们也需要
![](/icons/32976yi.gif)
些人工分好词
![](/icons/32976de.gif)
句子进行测试
![](/icons/32976dou2.gif)
这些人工处理好
![](/icons/32976de.gif)
文字数据库
![](/icons/32976dou.gif)
成为语料库 (corpus)
![](/icons/32976dou2.gif)
如果每个研究室都人工建立几个语料库
![](/icons/32976dou.gif)
不仅浪费时间精力
![](/icons/32976dou.gif)
而且发表文章时
![](/icons/32976dou.gif)
数据没有可比性
![](/icons/32976dou2.gif)
因此
![](/icons/32976dou.gif)
马库斯想到了建立
![](/icons/32976yi.gif)
系列标准
![](/icons/32976de.gif)
语料库为全世界
![](/icons/32976de.gif)
学者用
![](/icons/32976dou2.gif)
他利用自己
![](/icons/32976de.gif)
影响力让美国自然科学基金会和 DARPA 出钱立项
![](/icons/32976dou.gif)
联络
![](/icons/32976de.gif)
多所大学和研究机构
![](/icons/32976dou.gif)
建立
![](/icons/32976de.gif)
数百个标准
![](/icons/32976de.gif)
语料库
![](/icons/32976dou2.gif)
其中最著名
![](/icons/32976de.gif)
是 PennTree Bank
![](/icons/32976de.gif)
语料库
![](/icons/32976dou2.gif)
PennTree Bank 覆盖多种语言(包括中文)
![](/icons/32976dou2.gif)
每
![](/icons/32976yi.gif)
种语言
![](/icons/32976dou.gif)
它有几十万到几百万字
![](/icons/32976de.gif)
有代表性
![](/icons/32976de.gif)
句子
![](/icons/32976dou.gif)
每个句子都有
![](/icons/32976de.gif)
词性标注
![](/icons/32976dou.gif)
语法分析树等等
![](/icons/32976dou2.gif)
LDC 语料库如今已成为全世界自然语言处理科学家共用
![](/icons/32976de.gif)
数据库
![](/icons/32976dou2.gif)
如今
![](/icons/32976dou.gif)
在自然语言处理方面发表论文
![](/icons/32976dou.gif)
几乎都要提供基于 LDC 语料库
![](/icons/32976de.gif)
测试结果
![](/icons/32976dou2.gif)
马库斯给予他
![](/icons/32976de.gif)
博士生研究自己感兴趣
![](/icons/32976de.gif)
课题
![](/icons/32976de.gif)
自由
![](/icons/32976dou.gif)
这是他的所以桃李满天下
![](/icons/32976de.gif)
原因
![](/icons/32976dou2.gif)
马库斯对几乎所有
![](/icons/32976de.gif)
自然语言处理领域有独到
![](/icons/32976de.gif)
见解
![](/icons/32976dou2.gif)
和许多教授让博士生去做他拿到基金
![](/icons/32976de.gif)
项目
![](/icons/32976dou.gif)
马库斯让博士生提出自己有兴趣
![](/icons/32976de.gif)
课题
![](/icons/32976dou.gif)
或者用他已有
![](/icons/32976de.gif)
经费支持学生
![](/icons/32976dou.gif)
或者为他们
![](/icons/32976de.gif)
项目区申请经费
![](/icons/32976dou2.gif)
马库斯高屋建瓴
![](/icons/32976dou.gif)
能够很快
![](/icons/32976de.gif)
判断
![](/icons/32976yi.gif)
个研究方向是否正确
![](/icons/32976dou.gif)
省去了博士生很多 try-and-error
![](/icons/32976de.gif)
时间
![](/icons/32976dou2.gif)
因此他
![](/icons/32976de.gif)
学生有些很快地拿到
![](/icons/32976de.gif)
博士学位
![](/icons/32976dou2.gif)
作为系主任
![](/icons/32976dou.gif)
马库斯在专业设置方面显示出卓识
![](/icons/32976de.gif)
远见
![](/icons/32976dou2.gif)
我有幸和他在同
![](/icons/32976yi.gif)
个校务顾问委员会任职
![](/icons/32976dou.gif)
![](/icons/32976yi.gif)
起讨论计算机系
![](/icons/32976de.gif)
研究方向
![](/icons/32976dou2.gif)
马库斯在几年前互联网很热门、很多大学开始互联网研究时
![](/icons/32976dou.gif)
看到 bioinformatics (生物信息学)
![](/icons/32976de.gif)
重要性
![](/icons/32976dou.gif)
在宾夕法利亚大学设置这个专业
![](/icons/32976dou.gif)
并且在其他大学还没有意识到时
![](/icons/32976dou.gif)
开始招聘这方面
![](/icons/32976de.gif)
教授
![](/icons/32976dou2.gif)
马库斯还建议
![](/icons/32976yi.gif)
些相关领域
![](/icons/32976de.gif)
教授
![](/icons/32976dou.gif)
包括后来
![](/icons/32976de.gif)
系主任皮耶尔把
![](/icons/32976yi.gif)
部分精力转到生物信息学方面
![](/icons/32976dou2.gif)
马库斯同时向他担任顾问
![](/icons/32976de.gif)
其他
![](/icons/32976yi.gif)
些大学提出同样
![](/icons/32976de.gif)
建议
![](/icons/32976dou2.gif)
等到网络泡沫破裂以后
![](/icons/32976dou.gif)
很多大学
![](/icons/32976de.gif)
计算机系开始向生物信息学转向
![](/icons/32976dou.gif)
但是发现已经很难找到这些方面好
![](/icons/32976de.gif)
教授了
![](/icons/32976dou2.gif)
我觉得
![](/icons/32976dou.gif)
当今中国
![](/icons/32976de.gif)
大学
![](/icons/32976dou.gif)
最需要
![](/icons/32976de.gif)
就是马库斯这样卓有远见
![](/icons/32976de.gif)
管理者
![](/icons/32976dou2.gif)
过几天我又要和马库斯
![](/icons/32976yi.gif)
起开顾问委员会
![](/icons/32976de.gif)
会议了
![](/icons/32976dou.gif)
不知道这次他对计算机科学
![](/icons/32976de.gif)
发展有什么见解