专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » 数学之美系列二:数学的美系列 2十:自然语言处理的教父 马库斯 »正文

数学之美系列二:数学的美系列 2十:自然语言处理的教父 马库斯

来源: 发布时间:星期一, 2010年1月25日 浏览:0次 评论:0
  我们在前面系列中介绍和提到了些年轻有为科学家迈克尔·柯林斯艾里克·布莱尔大卫·雅让斯基拉纳帕提等等他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下就像许多武侠小说中描写弟子都成了各派掌门师傅定了不得马库斯虽然作为第作者发表论文并不多但是从很多角度上讲他可以说是自然语言处理领域教父

  马库斯教授长期当任宾夕法尼亚大学计算机系主任直到他在几年前从 AT&T 找到皮耶尔替代他为止作为个管理者马库斯显示出在自然处理和计算机科学方面卓识远见在指导博士生时马库斯发现语料库在自然语言处理中重要性马库斯呕心沥血花了十几年工夫建立了系列标准语料库提供给全世界学者使用这套被称为 LDC 语料库是当今全世界自然语言处理所有学者都使用工具我们在以前系列中讲到当今自然语言处理几乎都是使用给予统计思路方法要做统计就需要大量有代表性数据利用这些数据开发个自然语言处理系统过程可以统称为训练比如我们要训练个汉语分词系统我们需要些已经分好词中文句子当然这些句子需要有代表性如果想知道个分词系统准确性我们也需要些人工分好词句子进行测试这些人工处理好文字数据库成为语料库 (corpus)如果每个研究室都人工建立几个语料库不仅浪费时间精力而且发表文章时数据没有可比性因此马库斯想到了建立系列标准语料库为全世界学者用他利用自己影响力让美国自然科学基金会和 DARPA 出钱立项联络多所大学和研究机构建立数百个标准语料库其中最著名是 PennTree Bank 语料库PennTree Bank 覆盖多种语言(包括中文)种语言它有几十万到几百万字有代表性句子每个句子都有词性标注语法分析树等等LDC 语料库如今已成为全世界自然语言处理科学家共用数据库如今在自然语言处理方面发表论文几乎都要提供基于 LDC 语料库测试结果

  马库斯给予他博士生研究自己感兴趣课题自由这是他的所以桃李满天下原因马库斯对几乎所有自然语言处理领域有独到见解和许多教授让博士生去做他拿到基金项目马库斯让博士生提出自己有兴趣课题或者用他已有经费支持学生或者为他们项目区申请经费马库斯高屋建瓴能够很快判断个研究方向是否正确省去了博士生很多 try-and-error 时间因此他学生有些很快地拿到博士学位

  作为系主任马库斯在专业设置方面显示出卓识远见我有幸和他在同个校务顾问委员会任职起讨论计算机系研究方向马库斯在几年前互联网很热门、很多大学开始互联网研究时看到 bioinformatics (生物信息学)重要性在宾夕法利亚大学设置这个专业并且在其他大学还没有意识到时开始招聘这方面教授马库斯还建议些相关领域教授包括后来系主任皮耶尔把部分精力转到生物信息学方面马库斯同时向他担任顾问其他些大学提出同样建议等到网络泡沫破裂以后很多大学计算机系开始向生物信息学转向但是发现已经很难找到这些方面好教授了我觉得当今中国大学最需要就是马库斯这样卓有远见管理者

  过几天我又要和马库斯起开顾问委员会会议了不知道这次他对计算机科学发展有什么见解

0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: