三个雷怎么读?男女男念什么?开火是什么字?……相信有不少人都曾经被这样的问题所困惑过。要知道,中国的汉字常用的有4千左右,总数却超过8万,生僻字远远超过常用字,遇到一些不会读、不会输入的生僻字不足为奇。
最近,百度新上线了一项查生僻字的框计算应用,面对不认识的生僻字,网民不用输入这个字本身,而是只需要向搜索框提交对字形和结构的描述,例如上文中的“三个雷”、“ 男女男”,就可以直接检索到这个字的准确读音及注释。
这项应用看似简单,实际上,却标志着百度的框计算已经突破了针对完整文字进行匹配的传统检索时期,进入了更加精准、智能和人性化的语义搜索时代。
-想深入了解什么是文本语义搜索吗?
-想要建立自己的语义搜索的有效索引算法吗?
-想跟中国名牌大学教授学习流行的计算机语言吗?
湃普思留学携手上海市科技术翻译协会和上海理工大学的教授开放项目部分适合高中生参加的环节。快来和教授一起做科研吧,分析后续轨迹数据,并开发出相应的软件!
项目导师是谁?
上海知名大学教授
研究生导师
中国计算机学会会员
学术项目研究什么?
文本数据作为互联网上最广泛的数据表达形式,蕴涵着大量有用信息,文本数据分析已成为研究热点。文本分析首先要完成的是语义搜索,以实现基于关键词的快速文本检索。本子项目在对文本进行分词的基础上,通过倒排方式建立文本索引,以提升文本检索效率。本项目旨在研发出倒排文件支持下文本语义搜索引擎软件系统。在参与项目的同时,使学生掌握应用数学的基本理论与方法,接受数学模型设计、数理统计、计算机编程和项目工程实施等各方面的科学思维方法训练。
学术项目产出:
一、能力提升
1. 信息学科专业素养的提升,加深对“大数据”的理解、初步掌握AI 的部分技能、文献查阅能力的提升
2. 动手实践、软件开发能力的提升
3. 掌握数学科学的基本理论和方法,具备运用数学知识并使用计算机解决实际问题的能力,受到科学研究的初步训练
4. 科研思维训练,提出问题、解决问题的能力提升
二、证书和评价类产出
1. 由该国家自然科学基金项目的负责人上海理工大学教授就学生子项目作出评价
2. 指导老师就学生的学习研究过程和研究能力,结合实际情况作出评价
3. 撰写的研究报告
由于本课题处于领域前沿,需要进行算法设计和分析,有一定难度,而且还要进行软件系统开发,因而适合具备一定数学基础和编程基础的中学生或具备数学基础,对计算机编程有较浓兴趣的学生参加,具体要求如下:
1. 初三至高二
2. 至少熟悉一种编程语言,喜欢数学、统计和计算机编程。