珞珈论语 |《基于NLP自然语义处理的机器学习算法》研讨会论坛成功举办

武汉大学经济与管理学院
2021-12-03 16:40 浏览量: 2310

基于NLP自然语义处理的机器学习算法

近日,武汉大学经济与管理学院珞珈论语《基于NLP自然语义处理的机器学习算法》研讨会在线上成功举办。

本次论坛由武汉大学2020级MEM商业/金融数据分析工程管理专业研究生尹俊主讲,来自武汉大学2020级MEM商业/金融数据分析工程管理专业部分研究生参加了研讨会。

论坛讲了四个部分:

NLP是什么

NLP(Natural Language Processing)是人工智能(Al)的一个子领域。机器,人,动物都有自己的沟通语言,不同的语言之间无法直接沟通。

不同人类语⾔之间可以通过翻译互相理解,⼈类和机器之间也可以通过“翻译”的方式来直接交流。NLP 就是⼈类和机器之间沟通的桥梁。

人类的语言,文章文本是非结构化数据,NLP是通过算法处理让机器能够理解和处理非结构化的人类语言和文字文章。

NLP处理的过程和算法介绍

2.1、文本预处理

文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。

英文文本预处理:英文文本的分词处理相对简单,语义单元可以是单词,谚语,短语。

中文文本预处理:中文文本分词,文本切分成构成文本的基本语义单元:可以是句子、成语、短语、词语或单个的字。

分词方法:基于词典的中文分词,基于统计的中文分词方法,基于理解的分词方法:基于理解的分词。

2.2、去除停用词

停用词包括一些连接词、副词、形容词。去除这些词可以改善机器学习效果:(在英文中例如:“for”、“with”、 “as”、“to” 、“the”、“of”等,在中文中例如:“的”、“得”、“啊”、“了”、“哦”、“因此”等)。

2.3、文本特征提取

1、词袋模型(BOW):

思想:用无序的单词序列来表达一段文字或者一个文档,按照词语出现的次数来表示文档。

问题:(1)维度太大,语料库太大,导致计算困难。(2)仅考虑词语出现的次数,语义信息未考虑

2、TF-IDF文本特征提取

TF-IDF 由两部分组成:TF(Term frequency,词频),IDF(Inverse document frequency,逆文档频率)两部分组成,TF 是词频,每一个文档中出现的词语的次数越多词语的重要性更大。IDF是体现词语在文档间的重要性即如果某个词语出现在极少数的文档中,说明该词语对于文档的区别性强,对应的特征值高,IDF值高。

3、特征选择和分类器

NLP任务非常重要的一步就是特征提取(降维)。常用的word2vec主要是CBOW和skip-gram两种模型。word2vec通过训练大量的语料最终用定维度的向量来表示每个词语,词语之间语义和语法相似度都可以通过向量的相似度来表示。

● 基于特征工程 + 分类算法 :机器学习算法中能用来分类的模型常见的有:聚类算法(kmeans,optics,DBSCAN),随机森林模型(RF),朴素贝叶斯分类器(Naive Bayes),SVM分类模型,KNN分类模型模型,Logistic regression (逻辑回归),梯度提升决策树(GBDT)等。

●基于词向量 + 神经网络:

词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。生成词向量的方法从一开始基于统计学到基于神经网络的语言模型,比较经典的语言模型:word2vec、FastText、TextCNN、TextRNN、RCNN、HAN、Bert(Google发表的BERT模型,目前为止,在NLP大赛中有最好表现)。

NLP的4个典型应用

舆情分析

舆情行业是个新兴行业,近年来发展特别迅猛,各级机构,企事业单位,KOL个人都非常关注网络舆情。互联网上有大量的文本信息,评论数据。通过NLP机器学习算法进行分析,可以快速了解和预测网络舆论走向。电商网站评价的情感分析也是舆情分析的一个方向,对于指导产品更新迭代具有关键性作用。

指令

目前计算机已经可以理解人的简单语音指令。比如汽车里面的语音导航,百度智能音响指令。机器识别人的复杂语音指令,通过人的语音识别人的情绪,识别人的讽刺反话语义将成为可能。未来语音搜索将应用更加广泛。

机器人客服

人的意图被识别以后,自然的对话就可以借此实现了。人类意图识别本质上也是一个分类问题,意图识别工作最大的难点其实是在于标注数据的获取。目前标注数据的获取主要是专门的数据标注团队对数据进行标注,未来通过半监督的方式自动生成标注数据的方式将越来越多。机器人客服上线之后有很多人用,得到了有很多人的反馈,在与客户互动中,不断学习并更新迭代。

机器翻译

目前Google 翻译基本比较准确了。虽然在专业技术论文翻译,高端商务活动方面机器翻译暂无法完全准确,但是可以作为非常给力的辅助。随着技术的发展,机器翻译的应用也将更加广阔。

NLP可以应用在各行各业

只要有文本的地方,就有NLP技术的用武之地。当前社会以文本形式积累了海量数据,使得NLP不仅仅是一种计算机技术,而是一个可以融合应用在全部社会科学和自然科学领域的技术。

金融领域:上市公司财报,金融新闻,股吧的评论数据的提取和分析。

工商领域:利用工商总局公开信息,数据提取和分析相关公司信息。

法律领域:裁判文书网上海量的裁判文书的读取和分析。

数字健康领域:病例数据,体检数据的读取和分析。

制药行业:从海量研究文档中提取信息,以查证过去的实验结果。

NLP自然语义处理是⼈工智能领域皇冠上的明珠。NLP也是人工智能未来应用最为广泛的领域之一。NLP自然语言处理未来将应用在社会生活中的方方面面,提高社会生产和协作效率,造福我们的生活。

《珞珈论语》理事会招募会员+志愿者15名,有意向同学可以联系,理事会会长尹俊的邮箱:yinjun20@whu.edu.cn

珞珈论语论坛(MEM商业数据分析方向)往期推荐:(点击下方文字即可阅读)

第一期:2021/07/10 倪阅其《大数据透视房地产》

第二期:2021/07/25 王丰《漫谈大数据》

第三期:2021/08/01陈炯昊《大数据驱动的行业案例探讨》

第四期:2021/08/07陈景《车联网的发展现状及大数据应用》

第五期:2021/08/21傅骏《商业数据在供应链金融中的实践分享》

第六期:2021/08/28《从〈理想之城〉看大数据时代的工程造价

第七期:2021/09/04 孙涛《智慧城市基于语义智能的多数据融合治理》

第八期:2021/09/05 陆泉(教授 博导)《数字赋能智慧健康》

第九期:2021/09/08 刘波《数据时代的个体价值》

第十期:2021/09/11 辩论赛《大数据时代让人更自由还是更不自由?》第十一期:2021/10/18 刘博(同济医院)《大数据背景下肿瘤的预防和诊断》第十二期:2021/10/25 王中兴《数据分析与品牌电商》第十三期:2021/10/30 胡桂玲《大数据提升国际物流运营效率》第十四期:2021/11/08 粟四维(英国利物浦大学博导)《让人生更精彩的旅行体验》第十五期:2021/11/10 郭峰(上海财经大学 副教授)《池鱼之殃:上市公司社交媒体联结与股价溢出效应》第十六期:2021/11/13 贾鹏飞《我的武汉大学研究生求学经历》

大数据论坛邮箱:yinjun20@whu.edu.cn

-END-

图、文 I 20级MEM尹俊

编辑 I 盛贵

MBA/EMBA/MPAcc/MEM招生

咨询电话: 027-68755136 , 027-68755129;

咨询邮箱:mba@whu.edu.cn;

官方网站:http://ems.whu.edu.cn/

联系人:张老师,周老师,段老师

启思明德 谋道励行

编辑:凌墨

(本文转载自 ,如有侵权请电话联系13810995524)

* 文章为作者独立观点,不代表MBAChina立场。采编部邮箱:news@mbachina.com,欢迎交流与合作。

收藏
订阅

备考交流

免费领取价值5000元MBA备考学习包(含近8年真题) 购买管理类联考MBA/MPAcc/MEM/MPA大纲配套新教材

扫码关注我们

  • 获取报考资讯
  • 了解院校活动
  • 学习备考干货
  • 研究上岸攻略

最新动态