《领域大数据系列讲座》之“人工智能数据要素建设与服务”

国科大MBA
2021-12-06 12:08 浏览量: 1870

2021年11月26日,《领域大数据系列讲座》第八期以线上形式举办。数据堂(北京)科技股份有限公司创始人、CEO齐红威先生应邀给同学们带来了题为“人工智能数据要素建设与服务”的主题讲座。

齐红威,数据堂创始人、CEO。2003-2011年间,担任NEC中国研究院智能信息处理研究部部长、高级研究员。2004年,获中科院自动化所人工智能与模式识别专业博士学位;2004-2006年,中科院计算技术研究所博士后;2007-2008年,斯坦福大学计算机访问学者。主要专注人工智能数据服务,联邦数据与联邦服务。

本次讲座从“数据产业的发展概况”、“智能数据的应用场景”、“智能数据生产与处理”、“联邦数据与联邦智能” 、“数据要素市场的发展现状和问题”五方面展开。齐红威博士结合自己20余年的研究与工作经历,对数字经济与数据产业作了详细而精彩的讲解。

齐红威博士首先对数据产业的发展概况作了详细的解读,并对数据产业发展的两个阶段进行了分析与总结。

1

数据产业发展第一阶段是2011年至2017年,大数据、数据交易、征信&风控&营销&政务在这一阶段起到了核心作用。这一阶段的主要特点是将结构化数据以大规模统计分析方式得出风控、爱好等信息,并以数据汇聚的模式来进行数据交易。但与此同时,数据的流动也带来了安全、隐私、版权、跨境等一系列不可解决的问题。

2

数据产业发展第二阶段则开始于2017年,并持续至今。2017年,我国出台了网络安全发、个人隐私法,数据产业由此经历了一个快速调整期。在提出数字经济、数据要素智能化后,数据产业进入第二轮的发展期。这一阶段的主要特点是将语音、视频、文本等非结构化数据采用人工智能技术智能处理、识别、判断等,在法律法规的约束下,数据不流动,算法模型流动,不再以数据汇聚的模式进行交易,即数据可用不可见。

随后,齐红威博士对智能数据的七个应用场景作了展示和分析,并表示智能数据在现在的产业发展中无孔不入,但现阶段我国乃至全球发展人工智能及其落地的应用场景相对有限,未来将会有更多的机会和场景看到人工智能的应用。

01

第一个场景是自动驾驶数据采集标注。通过自动驾驶摄像头采集路面场景,如指示牌、路灯等信息,将这些大规模的道路场景进行标注、训练,在一些特定场景下,其安全性能可以超越人类。此外,还可以通过一定规模的驾驶员数据训练如驾驶员的行为及人脸属性,通过技术分析检测驾驶员状态是否属于安全驾驶行为,从而实现主动提醒驾驶员的功能。

2

第二个场景是生物识别数据采集标注。通过对一人多照的数据、跨年龄段及不同摄像头下&化妆前后的人脸数据进行识别训练,结果可以应用在各种各样的人脸识别、检测场景中,比如各大手机厂商的face ID、智能安防、高铁及机场安检、酒店的身份核验等场景。

3

第三个场景是语音识别&合成数据采集标注。齐红威博士以数据堂举例,数据堂采集了全球50多个国家各种各样的语音数据,比如欧洲语系的法语、西班牙语,亚洲语系的日语、越南语,以及各个国家的英语语音、我国不同口音的普通话语音数据,通过对这些语音数据进行精细处理,结果可以应用于智能音响、语音输入法、智能家居、智能车载、客服语音助手等场景。

4

第四个场景是智能安防数据采集标注。智能安防的核心是分析监控下的人、物、异常状况等。从应用场景来看,可以分为三类,分别为大场景、中场景、小场景。大场景包括道路监控等的城市级智能安防,典型特点摄像头位置较高,识别清晰度低。中场景包括4S店、银行营业厅及政府办公大厅等,典型特点场景相对受限,摄像头位置较低,清晰度较高。小场景包括家庭内、电梯间安装监控,场景更受限,摄像清晰度更高。

05

第五个场景是OCR数据采集标注。通过OCR技术支撑,智能化识别办公场景中的票据、单据,还有我们常用的手写输入法、文档的扫描,以及学校使用的考卷分析。齐红威博士表示,自动识别考卷内容都是智能化手段和技术的应用场景。

6

第六个场景是缺陷数据采集标注。通过对缺陷品数据采集标注,用智能化手段辅助人工或代替人工,提高工作效率及精细度。此类技术可应用在高铁检修、手机屏幕的检测等场景。

7

第七个场景是医疗影像数据采集标注。通过足够多的训练样本,可以实现自动诊断。现阶段一些法律法规的要求未能大规模的铺开使用,但在未来的医疗领域是有一定的发展趋势。

在介绍完数据产业发展阶段及智能数据的应用场景后,齐红威博士对智能数据生产与处理进行了介绍。齐红威博士透露,建设大规模数据采集与标注平台,进行图像、视频、语音及文本多模态数据处理,大致分为如下几个步骤:

01

第一步数据获取:众包模式采集数据;实际业务产生的数据;互联网挖出的数据。

2

第二步数据自动处理,现在的算法对数据的规模需求越来越大,比如人脸数据由最初的几千人发展到几十万人甚至上百万的数据规模,这种大规模的数据人为标注处理是做不到的,需要智能化处理-自动标注,自动标注的精度可以达到80%以上,再提高精度可以通过人机交互的标注或校对工具实现。

3

第三步数据质检,机器质检--预置探针数据(标注结果和答案),机器自动质检,统计数据标注的正确率;还可以通过高效率的人机交互截面,人工质检,统计数据标注的正确率。

随着国家与社会层面对数据安全与个人隐私保护要求越来越高,数据安全与保护变得愈发重要。针对这一发展趋势,齐红威博士在联邦数据与联邦智能这一部分作了详细的讲解。

齐红威博士表示,传统的数据流动的服务方式与安全、隐私、保密要求冲突越来越严重,需要寻找新的数据利用模式,即保证原始数据安全,又能充分利用数据价值。联邦模式的本质在于,利用算法或模型对数据进行分析,得到有价值的结果。在这个过程中,数据不动算法动,这样既满足安全隐私要求,又有效利用数据的价值。联邦数据作为一种新的数据服务模式,可以使得各方在不披露原始数据的情况下建立联邦共享。

最后,齐红威博士对数据要素市场的发展现状和问题作了分析。齐红威博士表示,数据流动需要建立市场,地方政府、国家部委、研究机构等多方也开始讨论和实践数据要素市场,但都不可避免的触及到了核心,即传统的数据汇聚方式解决不了安全隐私法律问题。对此很多交易市场还没有形成清晰的整体思路和解决方案。

与此同时,数据要素市场发展也存在一些问题。

1

要素层面,数据要素涵盖领域多,没有理清市场流动的数据;我们需要分清对象,定位清晰,精准到产业领域。

2

生态层面,数据要素市场需要多方参与,角色分工不明确。各方必读统筹、数据、运用、需求、监管等需要分工协作。

3

安全层面,数据汇聚解决不了安全,我们需要另寻他途,比如建立分布式操作系统-数据不动模型动,在这样的机制下进行数据共享,统一规则管控,有效运转起来。

4

标准层面,数据质量/服务标准没有,不同领域的数据标准是不一样的。

5

政策层面,缺乏清晰的引导/扶持/服务政策;良好的政策引领产业向正确方向发展,并可加快发展速度。

数据产业作为一个全新的朝阳产业,发展过程中必然会经历调整和洗礼。目前,数据产业尚处于发展的初始阶段。相信经过未来不断的调整,数据产业有改变其他不同产业的新的战略机会。

背景链接

领域大数据系列讲座是中国科学院大学人工智能与应用MBA项目核心课程之一,旨在通过邀请国内外人工智能研究领域顶尖专家学者及头部企业首席技术专家等嘉宾进行分享,力图为同学们构建一个人工智能从理论到实践的宏大框架与实际应用的感性认识。

人工智能与应用MBA项目

该项目秉承中国科学院大学“科教融合”的办学理念和大力发展交叉科学,建设新文科、新工科的学科建设目标,依托于中科院相关院所在大数据、人工智能领域的优势科研资源和一流师资队伍,于2019年在中国科学院大学MBA项目中新设置了人工智能及其应用MBA项目,同时也是国内第一个人工智能特色MBA项目。在9月发布的2021年(第十九届) “中国最具影响力MBA排行榜”及2021年“中国MBA最具特色项目”榜单中,国科大人工智能与应用MBA项目荣获2021年“中国MBA最具特色项目”单项大奖。

国科大MBA

扫二维码|关注我们

图 文|崔 慢

责 编|罗 浩

编 辑|MBA教育管理中心

编辑:葛格

(本文转载自 ,如有侵权请电话联系13810995524)

* 文章为作者独立观点,不代表MBAChina立场。采编部邮箱:news@mbachina.com,欢迎交流与合作。

收藏
订阅

备考交流

免费领取价值5000元MBA备考学习包(含近8年真题) 购买管理类联考MBA/MPAcc/MEM/MPA大纲配套新教材

扫码关注我们

  • 获取报考资讯
  • 了解院校活动
  • 学习备考干货
  • 研究上岸攻略