聚焦AI数据开放共享百度技术委员会主席吴华分享千言开源进展

来源：光明网2021-07-09 17:34

　　7月8日，以“智联世界，众智成城”为主题的2021世界人工智能大会（WAIC）在上海正式开幕。今年大会邀请多位图灵奖得主、数十位学界专家、产业界大咖以及百余位行业领军人物等全球AI领域的重磅嘉宾，就AI技术开源、应用创新、人才培养等议题展开深度对话。作为国内AI“头雁”，百度也全方位参与大会多个环节，围绕AI生态发展、前沿科技以及AI人才等话题分享洞见。

　　当前，数据已经成为了人工智能技术发展的重要生产要素，促进数据开放共享，对提升人工智能技术水平价值巨大。7月9日，在“AI时代数据开放共享创新论坛”上，数字技术开源生态探索暨白玉兰开源合作伙伴签约仪式举行，百度飞桨也参与其中，助力中国开源生态的共建。在随后的主题演讲环节，百度技术委员会主席吴华分享了百度开源数据集“千言”的发展近况和创新成果。

　　百度技术委员会主席吴华

　　吴华首先回顾了百度开源数据BRORD和“千言”的发展历程，她表示，在人工智能领域，数据至关重要。百度自2017年启动了AI公开数据集计划“BROAD”(Baidu Research Open-Access Dataset)，并于2020年发布了中文开源数据集“千言”。截至目前，百度开源开放的数据集已涵盖了交通类多场景的细分数据集、大规模自然语言处理及知识图谱数据集、来自真实视频/OCR业务的数据集以及行业数据集等。

　　吴华提到，目前的许多技术研发仅关注模型在单一数据集上的效果，然而自然语言处理技术在大规模产业化的应用中，面临着多领域、多场景等诸多挑战，具体可分为三大维度：全面性，即处理多个子任务的能力；泛化性，即跨领域数据上有泛化能力；鲁棒性，即模型或系统是否足够健壮。

　　为了解决自然语言技术发展中所面临的挑战，百度、中国计算机学会、中国中文信息学会共同发起了“千言”数据共建计划。“千言”项目作为面向自然语言处理的中文开源数据共建项目，针对每个自然语言处理任务，均收集和整理多个开源数据集，进行统一的处理并提供统一的测评方式。“千言”项目期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价，可支持复杂知识构建、语义理解、语言生成、知识融合、多模态融合等丰富的任务类型。

　　目前，“千言”项目已经针对8个任务，汇集了来自哈工大、清华、华为、中科院信息工程研究所等在内的11所高校和企业的28个开源数据集。此外，为了使“千言”能够提供一站式的数据浏览、下载和评测的科研体验，百度还对所有数据进行了处理，每个任务都有统一的数据格式和评测，并在此基础上提供了基线系统，帮助加速模型的研发。

　　吴华还表示，在未来3年中，“千言”计划面向超20个任务，收集和建设不少于100个中文自然语言处理数据集，全面覆盖应用系统、语言理解、语言生成、知识图谱、多模态等多个领域。同时，也期待更多数据集作者能够加入共建，共同推动中文信息处理技术的进步。

　　作为面向自然语言理解和生成任务的中文开源数据集合，为更好地支持NLP技术的发展和创新，“千言”项目连续多届支持了语言与智能技术竞赛以及CCF大数据与计算智能大赛。其中，2021语言与智能技术竞赛中，竞赛基于“千言”数据集，源于真实应用需求设置了机器阅读理解、多技能对话、多形态信息抽取三大任务。吴华在演讲中以其中的两大命题——机器阅读理解、多技能对话为例，详细论述了“千言”在检验模型的全面性、鲁棒性的优越性，并凭此从而推动技术更好地适应多领域、多场景的产业应用。

　　产教融合是当前AI时代数据开源开放的另一重要话题。百度飞桨作为我国首个自主研发、功能丰富、开源开放的产业级深度学习平台，在“千言”等开源数据集的支持下正在积极赋能推动AI技术的开放共享，不仅推出一系列自然语言处理的配套课程，还基于丰富的产业实践助力高校体系化开设AI课程，在高校人工智能实践课的开展中新增开放了包含人工智能全技术方向和产业应用方向的50多个实战案例,到7月底将累积超过100个。未来，百度将持续关注科研和产业实践的创新发展，推动AI开放共享，融合创新。（李文）

[ 责编：李汶键 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

习近平会见尼泊尔总理奥利
多种活动迎接国家宪法日

最热文章

推荐阅读

河南南阳：冬日景美如画

2024年11月30日，初冬时节，河南省南阳卧龙岗文化园内，树木换上"新装"，宛如一幅五彩斑斓的画卷，吸引不少市民、游客前往赏景。

2024-11-30 18:34

理响中国·讲好“中国式商量”故事｜助老食堂一餐热饭温暖银龄幸福“食”光

民以食为天，一日三餐承载着居民的幸福感。

2024-11-27 18:59

理响中国·讲好“中国式商量”故事｜巧借社区议事会架起居民连心桥

政协协商与基层社会治理的衔接，可实现协商于民协商为民，让全过程人民民主更好的在基层体现。

2024-11-24 22:51

湖南浏阳：链长带队忙招商，喜迎浏商回家乡

11月12日至13日，浏阳市委常委、组织部部长、市家居建材产业链链长唐安石带队，市人大常委会党组副书记、副主任、市家居建材产业链副链长张葵红，市人民政府党组成员、副市长、市家居建材产业链副链长谢波等同志参加，赴广东省佛山市开展家居建材产业链招商考察活动。

2024-11-15 17:20

向日葵绽放迎客来

2024年11月12日，江苏省苏州市荷塘月色湿地公园内向日葵竞相绽放，吸引众多游客前来观赏，乐享秋日美景

2024-11-13 15:29

湖南通道：山林如画

2024年11月12日，湖南省怀化市通道侗族自治县双江镇的烂阳村，山林色彩斑斓，红叶似火，黄叶如金，松柏常青，宛如大自然的调色盘

2024-11-13 15:28

昔日“烂泥湾” 如今好江南

南泥湾是中国军垦、农垦事业的发祥地，是“自力更生、艰苦奋斗”创业精神的发源地。

2024-10-27 17:37

高端装备制造让资源开采“煤”问题

延安地区拥有丰富的煤炭资源，在采矿井约40家，年开采量约5000万吨，但煤质坚硬、自动化程度低等难题严重制约着煤炭产业的发展。

2024-10-27 17:18

高品质的“金苹果”

近日，在陕西延安举行的“弘扬延安精神，奋进伟大时代” 网上主题宣传系列访谈中，洛川青怡庄园生物科技有限公司副总裁肖小杰介绍，他们企业的苹果按个卖，一个可以卖到10元。

2024-10-25 18:49

延安大学毕业生夫妻返乡创业

堆积起来的生菌木材冒着热气儿，菌种生产厂房里机器轰鸣，滑子菇大棚里农民忙着收“金疙瘩”。

2024-10-25 18:43

老旧改造成效显群众个个喜笑颜

你以为的农村是雨天泥泞，还是道路整洁？爬高上低，还是风景无限？高家原则将山体沟道治理作为城市有机更新和创建文明典范城市抓手，让山体沟道，环境大改善。

2024-10-24 18:11

王珊珊：从卖苹果到卖服务是数字技术与产业的深度结合

近日，在陕西延安举行的“弘扬延安精神，奋进伟大时代” 网上主题宣传系列访谈中，延安大学经济与管理学院副教授、数字经济专业负责人王珊珊介绍，从卖苹果到卖服务，这是数字技术非常好的一个创新，和产业结合的非常有深度。通过消费者与大自然以及果树的亲密视觉接触，可以提升他们的体验感，增加对苹果这种产品的客户粘性和客户忠诚度。

2024-10-24 18:08

当陕北说书遇到延安美食，碰撞出延安独特的人文魅力

当陕北说书遇到延安美食，碰撞出延安独特的人文魅力。

2024-10-24 18:06

来宝塔山下唱红歌，情怀瞬间拉满了！

激昂的旋律回荡在空气中，豪迈的歌声飞扬于天地间。壮丽的情怀澎湃在心田里，不朽的精神传承于岁月中……

2024-10-24 17:59

小孩哥小孩姐把安塞腰鼓课间操跳得超燃！

2024-10-24 17:59

站在延安的山，分不清是陕北还是陕南

青山环绕、绿水蜿蜒，这是吴起南沟村给记者们留下的第一印象。谁能想到，这个位于陕西省延安市吴起县的小村庄，曾经风沙肆虐、植被稀疏。经过二十多年艰辛努力，光秃秃的黄土高坡绿意盎然。

2024-10-24 17:50

延安菌舰助力乡村振兴

在宝塔区河庄坪镇政府的扶持下，延安菌舰生物科技有限公司采用“企业+合作社+农民”模式，带动400余人家门口就业，人均增收2000元。食用菌产业的蓬勃发展，不仅为农民带来稳定收入，更为乡村振兴注入活力。点赞延安菌舰，为农民增收，为乡村添彩！

2024-10-24 17:48

延安新材料产业园也太有料

10月23日，“弘扬延安精神奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园，亲身体验石墨烯发热背心，感受科技的温暖拥抱。

2024-10-24 11:18

绿水青山铺就乡村振兴新画卷

近期，延安市薛张小流域水土保持项目碳汇交易成功！这不仅是一次生态保护与经济发展的双赢，更为延安乡村振兴注入了新的活力！

2024-10-24 11:16

媒体团助果农直播半小时卖千斤苹果

10月22日，“弘扬延安精神奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地，在这里记者们亲身体验苹果采摘，倾听果农的心声。同时，记者团还开展了一场特别的直播带货活动，助力果农销售苹果。此次活动不仅展现了果农的辛勤付出，也让更多人了解到延安苹果的魅力，为乡村振兴贡献了一份力量。

2024-10-24 11:07

加载更多

全部导航

聚焦AI数据开放共享百度技术委员会主席吴华分享千言开源进展

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划

全部导航

聚焦AI数据开放共享 百度技术委员会主席吴华分享千言开源进展

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划

聚焦AI数据开放共享百度技术委员会主席吴华分享千言开源进展