农业知识图谱项目汇报.pptx
《农业知识图谱项目汇报.pptx》由会员分享,可在线阅读,更多相关《农业知识图谱项目汇报.pptx(31页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、*农业农业农村大数据魔方农村大数据魔方农业知识图谱项目介绍农业知识图谱项目介绍目录目录2项目展示目展示2系系统架构架构3背景介背景介绍1知识图谱(知识图谱(Knowledge Graph)3知识图谱是大规模的语义网络(semantic network),由概念实体和语义关系构成学科发展历程学科发展历程4诞生背景诞生背景5搜索核心诉求:让搜索通往答案传统知识系统的问题:无法理解关键字无法精确回答根本原因:缺乏大规模背景知识传统知识表达难以满足需求技术发展技术发展6应用场景:通用 vs 领域/行业应用从搜索延伸至推荐、问答等复杂任务从简单关系发现到深层关系推理从回答what问题到回答why问题从关
2、键词交互到更自然的人机对话式交互技术生态:机器学习深度学习自然语言处理数据挖掘知识图谱农业知识图谱农业知识图谱8农业知识图谱是融合了农业地域性,季节性,多样性等特征后,利用农业领域的实体概念与关系,挖掘出农业潜在价值的智能系统天气数据库自然灾害数据库蔬菜实体库水果实体库种子实体库畜牧实体库家禽实体库水产实体库“6月份崇明县适合种植何种蔬菜?”“家猪吃什么饲料性价比高?”目录目录9项目展示目展示2系系统架构架构3背景介背景介绍1农业实体识别农业实体识别10自动识别出非结构化文本中的农业实体及其农业类型农业实体百科农业实体百科11展示实体的基本信息,相关概念,农业类型,等农业知识概览农业知识概览1
3、2对农业知识进行归类,采用了农业百科的形式进行罗列农业实体分类树农业实体分类树13将农业实体类别组织成树形结构关系查询关系查询14输入实体,查询与其直连的实体与关系信息农业知识编辑农业知识编辑15采用众包的方式,收集带标注的训练集数据农业知识编辑农业知识编辑16可以查看训练集的分布,防止训练集不平衡Github开源项目开源项目17Github搜索“knowledge graph”,搜索结果位于首页目录目录18项目展示目展示2系系统架构架构3背景介背景介绍1系统架构图系统架构图19p语料库大小:50GB+p实体数量:33W+p关系数量:45W+关键问题:-如何获取大规模语料库?-如何训练大规模的
4、算法模型?-如何存储大量的实体和关系?我们的解决方案:-采用分布式爬虫框架-采用支持GPU加速的框架-采用分布式图数据库Scrapy-分布式爬虫框架分布式爬虫框架20若采用基础爬虫(例如urllib2)进行爬取,大约2秒钟能够爬取一个web页面(约20KB)。对于一个50GB的语料库爬取任务,大约需要26W秒,换算成天数的话大约需要30天左右才能完成。如果发生意外情况(例如断电,断网),爬取任务就会意外中断,甚至导致之前爬取的内容丢失。因此我们采用Scrapy框架,我们克服了上述缺点。Scrapy-分布式爬虫框架分布式爬虫框架21Scrapy运行流程:运行流程:1.引擎从调度器中取出一个链接(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业知识 图谱 项目 汇报
限制150内