在当前海量内容平台、高速宽带网络以及多样化用户需求的要求下,针对智能推荐服务阐述一种匹配用户需求和特定资源的设计方案,并结合互动的运营模式,建立智能关联体系,以经济、安全、高效、环保的方式向用户进行社会文化传播,构建新型社会文化传播技术体系,实现业务智能推荐展现和服务,为用户提供高效、优质、可管、可控、可信的智能推荐服务,从而推动广互联网产品的品牌化演进,让大众了解大数据推荐究竟是什么。 一、推荐系统设计原则 通过对内容资源和用户需求的现状调研,从用户、终端、应用、内容以及通道等多个维度进行推荐系统需求分析。 二、系统一般的总体设计方案 内容智能推荐系统主要包含数据采集平台、数据支撑平台、数据分析平台和数据服务平台。 1)数据采集平台。数据采集主要通过日志采集工具 Flume 和结构化数据导入工具 Sqoop 实现,对于部分已经存储在 Ora-cle、MySQL 等关系型数据库中的数据,通过 Sqoop 将数据导入到大数据平台 ( HDFS、HBase、Hive) 。主要采集的业务数据包括: 智能推荐 BOSS 数据、AAA认证数据、CDN 数据、编排数据、媒体资产数据、门户编排数据等。数据采集处理设计通过 Flume 可直接将日志数据 ( 非结构化数据)导入大数据平台,同时 Flume 可对数据进行简单处理( 一致性校验等) 并写到各种数据接受方。Flume 提供了从 console ( 控制台 ) 、RPC ( Thrift - RPC ) 、text ( 文件) 、syslog( syslog 日志系统,支持 TCP 和 UDP2 种模式) 、exec ( 命令执行) 等数据源上收集数据的能力,Flume 数据采集流程。同时,数据源服务器需部署 Agent 数据采集器,对部分已经在平台内部完成数据汇聚的,只需在相应的日志服务器上部署 Agent 组件。当数据源超过一定数据量,则部署 collector组件用于收集 Agent 发送过来的数据流,并将汇聚的数据加载到 Storage 中。管理员可通过 Master 组件( 部署在中心) 协调Agent 和 collector 的配置等信息,用于指定 collector 对应的 Agent 数量。Storage 在 本 期 项 目 中 为 分 布 式 数 据 存 储( HDFS) ,管理员可指定 collector 加载的对象。 2) 数据存储设计。在数据上传时按照智能推荐业务类型生成一级目录,再按照时间日期生成二级目录,按输出服务器生成三级目录。数据全部存放在采集服务器上。视频点播的认证日志、播放日志、资产的基本属性变更日志、用户信息的变更日志、门户浏览记录等,按照规定的格式生成日志文件,并实时通过数据上传服务、FTP等上传到大数据接收服务器。 3) 数据清洗策略规划对于收到的日志文件,按照约定的规则进行处理,主要有以下几个方式: ①对于文件碎片化( 单个文件大小 < 50 MB) 比较严重的,对文件进行合并,生成大约 50 ~ 80 Mb 的文件,方便 Hadoop 的处理。 ②对压缩文件,进行解压缩,并验证文件是否正常。对于不能正常读取的文件迁移到异常文件夹,等人工干预后再处理。 ③对日志文件中的记录进行解析处理,将不符合要求的日志记录处理。 4) 数据入库设计对符合规范的日志,放入 Hadoop 系统中对数据进行解析,抽 取 有 价 值 的 数 据,写 入 非 结 构 化 数 据 库Hbase 中。为后续的数据分析和计算作准备。 5) 历史数据备份对于原始的日志文件,采集完后,进行统一管理,按照业务和时间,对日志文件进行压缩备份,并定时将压缩文件迁移到数据备份服务器。如果需要某一业务、某一时间段的原始日志,则在备份服务器中查找,找到后解压缩即可使用。 三、数据支撑平台 在开源 Hadoop 版本基础上进行了深度的性能优化和稳定性、可管理性优化,形成一套能够轻松架构和使用的分布式计算平台,可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。数据支撑平台设计需考虑以下特性: ( 1) 高可靠性,结合位存储和处理数据的能力进行深度优化。 ( 2) 高扩展性,需考虑在可用的计算机集簇间分配数据并完成计算任务,同时这些集簇可以方便地扩展到数以千计的节点中。 ( 3) 高效性,支持在节点之间动态地移动数据,并保证各个节点的动态平衡,以此达到快速处理数据的目标。 ( 4) 高容错性,支持多个副本的自动保存,并且能够自动将失败的任务重新分配。Hadoop 由 HDFS、MapReduce、HBase、Hive 和 Zoo-Keeper 等模块组成,其中最基础最重要的两种组成元素为底层用于存储集群中所有存储节点文件的 HDFS( Hadoop Distributed File System) 和上层用来执行 Ma-pReduce 程序的 MapReduce 引擎。 四、总结 我国互联网在智能推荐业务运营经验积累的基础上,通过研究用户行为数据采集和分析、 内容智能分析和管理、智能关联体系和业务智能推荐等关键技术,研究一种面向智能推荐的 内容智能推荐系统设计方案,能够快速应对内容热点的变化,有效引导用户在海量的内容中迅速找到自己感兴趣的产品。从而形成以用户数据为核心、多元产品为基础、精准高效服务为延伸的智能化智能推荐服务体系。 |