共计 2404 个字符,预计需要花费 7 分钟才能阅读完成。
导读 | 大数据风控业务的开展依赖智能风控平台,智能风控平台的技术基础是大数据技术,智能风控系统技术架构也是以大数据系统技术架构为基础演进而来的。 |
智能风控系统技术架构主要分为访问层、展现层、系统层、大数据平台四部分,其中大数据平台又分为接入层、清洗层、计算层、数据层四部分。本文主要介绍大数据风控平台。
大数据平台是智能风控系统技术架构的持久层,但又超越了传统的持久层功能,是以持久层为基础进行了技术应用的丰富。持久层又叫数据访问层,是指把数据永久地保存在存储设备中,它直接与数据库交互。
大数据平台的创建不仅服务于智能风控体系,还服务于业务的其他场景,例如业务的营销场景、运营场景等。考虑到智能风控系统技术架构的数据还会服务其他业务场景,因此在初期搭建规划的时候应该考虑数据层的通用性、易用性、非耦合性等; 并且伴随互联网业务的快速增长以及大数据技术的广泛运用,传统持久层的设计也不再局限于数据库以及数据的交互,而是以持久层为基础升级革新为大数据平台,统筹管理、规划数据的应用。
智能风控系统技术架构的大数据平台划分为接入层、清洗层、计算层、数据层四部分,这里只着重介绍接入层、清洗层、数据层的技术应用。
接入层负责智能风控平台的内部接入,包括大数据平台以及系统层的系统产品的数据接入,通常接入的数据有结构化数据和非结构化数据两类,常用的技术应用有 MQ、HTTP、HTTPS、FTP 等,具体的技术介绍如下。
- MQ(Message Queue,消息队列)是基础数据结构中“先进先出”的数据结构,一般用来解决应用解耦、异步消息、流量削峰等问题,是一种能够实现高性能、高可用、可伸缩和最终一致性的架构。
- HTTP(Hyper Text Marked Language,超文本标记语言)是一种标识性语言,包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的网络资源连接为一个逻辑整体。
- HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全为目标的 HTTP 通道,在 HTTP 的基础上加入 SSL 层通过传输加密和身份认证保证了传输过程的安全性,被广泛用于万维网上安全敏感的通信,例如交易支付等方面。
- FTP(File Transfer Protocol,文件传输协议)是在网络上进行文件传输的一套标准协议,用于将文件传输到主机或与主机交换文件。FTP 可以使用用户名和密码进行身份验证,匿名 FTP 允许用户从互联网访问文件、程序和其他数据,而无须用户 ID 或密码。
清洗层是数据清洗处理层,负责智能风控平台接入数据的清洗处理。清洗处理后的数据再被推送到计算层、系统层和数据层。通常大数据平台清洗层使用的技术应用有 Kafka、ETL,具体的技术介绍如下。
- Kafka 是由 Apache 软件基金会开发的一个开源流处理平台,由 Scala 和 Java 编写。Kafka 是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。但大部分研发人员都会把 kafka 当作一个分布式消息队列,利用它的高性能、持久化、多副本备份、横向扩展等能力。生产者向队列里写消息,消费者从队列里取消息进行业务逻辑运算。
- ETL(Extract-Transform-Load)是用来描述将数据从来源端经过抽取 (extract)、转换(transform)、加载(load) 至目的端的过程。ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中。虽然 ETL 一词常用在数据仓库,但其对象并不限于数据仓库。
数据层是数据的载体层,大数据技术的基础是数据,因此大数据平台的基础是数据层。大数据平台的数据层为智能风控平台提供系统产品使用的数据,而智能风控平台系统产品产生的数据会回传到大数据平台的数据层,两个平台的数据相互循环迭代,数据量不断增加。数据层实际就是数据库,数据库根据数据存储方式分为关系型数据库、非关系型数据库,同时随着知识图谱技术的发展和应用,图数据库也被用到智能风控平台中。
大数据平台常用的数据库有 MySQL、MongoDB、HBase、Giraph、SSD 等,具体的技术介绍如下。
- MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 Web 应用方面,MySQL 是最好的关系数据库管理系统应用软件之一。
- MongoDB 是一个基于分布式文件存储的数据库,由 C ++ 语言编写,旨在为 Web 应用提供可扩展的高性能数据存储解决方案。
- HBase(Hadoop Database)是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC 设备上搭建起大规模结构化存储集群。
- Giraph 是一个迭代的图计算系统,是基于 Hadoop 建立的上层应用。
- SSD(Solid State Disk 或 Solid State Drive,固态驱动器),俗称固态硬盘,用于数据库等文件的存储。
智能风控系统技术架构中用户通过访问层触发访问请求命令,由展现层承载访问请求命令并且传输请求命令到系统层,再由系统层根据请求命令获取大数据平台的数据,然后将数据传输到计算层进行分析计算,计算结果返回到系统层进行功能逻辑处理,最后输出系统层的服务结果到展现层或者以接口的形式提供给外部系统。整个智能风控平台通过智能风控系统技术高效、稳定运转,数据在智能风控平台中循环流转、迭代。
智能风控的核心技术是大数据风控技术,智能风控系统技术架构的设计应该以大数据平台为基础,充分融入大数据系统技术架构。