导航:首页 > 数据处理 > metaq怎么保障数据不丢失

metaq怎么保障数据不丢失

发布时间：2022-12-09 17:45:39

⑴ hadoop，storm和spark的区别，比较

一、hadoop、Storm该选哪一个？

为了区别hadoop和Storm，该部分将回答如下问题：
1.hadoop、Storm各是什么运算
2.Storm为什么被称之为流式计算系统
3.hadoop适合什么场景，什么情况下使用hadoop
4.什么是吞吐量

首先整体认识：Hadoop是级计算，进行计算时，数据在磁盘上，需要读写磁盘；Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件，磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。

注释：
1. 延时，指数据从产生到运算产生结果的时间，“快”应该主要指这个。
2. 吞吐，指系统单位时间处理的数据量。

storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop。

从原理角度来讲：

Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。
Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

为什么storm比hadoop快，下面举一个应用场景
说一个典型的场景，几千个日志生产方产生日志文件，需要进行一些ETL操作存入一个数据库。

假设利用hadoop，则需要先存入hdfs，按每一分钟切一个文件的粒度来算（这个粒度已经极端的细了，再小的话hdfs上会一堆小文件），hadoop开始计算时，1分钟已经过去了，然后再开始调度任务又花了一分钟，然后作业运行起来，假设机器特别多，几钞钟就算完了，然后写数据库假设也花了很少的时间，这样，从数据产生到最后可以使用已经过去了至少两分多钟。
而流式计算则是数据产生时，则有一个程序去一直监控日志的产生，产生一行就通过一个传输系统发给流式计算系统，然后流式计算系统直接处理，处理完之后直接写入，每条数据从产生到写入数据库，在资源充足时可以在毫秒级别完成。

同时说一下另外一个场景：
如果一个大文件的wordcount，把它放到storm上进行流式的处理，等所有已有数据处理完才让storm输出结果，这时候，你再把它和hadoop比较快慢，这时，其实比较的不是时延，而是比较的吞吐了。

--------------------------------------------------------------------------------------------------------------------------------
最主要的方面：Hadoop使用作为中间交换的介质，而storm的数据是一直在内存中流转的。
两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。
以水为例，Hadoop可以看作是纯净水，一桶桶地搬；而Storm是用水管，预先接好（Topology），然后打开水龙头，水就源源不断地流出来了。

--------------------------------------------------------------------------------------------------------------------------------
Storm的主工程师Nathan Marz表示： Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm之于实时处理，就好比Hadoop之于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
Storm的主要特点如下：
1.简单的模型。类似于MapRece降低了并行批处理复杂性，Storm降低了进行实时处理的复杂性。
2.可以使用各种。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持，只需实现一个简单的Storm通信协议即可。
3.容错性。Storm会管理工作进程和节点的故障。
4.水平扩展。计算是在多个线程、进程和服务器之间并行进行的。
5.可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。
6.快速。系统的设计保证了消息能得到快速的处理，使用MQ作为其底层消息队列。
7.本地模式。Storm有一个“本地模式”，可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。

--------------------------------------------------------------------------------------------------------------------------------
在消耗资源相同的情况下，一般来说storm的延时低于maprece。但是吞吐也低于maprece。storm是典型的流计算系统，maprece是典型的批处理系统。下面对流计算和批处理系统流程

这个个数据处理流程来说大致可以分三个阶段：
1. 数据采集与准备
2. 数据计算（涉及计算中的中间存储），题主中的“那些方面决定”应该主要是指这个阶段处理方式。
3. 数据结果展现（反馈）

1）阶段，目前典型的处理处理策略：数据的产生系统一般出自页面打点和解析DB的log，流计算将数据采集中消息队列（比如kafaka,metaQ,timetunle）等。批处理系统一般将数据采集进分布式文件系统（比如HDFS），当然也有使用消息队列的。我们暂且把消息队列和文件系统称为预处理存储。二者在延时和吞吐上没太大区别，接下来从这个预处理存储进入到数据计算阶段有很大的区别，流计算一般在实时的读取消息队列进入流计算系统（storm）的数据进行运算，批处理一系统一般会攒一大批后批量导入到计算系统（hadoop），这里就有了延时的区别。
2）数据计算阶段，流计算系统（storm）的延时低主要有一下几个方面（针对题主的问题）
A： storm 进程是常驻的，有数据就可以进行实时的处理
maprece 数据攒一批后由作业管理系统启动任务，Jobtracker计算任务分配，tasktacker启动相关的运算进程
B： stom每个计算单元之间数据之间通过网络（zeromq）直接传输。
maprece map任务运算的结果要写入到HDFS，在于rece任务通过网络拖过去运算。相对来说多了读写，比较慢
C：对于复杂运算
storm的运算模型直接支持DAG（有向无环图）
maprece 需要肯多个MR过程组成，有些map操作没有意义的

3）数据结果展现
流计算一般运算结果直接反馈到最终结果集中（展示页面，，搜索引擎的索引）。而maprece一般需要整个运算结束后将结果批量导入到结果集中。

实际流计算和批处理系统没有本质的区别，像storm的trident也有批概念，而maprece可以将每次运算的数据集缩小（比如几分钟启动一次），facebook的puma就是基于hadoop做的流计算系统。

二、高性能并行计算引擎Storm和Spark比较

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。

所以这是把过程传递给数据。这和Hadoopmap/rece非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。

Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。

不过Spark流模块（StreamingMole）倒是和Storm相类似（都是流计算引擎），尽管并非完全一样。

Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），而Storm是只要接收到数据就实时处理并分发。

不确定哪种方式在数据吞吐量上要具优势，不过Storm计算时间延迟要小。

总结下，Spark和Storm设计相反，而SparkSteaming才和Storm类似，前者有数据平滑窗口（slidingwindow），而后者需要自己去维护这个窗口。

⑵ 基于spark SQL之上的检索与排序对比性能测试

之前做过一年的spark研发，之前在阿里与腾讯也做了很久的hive，所以对这方面比较了解。

第一：其实快多少除了跟spark与hive本身的技术实现外，也跟机器性能，底层操作系统的参数优化息息相关，不能一概而论。

第二：hive 目前应该还是业界的主流，毕竟快与慢很多时候并非是至关重要的，对于一个生产系统来说，更重要的应该是稳定性，spark毕竟还算是比较新兴的事务，快确实快，但是稳定性上距离hive相差甚远。关于spark我们也修复了很多关于内存泄露的BUG，因为您问的是性能，所以不过多介绍（可以跟我要YDB编程指南，里面有我对这些BUG的修正）

第三：关于性能，我测试的可能不够全面，只能在排序与检索过滤上提供我之前的基于YDB的BLOCK sort测试报告供您参考（网络上贴word太费劲，您可以跟我要 word文档）。

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。
有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序上进行巨大的投入，可见排序速度的高低有多么重要！但是对于大多数企业来说，动辄上亿的硬件投入，实在划不来、甚至远远超出了企业的项目预算。相比大数据领域的暴力排序有没有一种更廉价的实现方式？

在这里，我们为大家介绍一种新的廉价排序方法，我们称为blockSort。

500G的数据300亿条数据，只使用4台 16核，32G内存，千兆网卡的虚拟机即可实现 2~15秒的排序（可以全表排序，也可以与任意筛选条件筛选后排序）。

一、基本的思想是这样的，如下图所示：

1.将数据按照大小预先划分好，如划分成大、中、小三个块(block)。

2.如果想找最大的数据，那么只需要在最大的那个块里去找就可以了。

3.这个快还是有层级结构的，如果每个块内的数据量很多，可以到下面的子快内进行继续查找，可以分多个层进行排序。

4.采用这种方法，一个亿万亿级别的数据（如long类型），最坏最坏的极端情况也就进行2048次文件seek就可以筛选到结果。

五、哪些用户适合使用YDB？

1.传统关系型数据，已经无法容纳更多的数据，查询效率严重受到影响的用户。

2.目前在使用SOLR、ES做全文检索，觉得solr与ES提供的分析功能太少，无法完成复杂的业务逻辑，或者数据量变多后SOLR与ES变得不稳定，在掉片与均衡中不断恶性循环，不能自动恢复服务，运维人员需经常半夜起来重启集群的情况。

3.基于对海量数据的分析，但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。

4.需要对用户画像行为类数据做多维定向分析的用户。

5.需要对大量的UGC（User Generate Content）数据进行检索的用户。

6.当你需要在大数据集上面进行快速的，交互式的查询时。

7.当你需要进行数据分析，而不只是简单的键值对存储时。

8.当你想要分析实时产生的数据时。

ps:说了一大堆，说白了最适合的还是踪迹分析因为数据量大，数据还要求实时，查询还要求快。这才是关键。

⑶ 消息中间件（一）MQ详解及四大MQ比较

一、消息中间件相关知识

1、概述

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发RocketMQ等。

2、消息中间件的组成

2.1 Broker

消息服务器，作为server提供消息核心服务

2.2 Procer

消息生产者，业务的发起方，负责生产消息传输给broker，

2.3 Consumer

消息消费者，业务的处理方，负责从broker获取消息并进行业务逻辑处理

2.4 Topic

2.5 Queue

2.6 Message

消息体，根据不同通信协议定义的固定格式进行编码的数据包，来封装业务数据，实现消息的传输

3 消息中间件模式分类

3.1 点对点

PTP点对点:使用queue作为通信载体

说明：

消息生产者生产消息发送到queue中，然后消息消费者从queue中取出并且消费消息。

消息被消费以后，queue中不再存储，所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

说明：

queue实现了负载均衡，将procer生产的消息发送到消息队列中，由多个消费者消费。但一个消息只能被一个消费者接受，当没有消费者可用时，这个消息会被保存直到有一个可用的消费者。

4 消息中间件的优势

4.1 系统解耦

交互系统之间没有直接的调用关系，只是通过消息传输，故系统侵入性不强，耦合度低。

4.2 提高系统响应时间

例如原来的一套逻辑，完成支付可能涉及先修改订单状态、计算会员积分、通知物流配送几个逻辑才能完成；通过MQ架构设计，就可将紧急重要（需要立刻响应）的业务放到该调用方法中，响应要求不高的使用消息队列，放到MQ队列中，供消费者处理。

4.3 为大数据处理架构提供服务

通过消息作为整合，大数据的背景下，消息队列还与实时处理架构整合，为数据处理提供性能支持。

4.4 Java消息服务——JMS

Java消息服务（Java Message Service，JMS）应用程序接口是一个Java平台中关于面向消息中间件（MOM）的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。

5 消息中间件应用场景

5.1 异步通信

有些业务不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

5.2 解耦

降低工程间的强依赖程度，针对异构系统进行适配。在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。通过消息系统在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口，当应用发生变化时，可以独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

5.3 冗余

有些情况下，处理数据的过程会失败。除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的”插入-获取-删除”范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

5.4 扩展性

因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。不需要改变代码、不需要调节参数。便于分布式扩容。

5.5 过载保护

在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量无法提取预知；如果以为了能处理这类瞬间峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5.6 可恢复性

系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

5.7 顺序保证

在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。

5.8 缓冲

在任何重要的系统中，都会有需要不同的处理时间的元素。消息队列通过一个缓冲层来帮助任务最高效率的执行，该缓冲有助于控制和优化数据流经过系统的速度。以调节系统响应时间。

5.9 数据流处理

分布式系统产生的海量数据流，如：业务日志、监控数据、用户行为等，针对这些数据流进行实时或批量采集汇总，然后进行大数据分析是当前互联网的必备技术，通过消息队列完成此类数据收集是最好的选择。

6 消息中间件常用协议

6.1 AMQP协议

AMQP即Advanced Message Queuing Protocol,一个提供统一消息服务的应用层标准高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计。基于此协议的客户端与消息中间件可传递消息，并不受客户端/中间件不同产品，不同开发语言等条件的限制。

优点：可靠、通用

6.2 MQTT协议

MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。该协议支持所有平台，几乎可以把所有联网物品和外部连接起来，被用来当做传感器和致动器（比如通过Twitter让房屋联网）的通信协议。

优点：格式简洁、占用带宽小、移动端通信、PUSH、嵌入式系统

6.3 STOMP协议

STOMP（Streaming Text Orientated Message Protocol）是流文本定向消息协议，是一种为MOM(Message Oriented Middleware，面向消息的中间件)设计的简单文本协议。STOMP提供一个可互操作的连接格式，允许客户端与任意STOMP消息代理（Broker）进行交互。

优点：命令模式（非topicqueue模式）

6.4 XMPP协议

XMPP（可扩展消息处理现场协议，Extensible Messaging and Presence Protocol）是基于可扩展标记语言（XML）的协议，多用于即时消息（IM）以及在线现场探测。适用于服务器之间的准即时操作。核心是基于XML流传输，这个协议可能最终允许因特网用户向因特网上的其他任何人发送即时消息，即使其操作系统和浏览器不同。

优点：通用公开、兼容性强、可扩展、安全性高，但XML编码格式占用带宽大

6.5 其他基于TCP/IP自定义的协议

有些特殊框架（如：redis、kafka、zeroMq等）根据自身需要未严格遵循MQ规范，而是基于TCPIP自行封装了一套协议，通过网络socket接口进行传输，实现了MQ的功能。

7 常见消息中间件MQ介绍

7.1 RocketMQ

阿里系下开源的一款分布式、队列模型的消息中间件，原名Metaq，3.0版本名称改为RocketMQ，是阿里参照kafka设计思想使用java实现的一套mq。同时将阿里系内部多款mq产品（Notify、metaq）进行整合，只维护核心功能，去除了所有其他运行时依赖，保证核心功能最简化，在此基础上配合阿里上述其他开源产品实现不同场景下mq的架构，目前主要多用于订单交易系统。

具有以下特点：

官方提供了一些不同于kafka的对比差异：

https://rocketmq.apache.org/docs/motivation/

7.2 RabbitMQ

使用Erlang编写的一个开源的消息队列，本身支持很多的协议：AMQP，XMPP, SMTP,STOMP，也正是如此，使的它变的非常重量级，更适合于企业级的开发。同时实现了Broker架构，核心思想是生产者不会将消息直接发送给队列，消息在发送给客户端时先在中心队列排队。对路由(Routing)，负载均衡(Load balance)、数据持久化都有很好的支持。多用于进行企业级的ESB整合。

7.3 ActiveMQ

Apache下的一个子项目。使用Java完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现，少量代码就可以高效地实现高级应用场景。可插拔的传输协议支持，比如：in-VM, TCP, SSL, NIO, UDP, multicast, JGroups and JXTA transports。RabbitMQ、ZeroMQ、ActiveMQ均支持常用的多种语言客户端 C++、Java、.Net,、Python、 Php、 Ruby等。

7.4 Redis

使用C语言开发的一个Key-Value的NoSQL数据库，开发维护很活跃，虽然它是一个Key-Value数据库存储系统，但它本身支持MQ功能，所以完全可以当做一个轻量级的队列服务来使用。对于RabbitMQ和Redis的入队和出队操作，各执行100万次，每10万次记录一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。实验表明：入队时，当数据比较小时Redis的性能要高于RabbitMQ，而如果数据大小超过了10K，Redis则慢的无法忍受；出队时，无论数据大小，Redis都表现出非常好的性能，而RabbitMQ的出队性能则远低于Redis。

7.5 Kafka

Apache下的一个子项目，使用scala实现的一个高性能分布式Publish/Subscribe消息队列系统，具有以下特性：

7.6 ZeroMQ

号称最快的消息队列系统，专门为高吞吐量/低延迟的场景开发，在金融界的应用中经常使用，偏重于实时数据通信场景。ZMQ能够实现RabbitMQ不擅长的高级/复杂的队列，但是开发人员需要自己组合多种技术框架，开发成本高。因此ZeroMQ具有一个独特的非中间件的模式，更像一个socket library，你不需要安装和运行一个消息服务器或中间件，因为你的应用程序本身就是使用ZeroMQ API完成逻辑服务的角色。但是ZeroMQ仅提供非持久性的队列，如果down机，数据将会丢失。如：Twitter的Storm中使用ZeroMQ作为数据流的传输。

ZeroMQ套接字是与传输层无关的：ZeroMQ套接字对所有传输层协议定义了统一的API接口。默认支持进程内(inproc) ，进程间(IPC) ，多播，TCP协议，在不同的协议之间切换只要简单的改变连接字符串的前缀。可以在任何时候以最小的代价从进程间的本地通信切换到分布式下的TCP通信。ZeroMQ在背后处理连接建立，断开和重连逻辑。

特性：

二、主要消息中间件的比较

⑷ 有了spark的streaming，还有必要学习storm吗

你再把它和hadoop比较快慢。

两个框架都用于处理大量数据的并行计算。

所以这是把过程传递给数据,metaQ、hadoop：Hadoop使用磁盘作为中间交换的介质.容错性，再小的话hdfs上会一堆小文件），而是比较的吞吐了，在于rece任务通过网络拖过去运算：
1，只需实现一个简单的Storm通信协议即可，数据直接通过网络导入内存，产生一行就通过一个传输系统发给流式计算系统。Storm保证每个消息至少能得到一次完整处理、多份复制等。二者在延时和吞吐上没太大区别。但是吞吐也低于maprece，可以在处理过程中完全模拟Storm集群，基于流，facebook的puma就是基于hadoop做的流计算系统。而maprece一般需要整个运算结束后将结果批量导入到结果集中，而storm的数据是一直在内存中流转的，目前典型的处理处理策略，尽管并非完全一样。类似于MapRece降低了并行批处理复杂性，数据库，Hadoop可以看作是纯净水.Storm为什么被称之为流式计算系统
3；而Storm是用水管、Ruby和Python，这时候，其时延必然比hadoop的通过hdfs传输低得多。

storm的网络直传，比较慢
C. 数据计算（涉及计算中的中间存储），Storm降低了进行实时处理的复杂性、内存计算.本地模式。读写内存比读写磁盘速度快n个数量级，除了积极使用内存来避免I#47，Storm之于实时处理。默认支持Clojure;O操作。你可以在Storm之上使用各种编程语言。下面对流计算和批处理系统流程

这个个数据处理流程来说大致可以分三个阶段。storm是典型的流计算系统，进行计算时。
3。
以水为例。
3，在资源充足时可以在毫秒级别完成.水平扩展，Spark基于in-memory管理可以进行快讯扫描。
5，像storm的trident也有批概念、数据压缩：
1，也省去了作业调度的时延。所以从时延上来看，假设机器特别多。
2，什么情况下使用hadoop
4。

--------------------------------------------------------------------------------------------------------------------------------
Storm的主工程师Nathan
Marz表示，一般来说storm的延时低于maprece： stom每个计算单元之间数据之间通过网络（zeromq）直接传输，其实比较的不是时延，水就源源不断地流出来了。

从原理角度来讲。

Storm 基于ZeroMQ这个高性能的消息通讯库。Storm有一个“本地模式”，tasktacker启动相关的运算进程
B。
Storm的主要特点如下，指数据从产生到运算产生结果的时间。
而流式计算则是数据产生时，然后作业运行起来，当然也有使用消息队列的。
6：数据的产生系统一般出自页面打点和解析DB的log：Hadoop是磁盘级计算。要增加对其他语言的支持，然后再开始调度任务又花了一分钟，需要进行一些ETL操作存入一个数据库。Storm是一个分布式流计算引擎；因为storm是服务型的作业。

总结下。

--------------------------------------------------------------------------------------------------------------------------------
在消耗资源相同的情况下。

为什么storm比hadoop快，批处理一系统一般会攒一大批后批量导入到计算系统（hadoop）。
4. 吞吐： storm 进程是常驻的，下面举一个应用场景
说一个典型的场景，流计算将数据采集中消息队列（比如kafaka，Jobtracker计算任务分配、排序。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群。更棒的是你可以使用任意编程语言来做开发。每个节点实现一个基本的计算过程。

不过Spark流模块（Streaming Mole）倒是和Storm相类似（都是流计算引擎），有些map操作没有意义的

3）数据结果展现
流计算一般运算结果直接反馈到最终结果集中（展示页面。我们暂且把消息队列和文件系统称为预处理存储，效率较低，按每一分钟切一个文件的粒度来算（这个粒度已经极端的细了？

为了区别hadoop和Storm。根据Harvard CS61课件，maprece是典型的批处理系统，这样。

--------------------------------------------------------------------------------------------------------------------------------
最主要的方面。和Spark相反，每秒可以处理数以百万计的消息。这和Hadoop map#47，一个是批量处理，搜索引擎的索引）、Java。任务失败时，数据在磁盘上，题主中的“那些方面决定”应该主要是指这个阶段处理方式，基于任务调度的，则需要先存入hdfs。每个节点存储（或缓存）它的数据集。这让你可以快速进行开发和单元测试。

同时说一下另外一个场景、Storm该选哪一个。

Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）

而Storm的架构和Spark截然相反，而数据项在互相连接的网络节点中流进流出：对于复杂运算
storm的运算模型直接支持DAG（有向无环图）
maprece 需要肯多个MR过程组成。

假设利用hadoop，则有一个程序去一直监控日志的产生，hadoop开始计算时。
2，而Storm是只要接收到数据就实时处理并分发，有数据就可以进行实时的处理
maprece 数据攒一批后由作业管理系统启动任务，几钞钟就算完了。

注释，这个是把数据传递给过程，流计算系统（storm）的延时低主要有一下几个方面（针对题主的问题）
A，然后任务被提交给节点。系统的设计保证了消息能得到快速的处理，1分钟已经过去了，每条数据从产生到写入数据库.hadoop。

不确定哪种方式在数据吞吐量上要具优势.简单的编程模型。

Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），预先接好（Topology）。Storm保证每个消息都会得到处理;R基于HDFS，使用MQ作为其底层消息队列. 延时。所以Storm更快。
7。
2）数据计算阶段，不过Storm计算时间延迟要小：
Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算.什么是吞吐量

首先整体认识。
两者面向的领域也不完全相同，几千个日志生产方产生日志文件，然后打开水龙头，该部分将回答如下问题;rece非常相似，把它放到storm上进行流式的处理.可靠的消息处理，storm的流式处理. 数据结果展现（反馈）

1）数据采集阶段，而maprece可以将每次运算的数据集缩小（比如几分钟启动一次），流计算一般在实时的读取消息队列进入流计算系统（storm）的数据进行运算。Storm会管理工作进程和节点的故障，“快”应该主要指这个，不持久化数据，它会负责从消息源重试消息，需要切分输入数据：
1。

实际流计算和批处理系统没有本质的区别.快速. 数据采集与准备
2。

Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）,timetunle）等。

二，这里就有了延时的区别。计算是在多个线程，需要读写磁盘.hadoop适合什么场景，而Spark Steaming才和Storm类似，一桶桶地搬，然后写数据库假设也花了很少的时间，storm要快于hadoop，并最小化迭代算法的全局I#47，指系统单位时间处理的数据量、进程和服务器之间并行进行的、Storm各是什么运算
2，当数据庞大时：
如果一个大文件的wordcount，而且它很快——在一个小集群中，磁盘访问延迟约为内存访问延迟的75000倍。批处理系统一般将数据采集进分布式文件系统（比如HDFS），就好比Hadoop之于批处理，这时，省去了批处理的收集数据的时间、产生中间数据文件，等所有已有数据处理完才让storm输出结果；当计算模型比较适合流式时，Spark和Storm设计相反。相对来说多了磁盘读写，把计算过程传递给数据要比把数据传递给计算过程要更富效率：

Hadoop M#47，接下来从这个预处理存储进入到数据计算阶段有很大的区别；Storm是内存级计算，从数据产生到最后可以使用已经过去了至少两分多钟，而后者需要自己去维护这个窗口.可以使用各种编程语言，处理完之后直接写入数据库，然后流式计算系统直接处理。
maprece map任务运算的结果要写入到HDFS：
1，前者有数据平滑窗口（sliding window），以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高;O操作、高性能并行计算引擎Storm和Spark比较

Spark基于这样的理念；另外一个是实时处理一

⑸ 消息中间件metaq和rocketmq的区别

metaq是阿里自研的消息中间件，发展了 1.0 、2.0、 3.0后。对外开源出了一版本叫做
rocketmq。
2016 年双11 前后，阿里巴巴将RocketMQ 捐赠给Apache 基金会，吸引了全球的开源爱好者参与到RocketMQ社区中，并于2017 年9 月成为Apache 基金会的顶级项目。在开源社区的帮助下，RocketMQ 具备了对接主流大数据流计算平台、对接存储平台以及离在线数据处理的能力。

⑹ hadoop，storm和spark的区别，比较

一、hadoop、Storm该选哪一个？

为了区别hadoop和Storm，该部分将回答如下问题：
1.hadoop、Storm各是什么运算
2.Storm为什么被称之为流式计算系统
3.hadoop适合什么场景，什么情况下使用hadoop
4.什么是吞吐量

首先整体认识：Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件，磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。

注释：
1. 延时，指数据从产生到运算产生结果的时间，“快”应该主要指这个。
2. 吞吐，指系统单位时间处理的数据量。

storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop。

从原理角度来讲：

Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。

Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

为什么storm比hadoop快，下面举一个应用场景
说一个典型的场景，几千个日志生产方产生日志文件，需要进行一些ETL操作存入一个数据库。

假设利用hadoop，则需要先存入hdfs，按每一分钟切一个文件的粒度来算（这个粒度已经极端的细了，再小的话hdfs上会一堆小文件），hadoop开始计算时，1分钟已经过去了，然后再开始调度任务又花了一分钟，然后作业运行起来，假设机器特别多，几钞钟就算完了，然后写数据库假设也花了很少的时间，这样，从数据产生到最后可以使用已经过去了至少两分多钟。
而流式计算则是数据产生时，则有一个程序去一直监控日志的产生，产生一行就通过一个传输系统发给流式计算系统，然后流式计算系统直接处理，处理完之后直接写入数据库，每条数据从产生到写入数据库，在资源充足时可以在毫秒级别完成。

同时说一下另外一个场景：
如果一个大文件的wordcount，把它放到storm上进行流式的处理，等所有已有数据处理完才让storm输出结果，这时候，你再把它和hadoop比较快慢，这时，其实比较的不是时延，而是比较的吞吐了。

--------------------------------------------------------------------------------------------------------------------------------
最主要的方面：Hadoop使用磁盘作为中间交换的介质，而storm的数据是一直在内存中流转的。
两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。
以水为例，Hadoop可以看作是纯净水，一桶桶地搬；而Storm是用水管，预先接好（Topology），然后打开水龙头，水就源源不断地流出来了。

--------------------------------------------------------------------------------------------------------------------------------
Storm的主工程师Nathan
Marz表示：
Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm之于实时处理，就好比Hadoop之于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
Storm的主要特点如下：
1.简单的编程模型。类似于MapRece降低了并行批处理复杂性，Storm降低了进行实时处理的复杂性。
2.可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持，只需实现一个简单的Storm通信协议即可。
3.容错性。Storm会管理工作进程和节点的故障。
4.水平扩展。计算是在多个线程、进程和服务器之间并行进行的。
5.可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。
6.快速。系统的设计保证了消息能得到快速的处理，使用MQ作为其底层消息队列。
7.本地模式。Storm有一个“本地模式”，可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。

--------------------------------------------------------------------------------------------------------------------------------
在消耗资源相同的情况下，一般来说storm的延时低于maprece。但是吞吐也低于maprece。storm是典型的流计算系统，maprece是典型的批处理系统。下面对流计算和批处理系统流程

这个个数据处理流程来说大致可以分三个阶段：
1. 数据采集与准备
2. 数据计算（涉及计算中的中间存储），题主中的“那些方面决定”应该主要是指这个阶段处理方式。
3. 数据结果展现（反馈）

1）数据采集阶段，目前典型的处理处理策略：数据的产生系统一般出自页面打点和解析DB的log，流计算将数据采集中消息队列（比如kafaka,metaQ,timetunle）等。批处理系统一般将数据采集进分布式文件系统（比如HDFS），当然也有使用消息队列的。我们暂且把消息队列和文件系统称为预处理存储。二者在延时和吞吐上没太大区别，接下来从这个预处理存储进入到数据计算阶段有很大的区别，流计算一般在实时的读取消息队列进入流计算系统（storm）的数据进行运算，批处理一系统一般会攒一大批后批量导入到计算系统（hadoop），这里就有了延时的区别。
2）数据计算阶段，流计算系统（storm）的延时低主要有一下几个方面（针对题主的问题）
A： storm 进程是常驻的，有数据就可以进行实时的处理
maprece 数据攒一批后由作业管理系统启动任务，Jobtracker计算任务分配，tasktacker启动相关的运算进程
B： stom每个计算单元之间数据之间通过网络（zeromq）直接传输。
maprece map任务运算的结果要写入到HDFS，在于rece任务通过网络拖过去运算。相对来说多了磁盘读写，比较慢
C：对于复杂运算
storm的运算模型直接支持DAG（有向无环图）
maprece 需要肯多个MR过程组成，有些map操作没有意义的

3）数据结果展现
流计算一般运算结果直接反馈到最终结果集中（展示页面，数据库，搜索引擎的索引）。而maprece一般需要整个运算结束后将结果批量导入到结果集中。

实际流计算和批处理系统没有本质的区别，像storm的trident也有批概念，而maprece可以将每次运算的数据集缩小（比如几分钟启动一次），facebook的puma就是基于hadoop做的流计算系统。

二、高性能并行计算引擎Storm和Spark比较

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。

所以这是把过程传递给数据。这和Hadoop map/rece非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。

Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。

不过Spark流模块（Streaming Mole）倒是和Storm相类似（都是流计算引擎），尽管并非完全一样。

Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），而Storm是只要接收到数据就实时处理并分发。

不确定哪种方式在数据吞吐量上要具优势，不过Storm计算时间延迟要小。

总结下，Spark和Storm设计相反，而Spark Steaming才和Storm类似，前者有数据平滑窗口（sliding window），而后者需要自己去维护这个窗口。

⑺ 如何使用大数据技术为企业创造更大的价值

大家好，我是Lake，专注大数据技术、互联网科技见解、程序员经验分享

作为一名大数据工程师，我来说下我的想法。如何使用大数据技术为企业创造更大的价值？这里有两个注重点，一个是大数据技术，一个是为企业创造价值。目前大数据在不同的应用场景，可以分为很多不同种类的技术，比如数据的离线计算有 Hadoop、Spark，存储方面有HBASE、HDFS、MongoDB、JanusGraph,消息中间件有 Kafka、MetaQ，实时计算有Storm、Flink、Spark Streaming等等。这么多大数据技术，怎么样为企业创造出更大的价值呢，我认为有一下几点：

保证线上业务稳定性

目前很多企业最底层都用到大数据相关技术，如何保证线上业务稳定成为大数据技术最重要的一件事情。线上业务不稳定会直接影响到消费者的使用，尤其是涉及到交易相关的业务更是重中之重。线上业务的稳定性不能受到大数据集群抖动而产生影响，打个比方，线上订单交易链路在最底层使用到了HBase 数据库，但HBase集群突然 Down掉之后，那么线上用户突然不能够进行下单和支付了，这对于公司来说，直接就影响到公司的交易额和利润，这种情况是公司绝对无法容忍的。

所以你能够保证公司所使用大数据技术集群资源越稳定，那么对于线上业务的稳定运行就越有保证，通过对大数据集群稳定性进行保障，进一步提升消费者的使用体感，这就是你的价值。

更好的降低大数据集群机器资源消耗

更好的降低公司大数据集群机器的资源消耗，提升公司集群资源的使用率，进一步压榨机器的性能也为公司带来了价值。公司每台机器，说实话，都需要从外进行采购，这消耗的就是公司的资金。如果你能在现有的机器上，满足更多的业务，而不只是单纯的购买机器水平扩展来满足业务，这样会进一步帮助公司节约资金。公司的最终目的也是为了盈利，你帮公司降低了机器的购买，这也是为公司节约了一笔很大的成本。

大数据技术创新

大数据技术发展到了一定程度，就需要自己通过技术创新，来满足公司一些更为复杂的业务场景。通过技术创新，带动业务发展。比如图数据库的出现，使得公司能够使用图数据库来构建用户的社交网络图，通过构建的社交网络图可以快速了解到用户的关注、用户的粉丝、和用户兴趣相同的用户有哪些。哪些用户是信息传播关键点等等，通过大数据技术的创新，知道更多潜藏在大数据底层的商业信息价值，从而帮助公司上层更好的做战略规划。同时，也可以通过技术创新，变革整个公司的技术架构，使用新的技术来满足未来公司战略的发展，最直接的例子，就是阿里云。

总结

总体来说，大数据如何为公司创造更大的价值，我认为可以从提升大数据集群的稳定性入手，更好的保证公司线上业务的稳定和运行。其次，可以更好的压榨和节约公司的大数据集群相关的机器资源，从而减少公司机器方面的采购成本。最后，就是通过大数据技术创新，通过技术来驱动业务的发展，当然这也是最难的一点，如果你能做到通过某种大数据技术的创新使得公司战略方面业务的成功，那么你的价值对于公司来说，将是无法估量的。

如果你觉得我的问答有帮助的话，欢迎你点赞转发或者关注我，更多干货内容，欢迎关注LakeShen说，你的小小的鼓励，就是我持续分享的动力。

⑻ hadoop，storm和spark的区别，比较

一、hadoop、Storm该选哪一个？
为了区别hadoop和Storm，该部分将回答如下问题：
1.hadoop、Storm各是什么运算
2.Storm为什么被称之为流式计算系统
3.hadoop适合什么场景，什么情况下使用hadoop
4.什么是吞吐量

首先整体认识：Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件，磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。

注释：
1. 延时，指数据从产生到运算产生结果的时间，“快”应该主要指这个。
2. 吞吐，指系统单位时间处理的数据量。

storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop。

从原理角度来讲：

Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。
Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

为什么storm比hadoop快，下面举一个应用场景
说一个典型的场景，几千个日志生产方产生日志文件，需要进行一些ETL操作存入一个数据库。

假设利用hadoop，则需要先存入hdfs，按每一分钟切一个文件的粒度来算（这个粒度已经极端的细了，再小的话hdfs上会一堆小文件），hadoop开始计算时，1分钟已经过去了，然后再开始调度任务又花了一分钟，然后作业运行起来，假设机器特别多，几钞钟就算完了，然后写数据库假设也花了很少的时间，这样，从数据产生到最后可以使用已经过去了至少两分多钟。
而流式计算则是数据产生时，则有一个程序去一直监控日志的产生，产生一行就通过一个传输系统发给流式计算系统，然后流式计算系统直接处理，处理完之后直接写入数据库，每条数据从产生到写入数据库，在资源充足时可以在毫秒级别完成。

同时说一下另外一个场景：
如果一个大文件的wordcount，把它放到storm上进行流式的处理，等所有已有数据处理完才让storm输出结果，这时候，你再把它和hadoop比较快慢，这时，其实比较的不是时延，而是比较的吞吐了。

--------------------------------------------------------------------------------------------------------------------------------
最主要的方面：Hadoop使用磁盘作为中间交换的介质，而storm的数据是一直在内存中流转的。
两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。
以水为例，Hadoop可以看作是纯净水，一桶桶地搬；而Storm是用水管，预先接好（Topology），然后打开水龙头，水就源源不断地流出来了。

--------------------------------------------------------------------------------------------------------------------------------
Storm的主工程师Nathan Marz表示： Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm之于实时处理，就好比Hadoop之于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
Storm的主要特点如下：
1.简单的编程模型。类似于MapRece降低了并行批处理复杂性，Storm降低了进行实时处理的复杂性。
2.可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持，只需实现一个简单的Storm通信协议即可。
3.容错性。Storm会管理工作进程和节点的故障。
4.水平扩展。计算是在多个线程、进程和服务器之间并行进行的。
5.可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。
6.快速。系统的设计保证了消息能得到快速的处理，使用MQ作为其底层消息队列。
7.本地模式。Storm有一个“本地模式”，可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。

--------------------------------------------------------------------------------------------------------------------------------
在消耗资源相同的情况下，一般来说storm的延时低于maprece。但是吞吐也低于maprece。storm是典型的流计算系统，maprece是典型的批处理系统。下面对流计算和批处理系统流程

这个个数据处理流程来说大致可以分三个阶段：
1. 数据采集与准备
2. 数据计算（涉及计算中的中间存储），题主中的“那些方面决定”应该主要是指这个阶段处理方式。
3. 数据结果展现（反馈）

1）数据采集阶段，目前典型的处理处理策略：数据的产生系统一般出自页面打点和解析DB的log，流计算将数据采集中消息队列（比如kafaka,metaQ,timetunle）等。批处理系统一般将数据采集进分布式文件系统（比如HDFS），当然也有使用消息队列的。我们暂且把消息队列和文件系统称为预处理存储。二者在延时和吞吐上没太大区别，接下来从这个预处理存储进入到数据计算阶段有很大的区别，流计算一般在实时的读取消息队列进入流计算系统（storm）的数据进行运算，批处理一系统一般会攒一大批后批量导入到计算系统（hadoop），这里就有了延时的区别。
2）数据计算阶段，流计算系统（storm）的延时低主要有一下几个方面（针对题主的问题）
A： storm 进程是常驻的，有数据就可以进行实时的处理
maprece 数据攒一批后由作业管理系统启动任务，Jobtracker计算任务分配，tasktacker启动相关的运算进程
B： stom每个计算单元之间数据之间通过网络（zeromq）直接传输。
maprece map任务运算的结果要写入到HDFS，在于rece任务通过网络拖过去运算。相对来说多了磁盘读写，比较慢
C：对于复杂运算
storm的运算模型直接支持DAG（有向无环图）
maprece 需要肯多个MR过程组成，有些map操作没有意义的

3）数据结果展现
流计算一般运算结果直接反馈到最终结果集中（展示页面，数据库，搜索引擎的索引）。而maprece一般需要整个运算结束后将结果批量导入到结果集中。

实际流计算和批处理系统没有本质的区别，像storm的trident也有批概念，而maprece可以将每次运算的数据集缩小（比如几分钟启动一次），facebook的puma就是基于hadoop做的流计算系统。

二、高性能并行计算引擎Storm和Spark比较
Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。
所以这是把过程传递给数据。这和Hadoop map/rece非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。
Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）
而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。
两个框架都用于处理大量数据的并行计算。
Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。
Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。
不过Spark流模块（Streaming Mole）倒是和Storm相类似（都是流计算引擎），尽管并非完全一样。
Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），而Storm是只要接收到数据就实时处理并分发。
不确定哪种方式在数据吞吐量上要具优势，不过Storm计算时间延迟要小。
总结下，Spark和Storm设计相反，而Spark Steaming才和Storm类似，前者有数据平滑窗口（sliding window），而后者需要自己去维护这个窗口。

⑼ 领域驱动设计（DDD）实践之路（第二篇)

在领域驱动里面，infrastructure作为基础设施，是提供技术细节的模块。需要强调的是，很多人会误以为infrastructure就是传统的DAO层，其实infrastructure包括但不限于DAO层，比如文件处理，三方调用，使用缓存，发送异步消息等具体的技术细节实现都存在于infrastructure层。那么技术细节是什么呢。在我们看来，技术细节包含以下特征

案例1：我们的实体需要持久化（存储），所以我们需要提供存储的实现。领域层的repository.save等方法提供了持久化接口约定，对于infrastructure来说，如何实现这个方法的代码，就是技术细节。那么我们如何实现这个过程呢？自然是选择缓存，OSS存或者数据库存。如果选择数据库，则进而需要选择orm框架，配置...，实现repository.save的接口，这些都属于持久化所需的技术细节代码。

案例2：我们的应用需要导出资产包相关的excel形式数据，那么当导出资产包数据时，文件领域模块提供了导出的统一接口，资产领域模块提供了资产包的适配接口，而导出excel的代码需要使用easyExcel或者POI等第三方框架，属于技术细节代码。

案例3: 接案例2，为了实现导出时所需的excel排版格式，排版本身的格式与业务有关，比如在我们的业务场景下，我们导出调解明细（我们项目特定的一个领域模型）的时候，只需要按照常见的导出方式即可，而导出资产明细（我们项目特定的一个领域模型）则需要解析拼接所有的动态数据列，合并显示每条数据不同的动态列，而这一切是由业务决定的。根据业务不同有不同的排版要求这一点体现了资产域需要提供文件域的导出策略，调解域也需要实现文件域的导出策略。这些都属于描述业务信息的约定，而这些约定的具体实现比如怎么把实体的那一个属性映射到excel的哪一行哪一列，则属于技术细节。这种区分方式显性化了业务的概念，同时又将实现放在了基础设施层，提供了一定的解耦性。

说完了infrastructure的技术细节的定义，我们接下来聊几个在采用DDD研发模式下，infrastructure层开发过程中经常会遇到的一些问题及我们的解决方案。

为了让业务逻辑和代码实现解耦，在repository的约定中，我们通常用“save保存”代替我们通常说的“insert（插入）“，”update（更新）”这样的技术术语，以屏蔽技术细节。这样带来的一个副作用是，在save时就需要根据策略判断调用insert还是update，我们使用的策略是根据id是否是空决定，即我们所有的实体对象都有一个属性，类型为Id类的子类，id对象的属性（数据库里面实际存放的id值）可能为null，但是id对象，本身不会为null，根据这个对象可以判断当前实体id是否为空。

对于聚合场景，子实体是需要知道聚合根的id的，因为在存储到数据库时可能需要以外键的方式存储对象间的映射关系。

然而，在具体实现中，我们认为，实体之间的对象关系才是标识两个实体之间关系的方式，而不是id，所以生成实体时，先通过对象引用关联对象，表明聚合和实体之间的关系，在保存到数据库的时候，通过实体生成数据库映射类的时候就可以知道当前数据的id是否为空，同时又能知道当前数据之间的关系。

对象之间的关系在1:1聚合保存的时候可能体现不明显，但是当1:N或者N:N批量保存聚合的时候，作用就比较明显了。在我们的系统中发起调解业务就需要批量保存调解批次。代码如下（欢迎吐槽，拥抱进步）

通过这种方式就解决了批量插入不能返回id，同时又能继续复用id.isNew()判断是否为新数据的方式（这里我们没有创建entity基类，所以判断放在了Id上）。

以上方法提供了批量保存时如何区分是新增还是更新。下面我们来谈谈我们项目内提供的插入和更新模板代码。

对于领域来说，save是基本的保存代码。方法传入的参数往往是一个存在于内存中的聚合根对象，有时包含全量的子实体，VO和全量的字段，而在插入场景，对批量请求我们希望支持批量插入，减少对数据库的IO频率，在更新场景下，我们希望减少update时的更新字段的数量（只更新需要更新的字段），这有助于减少数据库IO次数、binlog大小和mysql数据库索引变更带来的开销，所以是非常有必要的。因此对于infrastructure来说，可以提供统一的定制化模板方便repository定制化更新字段的方法快速实现。

由于我们的系统使用的是mybatisplus的ORM方案，所以我们根据api和mysql的批量语句开关提供了一个批量插入和批量更新的Mapper基类，其中insertBatchSomColumn是mybatisplus自带的，updateBatchById则是我们实现的，文档链接如下https://mp.toutiao.com/profile_v4/graphic/preview?pgc_id=7062223527654916621通过这种方式可以轻松地提供定制化更新某几列的sql，减轻sql编写负担。

这一次要讲的其实就是上面提到过的excel导入导出的案例。对于我们的系统来说，具有资产域，文件域，调解域等。其中资产域、调节域等三个域需要导入导出excel。但是我们在设计的时候认为文件的操作属于文件域的概念，所以应当由文件的domain提供功能。但是很明显，具体的导入导出的策略根据数据的不同是可以变化的。所以针对这种情况，我们回归到领域驱动的实现的本质------面向对象技术来思考这个问题的优雅解法。以导入为例

代码如下

上面4份代码是domain的，最下面的是infrastructure的，这里我们只讲infrastructure的（但是我个人认为领域分层后还是需要整体考虑的，所以才会贴上domain的代码）。

这是我们对于跨域业务逻辑的处理办法。

为了保证各领域模型间的解耦，我们经常通过最轻量级的领域事件的方式实现，而不是类似metaq，msgbroker这样的异步分布式消息中间件。领域事件的发送有很多的实现方案，我们倾向于直接使用spring的功能，因为我们需要同步保证事务。但是spring的event发送需要继承ApplicationEvent而领域事件我们又希望独立于spring的event体系，所以我们通过对spring的了解发现了spring已经提供了 PayloadApplicationEvent 可以实现这种功能实现上和其他的spring的event一致，获取我们自己定义的event的方法如下

这里的getPayload()可以获取到我们放进去的领域事件TimeoutEvent

在任何系统中都会有批处理的业务。可能是批处理聚合，可能是批处理聚合内的实体类。这里说一下我之前遇到的一个帖子（jdon）上的讨论。帖子上说的是有一个排班业务，一条班表数据作为聚合存在着每日排班子实体，每日排班下又存在着排班明细子实体，当日期逐渐增加时一条排班需要加载好几年的数据用于生成聚合，而实际上则仅仅只需要计算最近几周的数据。这里存在两点问题

第一点自然不用多说，技术实现以提供业务功能为核心是我一直以来的主张。所以当数据量可能会不断增大的情况下不用加载完整自然是必须的（哪怕内存存储的下也应当尽可能少的消耗）。第二点来说帖子的一位回复者倾向于DomainService提供专门的适配方法，用于加载几周的数据。

我们的系统中存在一个有一些类似的业务。我们的系统需要每隔几分钟就运行一次批处理任务，获取所有已经过期的调解明细，并且设置为过期。调解明细属于调解批次的聚合，所以我们有同样的需求。

我们在此提供一种我们的实现，供参考。

repository的实现根据面向对象原则，仅仅提供如何查询过滤数据库数据

迭代器的实现提供了迭代职责实现

至此实现了批处理加载聚合的逻辑，同时可以提供聚合的部分加载（需要注意业务的正确性不会因为聚合的不完全加载而产生问题）。

最后总结一下

阅读全文

与metaq怎么保障数据不丢失相关的资料

热点内容

怎么把程序指定在windows上运行发布：2024-05-02 21:10:13 浏览：62

锦州哪个市场卖鱼种类多发布：2024-05-02 21:07:57 浏览：472

程序员给人一种什么感觉发布：2024-05-02 20:55:59 浏览：963

南京机电职业技术学院怎么扩招发布：2024-05-02 20:11:01 浏览：882

抖音里私聊可以记录多少条信息发布：2024-05-02 19:34:38 浏览：846

信息部货源从哪里来的发布：2024-05-02 19:34:37 浏览：284

小程序视频播放列表怎么做发布：2024-05-02 19:34:30 浏览：296

去掉精确数据的jt文件如何编辑发布：2024-05-02 19:33:46 浏览：934

市场买的羊肉为什么不柴发布：2024-05-02 18:19:09 浏览：662

双流邮政编码包含哪些信息发布：2024-05-02 18:16:48 浏览：737

vivo闪充数据线有哪些型号发布：2024-05-02 18:08:50 浏览：386

ablo是什么产品发布：2024-05-02 18:02:35 浏览：462

怎么能看到左右家私的全部产品发布：2024-05-02 17:42:23 浏览：958

移动代理商佣金不发怎么投诉发布：2024-05-02 17:29:37 浏览：209

南京大学电子信息类专业有哪些发布：2024-05-02 17:24:02 浏览：744

股票交易如何撤单发布：2024-05-02 17:19:14 浏览：443

步步高手机如何设置来信息闪灯发布：2024-05-02 17:04:57 浏览：304

体温计数据加多少是人体体温发布：2024-05-02 16:58:03 浏览：467

起诉后如何走程序发布：2024-05-02 16:30:19 浏览：113

德阳城西市场火灾什么时间火灾发布：2024-05-02 16:25:58 浏览：174