Kafka：日志处理时代的分布式消息系统革命

摘要：在数字时代，互联网公司的运营离不开数据的支撑，而日志数据作为其中最基础也最庞大的组成部分，正扮演着越来越关键的角色。无论是用户登录平台时的身份验证记录、浏览页面时的点击轨迹、对内容的点赞与分享行为，还是后台服务器的CPU利用率、内存占用、接口调用延迟与错误报告

在数字时代，互联网公司的运营离不开数据的支撑，而日志数据作为其中最基础也最庞大的组成部分，正扮演着越来越关键的角色。无论是用户登录平台时的身份验证记录、浏览页面时的点击轨迹、对内容的点赞与分享行为，还是后台服务器的CPU利用率、内存占用、接口调用延迟与错误报告，这些看似零散的日志条目，汇聚起来便构成了理解用户行为、优化系统性能、驱动业务决策的核心依据。随着互联网用户规模的扩大和业务场景的复杂化，日志数据的体量正以惊人的速度增长，中国移动每天要收集5到8TB的通话记录，Facebook则几乎每天产生6TB的用户活动事件，这样的规模对数据处理系统提出了前所未有的挑战。

更重要的是，日志数据的价值早已不局限于离线分析。如今，搜索相关性的实时调整、基于用户近期行为的个性化推荐、精准的广告定向投放、防范垃圾邮件与数据爬取的安全防护，以及社交平台中实时更新的动态信息流，这些核心业务场景都依赖于对日志数据的低延迟处理。传统的日志收集与处理方式，比如从生产服务器上物理抓取日志文件再导入数据仓库，显然无法满足这种实时性需求。而既有的消息系统与日志聚合器，要么因功能冗余导致性能不足，要么仅专注于离线处理而缺乏实时能力，这让互联网企业陷入了“数据就在眼前，却无法高效利用”的困境。

正是在这样的背景下，LinkedIn的Jay Kreps、Neha Narkhede和Jun Rao三位工程师联手开发了Kafka，这款专门面向日志处理的分布式消息系统，既吸收了传统日志聚合器的高吞吐特性与消息系统的实时交互能力，更通过一系列打破常规的设计选择，实现了效率与可扩展性的完美平衡。如今，Kafka已在LinkedIn的生产环境中稳定运行超过半年，每天处理数百GB的新增数据，成为连接在线与离线数据消费的核心枢纽。

在Kafka诞生之前，互联网企业处理日志数据主要依赖两类系统：传统企业消息系统与专用日志聚合器，但这两类系统都存在明显的局限性，难以满足日志处理场景的特殊需求。

传统企业消息系统如IBM Websphere MQ、ActiveMQ、RabbitMQ等，早已在异步数据流转场景中应用多年，它们通常扮演着“事件总线”的角色，支撑着企业内部的异步通信。但这些系统在面对日志处理需求时，却显得“水土不服”。首先是功能冗余带来的性能负担，这类系统往往追求全面的交付保障，比如IBM Websphere MQ支持的事务功能，能让应用原子性地向多个队列插入消息；JMS规范允许消息被消费后进行无序确认，这些功能对于金融交易等核心场景至关重要，但对于日志处理来说却纯属多余。毕竟，偶尔丢失几条页面浏览日志并不会对业务造成实质影响，而这些冗余功能却大大增加了系统的API复杂度与底层实现开销。

其次是吞吐量瓶颈，传统消息系统大多没有设计批量消息发送的API，每条消息都需要单独进行一次TCP/IP往返传输，这在日志数据“海量产生”的场景下根本无法支撑。以搜索推荐场景为例，每页展示的数十个商品即使未被点击，也需要生成日志记录，单条传输的方式会让网络开销呈指数级增长。再者，分布式支持的缺失让这些系统难以横向扩展，无法通过简单增加机器来应对数据量的增长。更关键的是，它们默认消息会被“即时消费”，当出现离线消费者（如数据仓库）需要周期性批量加载数据时，未消费消息会不断积累，导致系统性能急剧下降。

专用日志聚合器的出现正是为了解决传统消息系统的不足，Facebook的Scribe、雅虎的Data Highway、Cloudera的Flume等都属于这类系统。它们的核心设计目标是将日志数据收集并加载到Hadoop或数据仓库中，供离线分析使用。比如Scribe会通过socket接收前端机器的日志数据，聚合后定期写入HDFS或NFS存储；Flume则通过可扩展的“管道”和“接收器”设计，让日志流传输更加灵活，还提供了更完善的分布式支持。

但这些日志聚合器同样存在明显缺陷。它们大多专注于离线消费场景，往往会将“分钟级文件”等实现细节暴露给消费者，增加了使用复杂度。更关键的是，它们普遍采用“推模型”进行数据分发，即由 broker 主动将数据推送给消费者，这种方式难以适配不同消费者的处理能力——当broker推送速度超过消费者处理速度时，很容易导致消费者被“淹没”。此外，这些系统在实时性与灵活性上的不足，也无法满足搜索相关性调整、实时推荐等在线场景的需求。

在LinkedIn的实践中，工程师们发现，业务既需要传统日志聚合器的高吞吐能力，用于支撑离线分析；又需要消息系统的实时交互能力，服务于在线应用，而现有系统无法同时满足这两点。正是这种“两难”催生了Kafka的研发，它试图打造一个“二合一”的解决方案，让一套系统同时支撑在线与离线的日志数据消费。

Kafka的成功并非源于复杂的技术堆砌，反而得益于其“返璞归真”的设计理念。它围绕日志处理场景的核心需求，剥离了所有非必要功能，通过一系列精准的设计选择，实现了高吞吐、低延迟与可扩展性的统一。

Kafka的核心概念非常简洁，易于理解和使用。它将一类特定类型的消息流定义为“主题”（Topic），比如“用户点击日志”“服务器CPU指标”等都可以作为独立主题。消息的产生者被称为“生产者”（Producer），负责将日志数据批量发布到指定主题；消息的存储与转发由“Broker”（代理服务器）承担，一个Kafka集群通常由多个Broker组成，以实现负载均衡与高可用；消息的使用者则被称为“消费者”（Consumer），可以订阅一个或多个主题，通过拉取的方式获取消息并处理。

这种组件模型的轻量化在API设计上体现得尤为明显，我们可以通过简单的代码示例直观感受其设计逻辑。生产者的使用流程极为简单，只需创建生产者实例，将消息封装成消息集，即可发送到目标主题，并且支持批量发送以提高效率，具体代码如下：

producer = new Producer(…); message = new Message(“test message str”.getBytes); set = new MessageSet(message); producer.send(“topic1”, set);

从这段代码可以看出，Kafka将消息定义为简单的字节 payload，用户可以根据需求选择任意序列化方式对消息进行编码，这种设计既保证了灵活性，又避免了不必要的格式开销。同时，MessageSet的存在为批量发送提供了直接支持，生产者可以将多条消息打包成一个集合发送，这也是提升吞吐量的关键设计之一。

消费者的API同样简洁直观，通过创建主题的消息流来获取数据，每个消息流提供一个永不终止的迭代器——当没有新消息时，迭代器会阻塞等待，直到有新消息产生，代码示例如下：

streams = Consumer.createMessageStreams(“topic1”, 1); for (message : streams[0]) { bytes = message.payload; // do something with the bytes}

这里createMessageStreams方法会将主题“topic1”的消息均匀分配到创建的子流中，具体的分配逻辑会在后续分布式协调部分详细说明。消费者通过迭代器遍历消息流，每次获取消息后提取字节 payload 进行业务处理，整个过程符合开发者的直觉，无需关注复杂的底层通信细节。Kafka还支持两种消费模式：点对点模式下，多个消费者共同消费一个主题的消息，每条消息仅被一个消费者处理；发布订阅模式下，每个消费者都能获取主题的完整消息副本，满足不同业务场景的需求。

Kafka的高性能核心源于对“单分区”的深度优化，每个主题会被划分为多个分区，每个分区对应一个逻辑日志，而物理上则由一组大小相近（通常为1GB）的“分段文件”组成。这种设计让消息存储与传输的效率达到了极致。

在存储层面，Kafka采用了“顺序追加”的写入方式，生产者发送的消息会直接追加到分区的最后一个分段文件末尾。相比传统消息系统的随机写入，顺序写入能最大限度利用磁盘的IO性能，这是实现高吞吐的基础。同时，Kafka并不为每条消息分配独立的ID，而是用消息在日志中的“逻辑偏移量”（Offset）作为唯一标识，消费者通过记录偏移量来追踪自己的消费进度。这种设计避免了维护复杂的索引结构（用于映射消息ID与存储位置），大大降低了系统开销。不过需要注意的是，偏移量是递增但非连续的，下一条消息的偏移量需要通过当前消息的偏移量加上消息长度来计算。

为了进一步提升性能，Kafka采用了“延迟刷盘”策略，只有当累积的消息数量达到配置阈值或超过指定时间后，才会将分段文件从内存刷新到磁盘。消息只有在刷盘后才会对消费者可见，这种设计在可靠性与性能之间取得了平衡。

在传输层面，批量处理是Kafka的关键优化。结合前文的生产者代码可以看出，通过MessageSet实现的批量发送能将多条消息打包成一个请求发送，消费者的拉取请求也会一次性获取最多数百KB的消息，而非单条处理，这就将大量的网络往返开销“摊薄”了。更值得一提的是，Kafka刻意避免在自身层面缓存消息，而是直接依赖操作系统的文件系统页缓存。这种设计不仅避免了“双重缓存”（消息同时存在于应用缓存与页缓存）带来的内存浪费，还能在Broker进程重启后保留缓存状态，减少冷启动的性能损失。

针对多消费者场景，Kafka还利用了Linux系统的sendfile API进行传输优化。传统的文件到socket的数据传输需要经过“磁盘→页缓存→应用缓存→内核缓存→socket”四个步骤，包含四次数据复制与两次系统调用；而sendfile API能直接将文件数据从页缓存传输到socket，省去了两次复制与一次系统调用，大幅降低了传输开销。得益于这些优化，Kafka的生产与消费性能能随着数据量线性增长，即使处理数TB级数据也能保持稳定。

Kafka的Broker采用了“无状态”设计，这是它与传统消息系统的核心区别之一。在传统系统中，Broker需要记录每个消费者的消费进度，这不仅增加了Broker的状态维护开销，还限制了消费的灵活性。而Kafka将消费进度（即偏移量）的维护责任转移给了消费者自身，Broker只需专注于消息的存储与转发。

这种设计带来了双重好处：一方面，Broker的实现复杂度大幅降低，减少了状态同步与磁盘写入操作，提升了系统吞吐量；另一方面，消费者获得了极高的消费灵活性，比如可以刻意“回滚”到历史偏移量，重新消费已处理过的消息。这一功能在实际业务中至关重要，当消费者应用出现逻辑错误时，修复后可以重新处理错误发生期间的消息；当消费者进程崩溃导致未持久化数据丢失时，可以从 checkpoint 记录的偏移量重新消费，避免数据损失。而这种“回滚消费”的能力，在推模型系统中几乎无法实现。

无状态Broker也带来了一个问题：Broker无法知道哪些消息已被所有消费者处理，无法主动删除过期消息。Kafka的解决方案是采用“基于时间的保留策略”，消息在Broker上默认保留7天，超过期限后自动删除。这种方式在实践中非常有效，因为无论是实时消费者还是离线消费者，大多能在几天内完成数据处理，而Kafka稳定的线性性能也让长时间数据保留成为可能。

Kafka作为分布式系统，需要解决Broker与消费者的协调问题，包括分区分配、消费状态同步、节点故障处理等。它没有采用传统的“中心主节点”设计，而是依赖Zookeeper实现去中心化的协调，避免了主节点故障导致的系统不可用风险。

Zookeeper是一个高可用的共识服务，提供了类似文件系统的API，支持创建路径、读写数据、监听节点变化等操作，其数据会在多个服务器间复制，确保可靠性。Kafka利用Zookeeper完成三项核心任务：一是检测Broker与消费者的新增或下线，二是在节点变化时触发消费者的“重平衡”过程，三是维护分区的消费关系与偏移量记录。

具体来说，每个Broker或消费者启动后，都会在Zookeeper中注册相关信息：Broker会上报自己的主机名、端口以及存储的主题分区；消费者会上报所属的“消费者组”与订阅的主题。Zookeeper中还为每个消费者组维护了“所有权注册表”和“偏移量注册表”，前者记录每个分区当前由哪个消费者负责，后者记录每个分区的最新消费偏移量。这些注册信息中，Broker注册表、消费者注册表和所有权注册表是“临时节点”，一旦对应的进程下线，节点会自动删除；偏移量注册表则是“持久节点”，确保消费进度不会丢失。

消费者组是Kafka实现负载均衡的核心机制。每个消费者组由一个或多个消费者组成，共同消费订阅的主题，同一条消息只会被组内的一个消费者处理；不同消费者组则独立消费，互不干扰。为了实现负载均衡，Kafka将“分区”设为最小并行单位，一个分区在同一时间只能被一个消费者组内的一个消费者消费。这种设计避免了多个消费者同时消费一个分区时的锁竞争与状态同步开销，仅在消费者组发生变化时需要进行协调。

当有新消费者加入、旧消费者下线或Broker故障导致分区不可用时，消费者会通过Zookeeper的监听机制收到通知，进而触发“重平衡”过程。重平衡的逻辑非常清晰，算法流程可概括为：消费者首先从Zookeeper读取当前的Broker注册表与消费者注册表，计算出订阅主题的所有可用分区（PT）与组内所有消费者（CT）；然后将PT按顺序均匀分成|CT|份，每个消费者根据自己在CT中的索引领取对应的分区；最后，消费者在所有权注册表中更新自己的分区所有权，并从偏移量注册表中读取上次的消费进度，启动线程拉取数据。

在实际运行中，由于不同消费者收到节点变化通知的时间可能存在差异，可能出现多个消费者争夺同一分区的情况。此时，争夺失败的消费者会释放已持有的分区，等待片刻后重试重平衡，通常几次重试后就能达到稳定状态。当新消费者组创建时，若偏移量注册表中无历史记录，消费者可根据配置从分区的最小偏移量（最早消息）或最大偏移量开始消费。

Kafka在交付保证上采取了“务实”的态度，没有追求不切实际的“绝对可靠”，而是根据日志处理场景的需求，在可靠性与性能之间找到了最佳平衡点。

Kafka的基础交付保证是“至少一次交付”，即每条消息至少会被消费者组处理一次。在大多数情况下，消息能实现“恰好一次交付”，但在特殊场景下可能出现重复。比如消费者进程崩溃且未正常关闭时，接替其消费分区的新消费者会从Zookeeper中记录的最后偏移量开始处理，而崩溃前已处理但未及时更新偏移量的消息就会被重复消费。对于需要严格去重的场景，应用可以通过消息中的偏移量或业务唯一键自行实现去重逻辑，这种方式比依赖系统层面的两阶段提交（实现恰好一次交付的典型方式）更加高效。

在消息有序性方面，Kafka保证单个分区内的消息会按生产顺序交付给消费者，这是因为消息在分区内采用顺序追加存储，消费者也按偏移量顺序拉取。但跨分区的消息有序性无法保证，因为不同分区的消息存储与消费是独立进行的。对于需要全局有序的场景，可以将主题的分区数设为1，但这会牺牲系统的并行处理能力，实际应用中需根据业务需求权衡。

为了防止日志数据损坏，Kafka为每条消息都计算并存储了CRC校验值。当Broker发生IO错误时，会启动恢复进程删除CRC校验不一致的消息；消费者在接收消息后，也可以通过CRC校验检测网络传输过程中是否出现数据损坏，确保数据完整性。

目前Kafka尚未支持消息的内置复制功能，若Broker宕机，其存储的未消费消息会暂时不可用；若存储系统永久损坏，未消费消息则会永久丢失。不过这一问题将在未来版本中解决，开发团队计划加入消息复制机制，让每条消息在多个Broker上存储副本，同时支持异步与同步复制模式，供应用根据可靠性需求选择。

自研发以来，Kafka已在LinkedIn的生产环境中稳定运行多年，成为连接在线与离线数据流转的核心枢纽，支撑着用户行为分析、实时推荐、广告定向等一系列核心业务场景。其部署架构与应用实践，为其他企业提供了宝贵的参考范本。

LinkedIn采用了“分布式集群+跨中心同步”的部署模式。在每个运行用户-facing服务的数据中心，都部署了一个独立的Kafka集群，前端服务生成的各类日志数据会批量发送到本地Broker，硬件负载均衡器会将发送请求均匀分配给集群中的所有Broker，避免单点压力过大。在线消费者如实时推荐服务、安全防护系统等，与Kafka集群部署在同一数据中心，能以极低的延迟获取日志数据，确保业务的实时响应。

为了支撑离线分析场景，LinkedIn还在靠近Hadoop集群与数据仓库的地理位置部署了专门的Kafka集群。这个离线集群运行着一组嵌入式消费者，负责从各个生产数据中心的Kafka集群拉取数据，实现数据的异地同步。之后，通过数据加载任务将同步过来的日志数据导入Hadoop与数据仓库，供数据分析师进行报表生成、用户画像构建、算法模型训练等离线工作。整个数据流转 pipeline 的端到端延迟平均仅为10秒，完全满足在线业务与离线分析的双重需求。

目前，LinkedIn的Kafka集群每天要处理数百GB的新增数据，消息量接近10亿条，且随着 legacy 系统逐步迁移到Kafka，这个规模还在持续增长。在运维层面，Kafka的重平衡机制发挥了关键作用——当运维人员为进行软件升级或硬件维护而启停Broker时，消费者会自动触发重平衡，重新分配分区，确保消费过程不中断，极大降低了运维成本。

为了确保数据在整个流转过程中不丢失，LinkedIn还构建了一套完善的审计系统。每条日志消息在生成时都会携带时间戳与源服务器名称，便于追踪数据来源。同时，生产者会定期生成“监控事件”，记录固定时间窗口内每个主题的消息发送量，并将这些监控事件发布到专门的主题中。消费者可以通过统计接收到的消息量，并与监控事件中的数据进行比对，及时发现数据丢失问题。

在与Hadoop的集成方面，LinkedIn实现了专门的Kafka输入格式，让MapReduce任务可以直接从Kafka读取数据。MapReduce任务会加载原始日志数据，进行分组与压缩后存储到HDFS，为后续的离线分析奠定基础。Kafka的无状态Broker与客户端存储偏移量的设计，与MapReduce的容错机制完美契合——当MapReduce任务失败重启时，可从上次记录的偏移量继续读取数据，既避免了数据重复，也不会造成数据丢失，只有当任务成功完成后，数据与偏移量才会被持久化到HDFS。

为了兼顾消息传输效率与数据兼容性，LinkedIn选择Avro作为Kafka的序列化协议。Avro是一种轻量级的数据序列化框架，不仅序列化后的字节体积小，还支持Schema（模式）演进，能在生产者与消费者Schema发生变化时保持兼容性。

在实践中，每条Kafka消息的 payload 中都会包含Avro Schema的ID与序列化后的字节数据。LinkedIn部署了一个轻量级的Schema注册服务，用于存储Schema ID与具体Schema的映射关系。当消费者接收到消息时，会先根据Schema ID从注册服务中查询对应的Schema（同一Schema只需查询一次，因为Schema是不可变的），再利用Schema将字节数据解码为可处理的对象。这种方式确保了生产者与消费者之间的数据契约，即使Schema发生迭代，也无需同时升级所有服务，极大提升了系统的灵活性。

为了验证Kafka的性能优势，LinkedIn团队进行了一系列对比实验，将Kafka与当时流行的ActiveMQ（v5.4，采用默认的KahaDB存储）和RabbitMQ（v2.4）进行性能比拼。实验环境基于两台配置相同的Linux服务器，每台配备8个2GHz核心、16GB内存、6块磁盘组成的RAID 10阵列，两台机器通过1Gb网络连接，分别作为Broker与生产者/消费者。

生产者性能测试中，三个系统的Broker均配置为异步刷盘，测试任务是由单个生产者向Broker发送1000万条200字节的消息。Kafka分别测试了批大小为1和50的场景，而ActiveMQ与RabbitMQ因缺乏便捷的批处理配置，默认采用批大小为1。

实验结果显示，Kafka的性能优势极为明显：批大小为1时，Kafka的平均吞吐量达到每秒5万条；当批大小提升至50时，吞吐量飙升至每秒40万条，几乎占满了1Gb的网络带宽。相比之下，ActiveMQ的吞吐量不足Kafka的十分之一，RabbitMQ的吞吐量也仅为Kafka（批大小50）的一半左右。

这种性能差距源于三个核心设计优势：一是Kafka的异步发送优化，生产者无需等待Broker的确认，以Broker能承受的最大速度发送消息，这对于日志处理场景完全适用，因为可以牺牲极小的可靠性换取极高的吞吐量；二是高效的存储格式，Kafka每条消息的额外开销仅为9字节，而ActiveMQ则高达144字节，不仅节省了存储空间，更减少了网络传输的数据量；三是批处理的放大效应，结合前文生产者代码中MessageSet的设计，批量发送将单次RPC开销分摊到多条消息上，当批大小为50时，吞吐量提升了近一个数量级。

消费者性能测试中，单个消费者需要从Broker获取1000万条消息，三个系统均配置为预取最多1000条消息（约200KB），ActiveMQ与RabbitMQ采用自动确认模式，且所有消息均缓存在文件系统页缓存中，避免了磁盘IO的干扰。

结果显示，Kafka的平均消费吞吐量达到每秒2.2万条，是ActiveMQ与RabbitMQ的4倍以上。这一优势同样来自多重设计优化：首先是高效的存储格式减少了数据传输量；其次是无状态Broker的设计，Kafka的Broker无需维护每条消息的交付状态，而ActiveMQ的Broker在测试中需要频繁将KahaDB页面写入磁盘，占用了大量资源；最后是sendfile API的应用，省去了两次数据复制与一次系统调用，大幅降低了传输开销。

值得强调的是，这些实验并非为了证明ActiveMQ与RabbitMQ“性能不佳”，而是为了说明“场景专用设计”的价值。ActiveMQ与RabbitMQ支持更丰富的功能，适用于更多元化的企业场景，而Kafka通过聚焦日志处理场景，剥离冗余功能，实现了针对性的性能优化，这正是其核心竞争力所在。

Kafka的成功并未让开发团队止步，他们规划了两大核心发展方向，旨在进一步提升系统的可靠性与功能性，让Kafka从“分布式消息系统”升级为“日志处理与流处理平台”。

目前Kafka的最大短板是缺乏内置的消息复制机制，Broker故障可能导致数据丢失。未来版本中，开发团队计划为Kafka添加完整的复制功能，让每条消息在多个Broker上存储副本，确保即使单个Broker发生不可恢复的故障，数据也能通过副本快速恢复。

为了适配不同业务的需求，Kafka将支持两种复制模式：异步复制与同步复制。异步复制模式下，生产者发送消息后无需等待所有副本确认，仅需Broker主副本确认即可返回，延迟更低但可靠性稍弱；同步复制模式下，生产者需等待所有副本确认后才返回，可靠性更高但延迟略增。应用可以根据自身对可靠性、延迟与吞吐量的需求，灵活选择复制模式与副本数量。

实时应用在获取Kafka的消息后，往往需要进行一系列共性处理，比如基于时间窗口的计数（如统计过去5分钟的用户点击量）、将消息与数据库中的维度数据关联（如根据用户ID查询用户画像）、或实现多个消息流的连接（如将用户点击流与商品曝光流关联计算点击率）。目前这些处理都需要应用自行实现，增加了开发成本。

未来Kafka计划提供原生的流处理能力，构建一套完善的流处理工具库。其基础是“基于关键字的语义分区”设计——生产者在发送消息时，可根据连接关键字（如用户ID）将消息分配到同一分区，确保同一关键字的消息会被同一个消费者处理，为分布式流处理奠定基础。在此之上，Kafka将提供各类窗口函数（滑动窗口、滚动窗口等）、连接算法等工具，让开发者无需重复造轮子，直接基于Kafka构建复杂的实时流处理应用。

Kafka的诞生与成功，为互联网时代的数据处理提供了重要的技术启示。它证明了“场景专用设计”的巨大价值——与其追求“大而全”的通用系统，不如针对特定场景的核心需求，进行精准的功能裁剪与性能优化，这种“少即是多”的设计哲学，正是Kafka实现高吞吐、低延迟与可扩展性统一的关键。从直观简洁的生产者与消费者代码就能看出，Kafka在API设计上追求“够用即好”，避免了传统系统的冗余与复杂，让开发者能快速上手并聚焦业务逻辑。

从LinkedIn的实践来看，Kafka不仅解决了日志处理的“在线+离线”双重需求，更简化了数据基础设施架构，让一套系统支撑起用户行为分析、实时推荐、广告定向、安全防护等多个核心业务场景。如今，Kafka已成为开源社区中最受欢迎的分布式消息系统之一，被Twitter、Netflix、Uber等众多互联网巨头广泛采用，成为大数据 pipeline 中的核心组件。

随着日志数据的持续增长与实时应用需求的不断深化，Kafka的复制功能与流处理能力落地后，其应用边界还将进一步拓展。从本质上看，Kafka的成功不仅是技术的胜利，更是对“以业务需求为导向”的设计理念的最佳诠释，它为未来分布式数据系统的研发提供了清晰的范本。

来源：走进科技生活

标签：分布式 kafka 日志 schema broker

本文地址：http://news.43b.com.cn/a/1364961.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!