Flink

其他

当机器学习遇上隐私保护,聊聊联邦学习和分布式机器学习

如果你之前没有开发过分布式的项目,光看上面这段介绍,容易产生一种感觉,觉得分布式机器学习也没什么东西,不过是将一台电脑的工作分给多台电脑去干,但实际远比想象要复杂得多,难点在于如何进行模型训练。
2021年6月30日
其他

它来喽!它真的来喽!!Streaming与Hudi、Hive湖仓一体!

(cleanerPlan.getFilePathsToBeDeletedPerPartition().values().stream().mapToInt(List::size).count()),
2021年3月26日
其他

达摩院基于元学习的对话系统

AI团队导读:随着科技的不断进步发展,智能对话系统因其巨大的潜力和商业价值将会成为下一代人机交互的风口,不少公司都纷纷开始研究人机对话系统,希望人与机器之间能够通过自然对话进行交互。笔者所在的达摩院
2021年1月9日
其他

当当图书大促!Flink、大数据类好书满100减50!更多满减低至4折!

从图形绘制、数据动态展示、Web交互等维度全面讲解Bokeh功能和使用,不含复杂数据处理和算法,深入浅出,适合零基础入门,包含大量案例。
2020年4月11日
其他

HBase抗战总结|阿里巴巴HBase高可用8年抗战回忆录

Replication。随着异地多活的发展,集群之间的数据同步关系开始变得复杂,为此我们开发了一个关于拓扑关系和链路同步延迟的监控,并且在类环形的拓扑关系中优化了数据的重复发送问题。BDS
2019年10月26日
其他

真实案例 | Flink实时计算处理脏数据问题

解决办法解决办法更简单。这个问题在Spark和Flink中都会存在,最直接的办法就是过滤掉。阿里云上的Blink同样给出了文档,如下:使用:select
2019年10月7日
其他

Flink 2.0前瞻!关于技术栈的重新思考与批流融合

接口。批是通过JM分配split,然后task去请求split来进行数据消费。流里的source
2019年5月19日
其他

重磅!Flink 将重构其核心线程模型

time的触发是同步的,可以归属到第一点)下一小节会介绍如何对这三个并发源的处理逻辑进行改进。提议的改进点文档所包含的改进点主要有如下四个。Stream
2019年5月12日
其他

一致性协议浅析:从逻辑时钟到Raft

前言春节在家闲着没事看了几篇论文,把一致性协议的几篇论文都过了一遍。在看这些论文之前,我一直有一些疑惑,比如同样是有Leader和两阶段提交,Zookeeper的ZAB协议和Raft有什么不同,Paxos协议到底要怎样才能用在实际工程中,这些问题我都在这些论文中找到了答案。接下来,我将尝试以自己的语言给大家讲讲这些协议,使大家能够理解这些算法。同时,我自己也有些疑问,我会在我的阐述中提出,也欢迎大家一起讨论。水平有限,文中难免会有一些纰漏门也欢迎大家指出。逻辑时钟逻辑时钟其实算不上是一个一致性协议,它是Lamport大神在1987年就提出来的一个想法,用来解决分布式系统中,不同的机器时钟不一致可能带来的问题。在单机系统中,我们用机器的时间来标识事件,就可以非常清晰地知道两个不同事件的发生次序。但是在分布式系统中,由于每台机器的时间可能存在误差,无法通过物理时钟来准确分辨两个事件发生的先后顺序。但实际上,在分布式系统中,只有两个发生关联的事件,我们才会去关心两者的先来后到关系。比如说两个事务,一个修改了rowa,一个修改了rowb,他们两个谁先发生,谁后发生,其实我们并不关心。那所谓逻辑时钟,就是用来定义两个关联事件的发生次序,即‘happens
2019年4月30日
其他

Flink Forward 2019 旧金山之行

2.0将会迎来重大变动:Flink将会重构技术栈并在API上作出重大的调整。Flink目前为有界/批量(DataSet)和流(DataStream)处理程序提供不同的API。
2019年4月10日