julia有数据流式计算的库吗?

标准库里 有类似 java.util.stream 的 基本接口吗?

有类似 spark, flink 这样的 流式处理库 吗?

处理流式大数据, 有什么库可以推荐 ??

OnlineStats.jl

1 个赞

OnlineStats.jl 并不够, 比spark差远了, 做不了并行.
也没有丰富的 stream source支持

1 个赞

标准库里,最接近的也就 Itereators 了,不过 JuliaFolds 里的一些库,基本能实现 java steam里的功能,比如: GitHub - JuliaFolds/Transducers.jl: Efficient transducers for Julia

没有,有的话Julia早就火得一塌糊涂了。。。

我在写一个跟flink类似的一个工具,还需要点时间打磨,目测年底前能有个初步的版本发布

1 个赞

可以做一些流处理的事, 也有一些问题, 如不支持流式输入(eachline, kaffka), 有状态Op并行支持不好.

GitHub - findmyway/Oolong.jl: I used to drink coffee a lot. But oolong has become my favorite recently. Hope you like it too.☕ 这个吗?

你是重实现了个Actor框架? 怎么不用已有的actor实现: JuliaActors/Actors.jlCirco-dev/Circo ?

是的

Actors.jl 的实现语法上更接近 Erlang 那一套,而且侧重点主要是在单机上,集群的实现完全依赖于Distributed.jl.实际用起来你会发现许多功能都是缺失的.Circo里有些特性其实跟我想要的比较接近了,比如 actor migration, 但是它的卖点跟我想要并不是很匹配.简单来说,大家的内核都是 actor model,但是在易用性,scalability和落地场景上还是会有很大不同的.

我看了下你的 Oolong.jl, 感觉挺好的, 代码也简单, 想学习下, 不知道你有没有相关的介绍文章或资料.

好像现在还 run 不起来?

还等等… 目前master分支上应该是不能运行的状态
许多feature还没加进来 :joy:

目前对我影响比较大的一个是 Orleans的那篇distributed virtual actors 的paper,另外是 Ray的 Architechure Whitepaper。实现细节上,参考了 proto.actor,算是博采众长吧。

等有个基本可用的版本之后我再发个announcement

1 个赞

期待, 希望多分配点精力开发, 早点可以发布 :joy:

oneflow 也是基于actor的深度学习训练框架, 主打高性能. 你也可以参考下.

2 个赞

我正在写一个Spark-like. 用Oolong.jl对吗?

我的主要用途是batch processing,大型的group-by 和 join .

我准备看看Dagger.jl是否适用。

1 个赞

可以先试试,从功能的角度讲,Dagger.jl 应该是够用的,设计的时候,建议把接口做得灵活一些,这样不至于绑定在一个库上面。

我最近业余时间主要还是聚焦在一些基础组件上,有兴趣可以看看 oolong.dev · GitHub 里的几个项目,然后会再集中精力把Oolong.jl完善下,可能得先做一个完整可用的版本出来之后才好进一步确定后面的方向。

感觉等你研究下 Dagger.jl 之后,我们可以找个时间深入交流下。可以预见的是,只要接下来有更多的企业采用Julia,那么这块的需求应该是会持续增长的 :wink:

1 个赞

这个提议不错。我比较土,不太知道streaming用在什么地方。我只懂一些batch processing的皮毛。所以spark-like 就做得比较简单。还在poc 阶段。

2 个赞

可以考虑集成 https://www.featurestore.org/ GitHub - feast-dev/feast: Feature Store for Machine Learning 这种功能

1 个赞