百度开源的高性能分布式计算框架制作所的Python

< > >
作者:王望
>“新闻内容”>
>“编辑器查看器文本清除”>

百度最近开设了一个计算框架称为制作所,旨在提供一个简单易用的界面描述用户的计算任务,使用相同的代码运行在不同的执行引擎。

Bigflow的设计有许多想法,从谷歌和谷歌的云数据flumejava借来的,界面设计的另一部分借鉴了Apache的火花。用户可以不在乎制作所的实际操作,写自己的逻辑,就像写一个程序。制作所将把这些计算相应的执行引擎。

Bigflow的目标是使程序更容易编写,测量更方便、运行效率更高,更容易维护和迁移成本更低。

Bigflow现在在百度公司,将批处理计算引擎DCE在百度公司(类似于社区Tez),迭代发动机火花,和内部流场的计算引擎的双子座。但开源版本目前只开放给制作所的火花。


>强>特性 >

    高性能 Bigflow使制作所属性的详细信息可以被更多的用户需求,界面设计,优化和Bigflow将根据计算属性的工作;其他执行层实现C++的使用,一些代码逻辑的用户将被翻译成C++实现,可以显著提高性能。在公司内部的实际业务测试中,性能远远高于用户的手写作业。根据现有业务重写的一些工作,性能比原来的用户代码提高了100%倍。正在编写基准测试的开放源代码版本。
    是简单和易于使用的界面制作所看起来像火花,但实际效用后会发现使用一些独特的设计使得Bigflow制作所的代码更像是一个独立的程序,例如,屏蔽分区的概念,支持嵌套的分布式数据集、接口更容易理解,并且有更多的代码的可重用性。特别是,在许多情况下,需要优化,因为Bigflow可以执行自动的性能和内存优化,用户可以避免许多优化工作需要执行由于OOM或性能不足,降低用户成本。
    在这里,Python是一个强大的公民,我们对Python语言的原生支持是Python。使用pyspark时,许多用户都痴迷于pyspark效率低,也不支持一些当前的图书馆,或是通过一些函数,在Scala和java是唯一可用的困扰,并暂时在PySpark。在Bigflow,Python是一个一流的公民。毕竟,我们只是支持Python。上述问题在Bigflow不是一个问题。性能、功能和可用性对Python用户都很友好。

    >“新闻链接”>
    >“链接标题”>相关链接
    >“链接列表”>
    详细介绍 Bigflow:点击查看
    Bigflow下载地址:< a href =,= https://www.oschina.net/home/login,goto_page HTTPS 3a % % % 2f 2fwww。oschina。净% % % 2fnews 2f91033 2fbaidu开源制作所,目标=,_blank,rel=,noopener,点击下载 。

    资料全部来自网络,如果有问题可以发邮件到站长邮箱