• Enhydra Octopus


    Octopus是一个基于Java的ETL工具(数据抽取:Extract、转换:Transform、装载:Load)。它可以连接任何JDBC数据源并通一个XML文件完成数据转换。一个loadjob生成器提供从现存的数据库中生成Octopus loadjob构架.多种不同的数据可以被混合在一起(MSSQL, Oracle, DB2, QED, JDBC-ODBC with Excel and Access, MySQL, CSV-files, XML-files,..) Octopus自带三个特殊的JDBC驱动用来支持通过JDBC访问CSV-files (CSV-JDBC), MS-SQL (FreeTDS)和XML. Octopus支持用Ant和Junit创一个数据库/表并能在构建或测试过程中可以抽取/装载数据.
    点击次数   官方主页【官方主页】   下载地址【下载地址】

    网友留言/评论

    我要留言/评论

    相关开源项目

    JOTM:JOTM 是一个基于Java开放源代码的事务处理管理器。它遵循JTA APIs规范与Business Transaction Protocol(BTP)规范以提供了对Web Service的支持。
    Apache Tika: Apache Tika是一个Java工具包用于利用现有的解析类库,从不同格式的文档中(例如HTML,PDF,Doc),检测和提取出元数据和结构化内容。 功能包括: 1.检测文档的类型,字符编码,语言,等其他现有文档的属性。2.提取结构化的文字内容。3.该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。目前支持的文档格式和对应的解析类库如下: 



    文档格式
    相应的解析类库

    HTML
    TagSoup

    XML
    自定义

    微软的Office文档
    Apache POI

    OpenDocument format (ODF)
    自定义

    PDF
    Apache PDFBox

    EPUB
    自定义

    Rich Text Format (RTF)
    自定义

    压缩文件格式(如 ar, cpio, tar, zip, gzip, bzip2等)
    Apache组织的Commons Compress

    Txt
    ICU

    音频格式
    主要采用Java的标准图像处理包javax.sound

    图像格式
    Java的标准图像处理包javax.imageio, 以及 metadata-extractor软件包。

    视频格式
    目前只支持Flash格式。

    Java类文件
    自定义

    邮件mbox文件格式
    自定义
    RUBiS:平台基准的在线拍卖应用模板。
    Apache Ivy: Apache Ivy 是Apache Ant 的一个子项目,提供了一致、可重复、易于维护的方法,来管理项目的所有构建依赖项。它提供了一些强大的功能包括依赖传递,ant集成, maven存储库兼容,持续集成,html报告等。
    Commons Compress: Commons Compress提供了一组API用于操作(解压/压缩)ar、cpio、tar、zip、gzip和bzip2等格式的文件。ZipArchiveEntry entry = new ZipArchiveEntry(name);entry.setSize(size);zipOutput.putArchiveEntry(entry);zipOutput.write(contentOfEntry);zipOutput.closeArchiveEntry();

    Jonathan:完全用Java开发的分布式的对象平台(DOP:Distributed Object Platform)。
    ProActive:ProActive是一个为进行并联地,分布式地,并发地计算提供一个统一的,灵活的,安全的框架。ProActive提供了一个全面的API从而简化了分布式(局域网上的,并联的工作站,Internet网上的)应用程序的开发。
    数据序列化框架Apache Avro: Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase和Hive的Client端与服务端的数据传输也采用了这个工具,Avro可以做到将数据进行序列化,适用于远程或本地大批量数据交互。在传输的过程中Avro对数据二进制序列化后 节约数据存储空间 和 网络传输带宽。Avro还可以做到在同一系统中支持多种不同语言,也有点类似Apache的另一个产品:Thrift,对于Thrift不同的是Avro更加具有灵活性,Avro可以支持对定义的数据结构(Schema)动态加载,利于系统扩展。摘自: Avro入门1–序列化与远程通信  
    Apache SSHD: Apache SSHD是一个100%纯Java类库用于在基于Java开发的客户端与服务器提供SSH协议支持。这个类库采用Apache MINA开发,它是一个可扩展和高性能的异步IO类库。
    Apache Cassandra: Apache Cassandra是一套开源分布式Key-Value存储系统。它最初由Facebook开发,用于储存特别大的数据。拥有:分布式;基于column的结构化;高伸展性等特点。它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra 的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra群集来说,扩展性能 是比较简单的事情,只管在群集里面添加节点就可以了。Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite(分布式的Key-Value存 储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库 的。支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。)Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础,结合了Google BigTable基于列族(Column Family)的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。