• Mahout


    Mahout项目Apache Lucene开源搜索引擎的一个子项目。在其中实现一些常见的用于集群、分类和CP的机器学习算法。

    Mahout's goal is to build scalable machine learning libraries. With scalable we mean:



        * Scalable to reasonably large data sets. Our core algorithms for clustering, classfication and batch based collaborative filtering are implemented on top of Apache Hadoop using the map/reduce paradigm. However we do not restrict contributions to Hadoop based implementations: Contributions that run on a single node or on a non-Hadoop cluster are welcome as well. The core libraries are highly optimized to allow for good performance also for non-distributed algorithms.


        * Scalable to support your business case. Mahout is distributed under a commercially friendly Apache Software license.


        * Scalable community. The goal of Mahout is to build a vibrant, responsive, diverse community to facilitate discussions not only on the project itself but also on potential use cases. Come to the mailing lists to find out more.



    Currently Mahout supports mainly four use cases: Recommendation mining takes users' behavior and from that tries to find items users might like. Clustering takes e.g. text documents and groups them into groups of topically related documents. Classification learns from exisiting categorized documents what documents of a specific category look like and is able to assign unlabelled documents to the (hopefully) correct category. Frequent itemset mining takes a set of item groups (terms in a query session, shopping cart content) and identifies, which individual items usually appear together.


    点击次数   官方主页【官方主页】   下载地址【下载地址】

    网友留言/评论

    我要留言/评论

    相关开源项目

    TreasureMap:TreasureMap是JSR-296(Swing Application Framework)ResourceMap的一个单独实现。兼容Java 1.5+。
    Multiverse: Multiverse是Software Transactional Memory(STM)的一个Java实现。软件事务内存 (STM) 是一种模拟数据库事务的并发控制 机制来控制在并行计算时对共享内存的访问控制。它是锁的一种替代机制。在STM中,一个事务指的是一段读、写共享内存的代码。这些读写操作在逻辑上是一个独立的单元,其中间状态对于其它的事务而言,是不可见的。
    docx4j: docx4j是一个用于操作Microsoft Open XML(Word docx、Powerpoint pptx和Excel xlsx)文件的Java开源类库。
    收录时间:2010-11-05 23:52:01
    isemail: isemail这个项目提供了一种功能来校验email地址是否符合RFC标准。支持DNS检验。提供PHP和Java两种实现版本。收录时间:2010-11-10 09:50:01
    jOOQ: jOOQ代表面向Java对象查询。它主要包含以下特性:
    代码生成:jOOQ能够生成与数据库结构相对应的Java对象,包括表格,视图,存储过程,用户定义的类型等。
    Active records:jOOQ实现一个易于使用的Active Record模式。它不是一个OR-mapper,但提供了表格/视图与Java对象之间的一对一映射和字段与对象成员之间的映射。
    Typesafe SQL:jOOQ允许使用内置的DSL来编写编译期类型安全的SQL查询语句。
    SQL标准:jOOQ支持所有标准SQL语法包括,复杂的UNION,嵌套SELECTs,Joins,别名。
    Jackcess Encrypt: Jackcess Encrypt是Jackcess项目的一个扩展类库实现了Microsoft Access和Microsoft Money某些形式的加密功能。
    JNotify: JNotify是一个Java开源类库能够让Java应用程序监听系统文件变化事件包括:文件创建文件修改文件重命名文件删除 支持的操作系统有:Window、Linux、Mac OS。收录时间:2010-11-10 22:06:51
    jPDF Tweak : jPDF Tweak是一个Java Swing应用程序用于调整PDF文档的小工具,它可以实现 PDF文档的合并、分割、页面旋转、页面重新排序、水印、加密、签名以及添加附件等操作。
    收录时间:2010-12-15 20:43:31
    HibernateTools:功能介绍:
     1.自动生成hibernate配置文件 和 javaBean,以及HTML表单文件; 
    2.支持读取数据库表和字段的中文注释信息; 
    3.可以选择数据库; 
    4.可以选择表,hibernate 主键策略; 
    5.可以设置生成的 javaBean 的 package 路径; 
    6.可选择生成的文件保存路径; 
    7.数据库服务器信息可保存,编辑,删除; 
    8.支持数据库 mysql5,oracle10g,mssql200,mssql2005; 
    9.数据库中字段如果用下划线分隔,自动采用驼峰式命名 
    Jailer : Jailer是一个工具用于数据库子集分割、取样、结构浏览和渲染。它能够从关系数据库导出连贯、完整的数据记录参照。它能够删除过时和归档的数据而不违反完整性,生成具有层次结构的XML,拓扑排序的SQL-DML和DbUnit数据集。