• smallseg


    smallseg -- 开源的,基于DFA的轻量级的中文分词工具包特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

    例子:

        cuttest("这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。")
        cuttest("我不喜欢日本和服。")
        cuttest("雷猴回归人间。")
        cuttest("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")
        cuttest("我需要廉租房")
        cuttest("永和服装饰品有限公司")
        cuttest("我爱北京天安门")
        cuttest("abc")
        cuttest("隐马尔可夫")
        cuttest("开源吧是个好网站")
        cuttest("“Microsoft”一词由“MICROcomputer(微型计算机)”和“SOFTware(软件)”两部分组成")
        cuttest("草泥马和欺实马是今年的流行词汇")
        cuttest("伊藤洋华堂总府店")
        cuttest("中国科学院计算技术研究所")
        cuttest("罗密欧与朱丽叶")


    Load dict...
    Dict is OK.
    这是 一个 伸手不见五指 黑夜 我叫 孙悟空 我爱 北京 我爱 Python C++
    ================================
    我 不喜欢 日本 和服
    ================================
    雷猴 回归 人间
    ================================
    工信 信处 女干事 每月 经过 下属 科室 都要 亲口 交代 24 口 交换机 等 技术性 器件 安装 工作
    ================================
    我 需要 廉租房
    ================================
    永 和服 装饰品 有限公司
    ================================
    我爱 北京 天安门
    ================================
    abc
    ================================
    隐 马尔可夫
    ================================
    开源 开源吧 是个 好网站
    ================================
    Microsoft 一词 由 MICROcomputer 微型 计算机 SOFTware 软件 两部分 组成
    ================================
    草泥马 欺实 实马 马是 今年 流行 词汇
    ================================
    伊藤 洋华堂 总府 府店
    ================================
    中国 科学院 计算技术 研究所
    ================================
    罗密欧 与 朱丽叶
    ================================

    点击次数   官方主页【官方主页】   下载地址【下载地址】

    网友留言/评论

    我要留言/评论

    相关开源项目

    ANTLR:ANTLR(ANother Tool for Language Recognition)它是这样的一种工具,它可以接受词文法语言描述,并能产生识别这些语言的语句的程序。作为翻译程序的一部分,你可以使用简单的操作符和动作来参数化你的文法,使之告诉ANTLR怎样去创建抽象语法树(AST)和怎样产生输出。ANTLR知道怎样去生成识别程序,语言包括Java,C++,C#.
    JavaCC:Java Compiler Compiler 是一个用JAVA开发的最受欢迎的语法分析生成器。这个分析生成器工具可以读取上下文无关且有着特殊意义的语法并把它转换成可以识别且匹配该语法的JAVA程序。它还提供JJTree等工具来帮助我们建立语法树。JavaCC plug-in:一个用于辅助JavaCC应用程序开发的Eclipse插件.
    SJPT:SJPT是一个分析工具包支持包括自顶向下(LL(1))和自底向上(LR(0), SLR(1), LR(1) and LALR(1))。该工具包同时支持为所有自底向上的分析法生成Java剖析器。
    JFlex:JFlex是一个Java的词法/语法分析生成器。
    SableCC:SableCC是一个用来生成编译器和分析器的面向对象的框架。这个框架是基于两个基本的设计决策:首先是利用面向对象技术自动构建精确的典型的抽象语法树。第二,这个框架使用经过扩展的Visitor访问者模式来生成tree-walker类。
    CUP:一个LALR(Lookahead Left to Right Parsing)语法/词法分析生成器.
    Beaver:Beaver是一个LALR(1) 语法分析生成器。它读取一些上下文无关的语法并把它转换成一个利用该语法描述的语言分析器(一个Java类)。
    grammatica:Grammatica是一个C#和Java的语法剖析器生成器(Parser Generator或叫作编译器的编译器:Compiler Complier) 。它相对于其它一些类似的工具如yacc和ANTLR有了更好的改进。这是因为Grammatica:
    1.创建了更好的注释和易读的源代码.
    2.拥有错误自动恢复并能够详述错误信息.
    3.支持语法/词法测试与调试.
    Chaperon:Chaperon是一个可以把有结构的Text转换成XML.它包括一个强大的LALR(1)解析器来解析Text和一个可以用来创建XML文档的Tree builder。
    runcc:runcc是一种在运行时生成parsers和lexers的语法分析生成器。它自带一个Java和XML分析器的例子。