如何编写MySQL全文索引插件

1.简介全文索引插件用于对MYISAM的全文检索特性进行扩展。通过全文检索，我们可以对文档、图片或者视频等丰富的数据类型进行分词，建立索引，以便进行快速的检索。目前MySQL仅在MYISAM存储引擎里支持全文检索，而对于innodb，则要在6.0以后的版本中才会实现。但目前全文索引也有着如下的限制：1. 只支持MyISAM2. 不支持中文3. 如果支持在一个单独表中使用多个字符集，则所有fulltext索引的列必须使用完全一样的字符集和库4. MATCH（）列列表必须同该表中一些FULLTEXT索引定义中的列列表完全符合,除非MATCH（）在IN BOOLEAN MODE5. 对AGAINST（）的参数必须是一个常数字符串。那么Full Text Plugin在这其中扮演什么样的角色呢。MYISAM本身自带的分词程序会将列里面的数据进行分词存储到全文索引里，同时也会使用分词来处理查询中出现的字符串；Full Text Plugin可以完全接管该功能。例如，我们可以通过Plugin实现对多媒体数据的分词检索，可以使用自己的算法进行分词，甚至可以改变全文检索的语法。 2. 如何编写Full Text Plugin插件的编写主要包括： init、deinit以及parse程序；每次执行sql之前会调用一次init（），执行完成后会调用deinit函数。Parse（）函数在执行SQL的过程中进行语法分析 1）声明插件结构体st_mysql_ftparser用于声明一个full text插件struct st_mysql_ftparser{ intinterface_version; int（*parse）（MYSQL_FTPARSER_PARAM *param）; int（*init）（MYSQL_FTPARSER_PARAM *param）; int（*deinit）（MYSQL_FTPARSER_PARAM *param）;};

字段	类型	描述
interface_version	int	版本号
parse	int （parse）（MYSQL_FTPARSER_PARAM param）;	语法分析程序
init	int （init）（MYSQL_FTPARSER_PARAM param）;	初始化函数，函数指针
deinit	int （deinit）（MYSQL_FTPARSER_PARAM param）;	清理函数，函数指针

可以看到，这三个函数公用一种参数类型：MYSQL_FTPARSER_PARAM，这个结构体由MySQL来初始化，但我们同样可以修改其函数指针，以使用自定义的函数，结构体如下：

字段	类型	描述
mysql_parse	int （mysql_parse）（struct st_mysql_ftparser_param ,char *doc, int doc_len）	默认指向mysql内建的全文分词函数。
mysql_add_word	int （mysql_add_word）（struct st_mysql_ftparser_param ,char word, int word_len,MYSQL_FTPARSER_BOOLEAN_INFO ）	用于对每个分解的单词进行处理；通常会把这些单词加到一颗树或列表里。并在结束后插入/更新/删除全文索引里的记录
ftparser_state	void *	我们可以在该指针分配额外的内存，用于在不同的API接口间传递
mysql_ftparam	void *	由MySQL内部使用，将信息传递给mysql_parse和mysql_add_word，编写plugin时无需修改
cs	struct charset_info_st *	文档的字符集
doc	char *	需要被解析的文档，例如，我们可以填写一个url，那么在语法分析程序里。我们可以读取到Url对应的文件，再进行分析
length	int	文档的长度，这是因为doc可能并不是以结尾的，我们在写plugin时需要注意这一点
flags	int	目前仅有一个选项：MYSQL_FTFLAGS_NEED_COPY。该选项用于告诉mysql_add_word需要一份单词的拷贝；内建的mysql_parse（）无需指定该Flag，这是因为其使用doc的指针，而doc在离开函数后也是有效的
mode	enum enum_ftparser_mode	操作的类型，主要包括以下几种：MYSQL_FTPARSER_SIMPLE_MODE ：解析程序仅返回需要的单词，剔除停词、过滤词MYSQL_FTPARSER_WITH_STOPWORDS ：用于布尔查询的单词匹配，这种情况下需要考虑所有的单词，包括停词MYSQL_FTPARSER_FULL_BOOLEAN_ INFO ：用于解析一个包含布尔操作符的布尔查询字符串；这种情况下，我们需要设置mysql_add_word的参数——MYSQL_FTPARSER_BOOLEAN_INFO

当mode被设置为MYSQL_FTPARSER_FULL_BOOLEAN_ INFO时。我们需要为函数mysql_add_word设置其最后一个参数，我们再看该函数的原型：int （*mysql_add_word）（structst_mysql_ftparser_param *,char *word, int word_len,MYSQL_FTPARSER_BOOLEAN_INFO *）; 最后一个参数结构体为MYSQL_FTPARSER_BOOLEAN_INFO，也就是结构体st_mysql_ftparser_boolean_info，如下所示：

字段	类型	描述
type	enum enum_ft_token_type	用于标示token的类型，有如下几种：FT_TOKEN_EOF ：无需设置FT_TOKEN_WORD ：表示普通的单词FT_TOKEN_STOPWORD：停词，建立索引时会被忽略FT_TOKEN_LEFT_PAREN ：表示一个子表达式开始FT_TOKEN_RIGHT_PAREN ：表示一个子表达式结束
yesno	int	用于支持布尔操作：>0 单词必须要匹配，对应 +<0 不允许匹配，对应 -=0 可能匹配，会增加关联度
weight_adjust	int	关联词的重要性、>0，对应于>操作符<0, 对应于<操作符
wasign	char	单词的重要性：非0 表示噪音单词，会减少关联度，对应于操作符 ~
trunc	char	如果为非0，则单词被认为是一个前缀，所有以此为前缀的都会被匹配，对应的操作符为 *
prev	char	忽略
quot	char*	对应于””双引号操作符

Oracle Scheduler JobsUbuntu 10.10 安装MySQL 5.1.34相关资讯 MySQL基础教程

MySQL基础教程：关于varchar（N）（01月22日）
MySQL SELECT同时UPDATE同一张表（02/19/2013 07:20:18）
Linux修改MySQL最大并发连接数（02/15/2013 15:37:21）

高性能MySQL（第3版）中文PDF带目（10/26/2014 10:03:50）
如何在MySQL中的获取IP地址的网段（02/18/2013 12:23:33）
C++和C#访问MySQL的简单代码示例（12/21/2012 09:04:10）

本文评论查看全部评论（0）

表情：姓名：匿名字数

<button class="layui-btn layui-bg-purple" id="dofav">收藏该网址</button>
        </div>
    </div>
</div>
<div class="copyright">
    <div id="footbar">
        版权所有©石家庄振强科技有限公司2024 <a href="https://beian.miit.gov.cn" target="_blank">冀ICP备08103738号-5</a> <a href="/storage/sitemap.xml">网站地图</a>
    </div>
</div>
<script> var _mtj = _mtj || [];
(function () {
    var mtj = document.createElement("script");
    mtj.src = "https://node12.aizhantj.com:21233/tjjs/?k=p2tceukth5c";
    var s = document.getElementsByTagName("script")[0];
    s.parentNode.insertBefore(mtj, s);
})(); </script>
<script src="/static/lib/layui/layui.js"></script>
<script src="/static/lib/jquery/jquery.js"></script>
<script src="/static/lib/ajax.js"></script>
<script>
    layui.use(function () {
        var layer = layui.layer;
        var $ = layui.jquery;
        $("#dofav").click(function () {
            var artid = $(".article").attr("artid");
            var params={
                artid:artid,
                addtype:'escdns_article',
                t:Math.random()
            };
            if(artid>0){
                ajax.request({
                    method: "/index/article/addfavorite", type: "post", callback: function (res) {
                        layer.msg(res.msg);
                    }
                },params);
            }
        })
    })
</script>
</body>
</html>