1.简介全文索引插件用于对MYISAM的全文检索特性进行扩展。通过全文检索,我们可以对文档、图片或者视频等丰富的数据类型进行分词,建立索引,以便进行快速的检索。目前MySQL仅在MYISAM存储引擎里支持全文检索,而对于innodb,则要在6.0以后的版本中才会实现。但目前全文索引也有着如下的限制:1. 只支持MyISAM2. 不支持中文3. 如果支持在一个单独表中使用多个字符集,则所有fulltext索引的列必须使用完全一样的字符集和库4. MATCH()列列表必须同该表中一些FULLTEXT索引定义中的列列表完全符合,除非MATCH()在IN BOOLEAN MODE5. 对AGAINST() 的参数必须是一个常数字符串。 那么Full Text Plugin在这其中扮演什么样的角色呢。MYISAM本身自带的分词程序会将列里面的数据进行分词存储到全文索引里,同时也会使用分词来处理查询中出现的字符串;Full Text Plugin可以完全接管该功能。例如,我们可以通过Plugin实现对多媒体数据的分词检索,可以使用自己的算法进行分词,甚至可以改变全文检索的语法。 2. 如何编写Full Text Plugin插件的编写主要包括: init、deinit以及parse程序;每次执行sql之前会调用一次init(),执行完成后会调用deinit函数。Parse()函数在执行SQL的过程中进行语法分析 1)声明插件结构体st_mysql_ftparser用于声明一个full text插件struct st_mysql_ftparser{ intinterface_version; int(*parse)(MYSQL_FTPARSER_PARAM *param); int(*init)(MYSQL_FTPARSER_PARAM *param); int(*deinit)(MYSQL_FTPARSER_PARAM *param);};
| 字段 | 类型 | 描述 |
| interface_version | int | 版本号 |
| parse | int (*parse)(MYSQL_FTPARSER_PARAM *param); | 语法分析程序 |
| init | int (*init)(MYSQL_FTPARSER_PARAM *param); | 初始化函数,函数指针 |
| deinit | int (*deinit)(MYSQL_FTPARSER_PARAM *param); | 清理函数,函数指针 |
可以看到,这三个函数公用一种参数类型:MYSQL_FTPARSER_PARAM,这个结构体由MySQL来初始化,但我们同样可以修改其函数指针,以使用自定义的函数,结构体如下:
| 字段 | 类型 | 描述 |
| mysql_parse | int (*mysql_parse)(struct st_mysql_ftparser_param *,char *doc, int doc_len) | 默认指向mysql内建的全文分词函数。 |
| mysql_add_word | int (*mysql_add_word)(struct st_mysql_ftparser_param *,char *word, int word_len,MYSQL_FTPARSER_BOOLEAN_INFO *) | 用于对每个分解的单词进行处理;通常会把这些单词加到一颗树或列表里。并在结束后插入/更新/删除全文索引里的记录 |
| ftparser_state | void * | 我们可以在该指针分配额外的内存,用于在不同的API接口间传递 |
| mysql_ftparam | void * | 由MySQL内部使用,将信息传递给mysql_parse和mysql_add_word,编写plugin时无需修改 |
| cs | struct charset_info_st * | 文档的字符集 |
| doc | char * | 需要被解析的文档,例如,我们可以填写一个url,那么在语法分析程序里。我们可以读取到Url对应的文件,再进行分析 |
| length | int | 文档的长度,这是因为doc可能并不是以 结尾的,我们在写plugin时需要注意这一点 |
| flags | int | 目前仅有一个选项:MYSQL_FTFLAGS_NEED_COPY。该选项用于告诉mysql_add_word需要一份单词的拷贝;内建的mysql_parse()无需指定该Flag,这是因为其使用doc的指针,而doc在离开函数后也是有效的 |
| mode | enum enum_ftparser_mode | 操作的类型,主要包括以下几种:MYSQL_FTPARSER_SIMPLE_MODE :解析程序仅返回需要的单词,剔除停词、过滤词MYSQL_FTPARSER_WITH_STOPWORDS :用于布尔查询的单词匹配,这种情况下需要考虑所有的单词,包括停词MYSQL_FTPARSER_FULL_BOOLEAN_ INFO :用于解析一个包含布尔操作符的布尔查询字符串;这种情况下,我们需要设置mysql_add_word的参数——MYSQL_FTPARSER_BOOLEAN_INFO
|
当mode被设置为MYSQL_FTPARSER_FULL_BOOLEAN_ INFO时。我们需要为函数mysql_add_word设置其最后一个参数,我们再看该函数的原型:int (*mysql_add_word)(structst_mysql_ftparser_param *,char *word, int word_len,MYSQL_FTPARSER_BOOLEAN_INFO *); 最后一个参数结构体为MYSQL_FTPARSER_BOOLEAN_INFO,也就是结构体st_mysql_ftparser_boolean_info,如下所示:
| 字段 | 类型 | 描述 |
| type | enum enum_ft_token_type | 用于标示token的类型,有如下几种:FT_TOKEN_EOF :无需设置FT_TOKEN_WORD :表示普通的单词FT_TOKEN_STOPWORD:停词 ,建立索引时会被忽略FT_TOKEN_LEFT_PAREN :表示一个子表达式开始FT_TOKEN_RIGHT_PAREN :表示一个子表达式结束 |
| yesno | int | 用于支持布尔操作:>0 单词必须要匹配,对应 +<0 不允许匹配,对应 -=0 可能匹配,会增加关联度 |
| weight_adjust | int | 关联词的重要性、>0, 对应于>操作符<0, 对应于<操作符 |
| wasign | char | 单词的重要性:非0 表示噪音单词,会减少关联度,对应于操作符 ~ |
| trunc | char | 如果为非0,则单词被认为是一个前缀,所有以此为前缀的都会被匹配,对应的操作符为 * |
| prev | char | 忽略 |
| quot | char* | 对应于””双引号操作符 |
Oracle Scheduler JobsUbuntu 10.10 安装MySQL 5.1.34相关资讯 MySQL基础教程
- MySQL基础教程:关于varchar(N) (01月22日)
- MySQL SELECT同时UPDATE同一张表 (02/19/2013 07:20:18)
- Linux修改MySQL最大并发连接数 (02/15/2013 15:37:21)
| - 高性能MySQL(第3版) 中文PDF带目 (10/26/2014 10:03:50)
- 如何在MySQL中的获取IP地址的网段 (02/18/2013 12:23:33)
- C++和C#访问MySQL的简单代码示例 (12/21/2012 09:04:10)
|
本文评论 查看全部评论 (0)