千家信息网

solr7.4创建core,导入MySQL数据,中文分词

发表于:2024-11-19 作者:千家信息网编辑
千家信息网最后更新 2024年11月19日,#solr版本:7.4.0一、新建Core进入安装目录下得server/solr/,创建一个文件夹,如:new_core拷贝server/solr/configsets/_default/conf/下
千家信息网最后更新 2024年11月19日solr7.4创建core,导入MySQL数据,中文分词

#solr版本:7.4.0

一、新建Core

  1. 进入安装目录下得server/solr/,创建一个文件夹,如:new_core

  2. 拷贝server/solr/configsets/_default/conf/下的solrconfig.xml、protwords.txt、synonyms.txt、stopwords.txt文件和lang文件夹,到刚刚创建的new_core文件夹下

  3. 拷贝server/solr/configsets/_default/conf/下的schema.xml文件到刚刚创建的new_core文件夹下,将其重命名为schema.xml

  4. 进入solr页面选择Core Admin,设置好名字还有刚才新建的dir,Add Core

  5. 然后在core selector 就能看到刚才新建的core 了。

二、导入MySQL数据

  1. 打开刚添加的solrconfig.xml文件 vi server/solr/new_core/solrconfig.xml,查找一下requestHandler标签,在标签同级下加入导入数据的配置
        db-data-config.xml
  2. new_core下新增db-data-config.xml文件(样例在安装目录example/example-DIH/solr/db/conf/下有),并添加如下配置:
            
  3. 下载mysql-connector-java驱动 https://dev.mysql.com/downloads/connector/j/
    解压mysql-connector-java-(xxx).jar到安装目录下的server/solr-webapp/webapp/WEB-INF/lib
  4. 在页面上选择Dataimport应该有了
  5. 在Schema上添加字段,如title(要存在query属性的sql语句能查出来的那些字段当中)

  6. 在Dataimport 上执行导入,可以看到已经新增了4条记录了

    然后在query上查看导入结果

三、增量导入MySQL数据

  1. 导入数据不可能每次全量导入,新增的数据只要增量导入就好,检查db-data-config.xml配置,确保有deltaImportQuery, deltaQuery两项
    last_index_time会保存在这个core的Instance目录下的conf/dataimport.properties文件
  2. 现在我在数据表中再插入几条数据
  3. 这次我们在页面选择delta-import执行一下看看
  4. 再去看下结果,也成功导入

    5.这是细心的人会发现dataimport.properties记录的是UTC时间,而数据表中用的是中国时间,要怎么让它们一致呢?
    这里提供一个解决办法,利用sql语句来转换时区:
    修改deltaQuery
    SELECT product_id AS id FROM table_name WHERE add_time > '${dataimporter.last_index_time}'

    改为

    SELECT product_id AS id FROM table_name WHERE add_time > CONVERT_TZ('${dataimporter.last_index_time}', '+00:00', '+08:00')

四、中文分词

  1. 拷贝分词jar到指定目录server/solr-webapp/webapp/WEB-INF/lib/
    cp contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-7.4.0.jar server/solr-webapp/webapp/WEB-INF/lib/
  2. 编辑schema文件 vi server/solr/new_core/conf/managed-schema
    添加:
                    

    把title改为text_cn类型

  3. 重启solr,title已经改为text_cn,但是还没分词效果
  4. 在dataimport选择clean再full-import一次,重新导入数据,再回到字段查看一下Term Info ,这次分词成功了
文件 数据 目录 文件夹 选择 字段 拷贝 页面 配置 成功 增量 数据表 时间 标签 结果 语句 中文 细心 一致 下有 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 菜鸟网络技术与菜鸟供应链管理 写数据库的逻辑是什么 java项目配置多个服务器 软件开发领域的最新研究成果 萝岗区软件开发好吗 网络技术核心不包括哪些 征途服务器启动失败是什么原因 wegame服务器 电竞和网络安全大赛有什么区别 网络安全意识的传单 个人如何开展网络安全工作 表格数据添加到数据库中 一汽电视台网络技术有限公司 数据库系统程序设计报告 慧仁在线连不上服务器怎么办 浦东新区方便软件开发怎么样 中国网络安全在线平台 武汉软件开发合理避税解决方案 imc采集服务器硬件信息 安徽峰泰软件开发有限公司 华服互联网科技官网 政府维护网络安全的 win10文件服务器开不了机 电力工控网络安全防护措施 软件开发者与软件著作权人 数据库管理系统试题答案 软件开发公司英文合同 网络安全定级备案计算 绿坝软件开发 广州德塔网络技术有限公司
0