Spark 中文分词
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,Spark 中文分词一、导入需要的分词包import org.ansj.domain.Termimport org.ansj.recognition.impl.StopRecognitionimpor
千家信息网最后更新 2025年01月23日Spark 中文分词
Spark 中文分词
一、导入需要的分词包
import org.ansj.domain.Termimport org.ansj.recognition.impl.StopRecognitionimport org.ansj.splitWord.analysis.ToAnalysis
二、停用词过滤
def filter(stopWords: Array[String]): StopRecognition = { // add stop words val filter = new StopRecognition filter.insertStopNatures("w") // filter punctuation filter.insertStopNatures("m") // filter m pattern filter.insertStopNatures("null") // filter null filter.insertStopNatures("
") // filter
filter.insertStopRegexes("^[a-zA-Z]{1,}") //filter English alphabet filter.insertStopRegexes("^[0-9]+") //filter number filter.insertStopRegexes("[^a-zA-Z0-9\\u4e00-\\u9fa5]+") filter.insertStopRegexes("\t") for (x <- stopWords) { filter.insertStopWords(x) } filter }
三、分词
def getWords(text: String, filter: StopRecognition): ArrayBuffer[String] = { val words = new mutable.ArrayBuffer[String]() val terms: java.util.List[Term] = ToAnalysis.parse(text).recognition(filter).getTerms for (i <- 0 until terms.size()) { val word = terms.get(i).getName if (word.length >= MIN_WORD_LENGTH) { words += word } } words}
中文
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网信办服务器漏洞扫描
软件开发是什么工作有前景吗
石家庄AI软件开发
nba厂管数据库
知识产权数据库智能检索云平台
监控存储服务器图片
福建省网络安全大队
服务器电脑有啥缺点
数据库bak文件还原
烟台大学数据库考试答案
燃烧的远征数据库 下载
sum like 数据库
男士软件开发送什么礼物
宝塔面板怎么查看数据库端口
php封装数据库的增删改查
深圳讯雷网络技术有限公司
街道网络安全培训会通知
ue4 客户端与服务器
内存数据库和关系数据库价格
全国卫生行业网络安全大赛
从事eda软件开发工资多少
验证appid时连接服务器失败
过年服务器怎么维护
明日之后的服务器有多少个
数据库符号是什么意思
世界生产服务器的厂商
网络安全作文400字初中
力控数据库与实时数据库区别
服务器批量管理工具
吃鸡是用什么软件开发的