千家信息网

Spark如何处理中文字符串

发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,最近工作中需要用spark对中文的字符提取,由于环境一直是英文的,发现打印出来是乱码。后经研究,需要做一个UTF-8的转换大概如下:val data_file = sc.textFile("t
千家信息网最后更新 2024年09月22日Spark如何处理中文字符串
最近工作中需要用spark对中文的字符提取,由于环境一直是英文的,发现打印出来是乱码。后经研究,需要做一个UTF-8的转换大概如下:val data_file = sc.textFile("test.txt")val item1 = data_file.map(p => new String(p.getBytes, 0, p.getLength, "UTF-8")).map{    item => XXX    }


0