这篇文章主要介绍“spark集群如何使用hanlp进行分布式分词”,在日常操作中,相信很多人在spark集群如何使用hanlp进行分布式分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”spark集群如何使用hanlp进行分布式分词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
  
分两步:
 
第一步:实现hankcs.hanlp/corpus.io.IIOAdapter
 
1.  public class HadoopFileIoAdapter implements IIOAdapter {
 
2.
 
3.   @Override
 
4.    public InputStream open(String path) throws IOException {
 
5.        Configuration conf = new Configuration();
 
6.       FileSystem fs = FileSystem.get(URI.create(path), conf);
 
7.        return fs.open(new Path(path));
 
8.    }
 
9.
 
10.    @Override
 
11.   public OutputStream create(String path) throws IOException {
 
12.        Configuration conf = new Configuration();
 
13.        FileSystem fs = FileSystem.get(URI.create(path), conf);
 
14.        OutputStream out = fs.create(new Path(path));
 
15.        return out;
 
16.    }
 
17.  }
 
第二步:修改配置文件。root为hdfs上的数据包,把IOAdapter改为咱们上面实现的类
  
ok,这样你就能在分布式集群上使用hanlp进行分词了。
 
到此,关于“spark集群如何使用hanlp进行分布式分词”的学习就结束了,希望能够解决大家的疑惑。

dawei

【声明】:达州站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。