巨加偏旁组新字再组词:Hadoop源码之我见

来源:百度文库 编辑:偶看新闻 时间:2024/03/29 23:48:09

为了不遗忘和可以速查源码,准备重新读一遍Hadoop的MapReduce部分的源码,记录下来,尽量详细点。如要转载,请标明出处。

 

写MapReduce程序首先接触的是Job类,Job类是管理一个集群作业的类,包含了一个作业的所有信息和向集群提交作业的方法。

 

 

如图所示,它有以上一些方法,我们写程序是调用waitForCompletion()方法,方法实现如下:

 

 

view plain

  1. public boolean waitForCompletion(boolean verbose  
  2.                                  ) throws IOException, InterruptedException,  
  3.                                           ClassNotFoundException {  
  4.   if (state == JobState.DEFINE) {  
  5.     submit();  
  6.   }  
  7.   if (verbose) {  
  8.     jobClient.monitorAndPrintJob(conf, info);  
  9.   } else {  
  10.     info.waitForCompletion();  
  11.   }  
  12.   return isSuccessful();  
  13. }  
 

 

 

它调用了submit向集群提交作业,下面看下submit()方法:

 

 

view plain

  1. public void submit() throws IOException, InterruptedException,   
  2.                             ClassNotFoundException {  
  3.   ensureState(JobState.DEFINE);  
  4. 建立新的API,检查兼容性   
  5.   setUseNewAPI();  
  6.   info = jobClient.submitJobInternal(conf);  
  7.   state = JobState.RUNNING;  
  8.  }  
 

 

jobClient是在初始化时候建立的。

 

view plain

  1. public Job(Configuration conf) throws IOException {  
  2.   super(conf, null);  
  3.   jobClient = new JobClient((JobConf) getConfiguration());  
  4. }  
 

 

JobClient类 建立了一个代理,用于连接JobTracker(集群上的master结点),

 

view plain

  1. public JobClient(JobConf conf) throws IOException {  
  2.   setConf(conf);  
  3.   init(conf);  
  4. }  
  5. /** 
  6.  * Connect to the default {@link JobTracker}. 
  7.  * @param conf the job configuration. 
  8.  * @throws IOException 
  9.  */  
  10. public void init(JobConf conf) throws IOException {  
  11.   String tracker = conf.get("mapred.job.tracker", "local");  
  12.   if ("local".equals(tracker)) {  
  13.     this.jobSubmitClient = new LocalJobRunner(conf);  
  14.   } else {  
  15.     this.jobSubmitClient = createRPCProxy(JobTracker.getAddress(conf), conf);  
  16.   }          
  17. }  
 

 

这个代理会检查mapred.job.tracker 这个属性有没有建立,默认值是local,如果建立了,则建立一个连接JobTracker的代理。这个代理负责上传作业的配置和作业内容到集群中。

 

view plain

  1. private JobSubmissionProtocol createRPCProxy(InetSocketAddress addr,  
  2.     Configuration conf) throws IOException {  
  3.   return (JobSubmissionProtocol) RPC.getProxy(JobSubmissionProtocol.class,  
  4.       JobSubmissionProtocol.versionID, addr, getUGI(conf), conf,  
  5.       NetUtils.getSocketFactory(conf, JobSubmissionProtocol.class));  
  6. }  
 

发现他实现了JobSubmissionProtocol接口的一个对象

view plain

  1. public static VersionedProtocol getProxy(Class protocol,  
  2.     long clientVersion, InetSocketAddress addr, UserGroupInformation ticket,  
  3.     Configuration conf, SocketFactory factory) throws IOException {      
  4.       
  5.   VersionedProtocol proxy =  
  6.       (VersionedProtocol) Proxy.newProxyInstance(  
  7.           protocol.getClassLoader(), new Class[] { protocol },  
  8.           new Invoker(addr, ticket, conf, factory));  
  9.   long serverVersion = proxy.getProtocolVersion(protocol.getName(),   
  10.                                                 clientVersion);  
  11.   if (serverVersion == clientVersion) {  
  12.     return proxy;  
  13.   } else {  
  14.     throw new VersionMismatch(protocol.getName(), clientVersion,   
  15.                               serverVersion);  
  16.   }  
  17. }  
 

 

 

总之,Job类使用了一个实现了JobSubmissionProtocol接口的一个代理,这个代理对象可以用来和集群通信,job类的一些方法也可以用来帮助我们对集群和任务的进展情况进行查看。