apache · zeotuan · Oct 2, 2023
diff --git a/airflow/providers/apache/beam/operators/beam.py b/airflow/providers/apache/beam/operators/beam.py
@@ -320,6 +320,13 @@ def execute_sync(self, context: Context):
  self.snake_case_pipeline_options["requirements_file"] = tmp_req_file.name
 
  if self.is_dataflow and self.dataflow_hook:
+ DataflowJobLink.persist(
+ self,
+ context,
+ self.dataflow_config.project_id,
+ self.dataflow_config.location,
+ self.dataflow_job_id,
+ )
  with self.dataflow_hook.provide_authorized_gcloud():
  self.beam_hook.start_python_pipeline(
  variables=self.snake_case_pipeline_options,
@@ -330,13 +337,6 @@ def execute_sync(self, context: Context):
  py_system_site_packages=self.py_system_site_packages,
  process_line_callback=self.process_line_callback,
  )
- DataflowJobLink.persist(
- self,
- context,
- self.dataflow_config.project_id,
- self.dataflow_config.location,
- self.dataflow_job_id,
- )
  return {"dataflow_job_id": self.dataflow_job_id}
  else:
  self.beam_hook.start_python_pipeline(
@@ -507,6 +507,13 @@ def execute(self, context: Context):
  self.jar = tmp_gcs_file.name
 
  if is_dataflow and self.dataflow_hook:
+ DataflowJobLink.persist(
+ self,
+ context,
+ self.dataflow_config.project_id,
+ self.dataflow_config.location,
+ self.dataflow_job_id,
+ )
  is_running = False
  if self.dataflow_config.check_if_running != CheckJobRunning.IgnoreJob:
  is_running = (
@@ -542,13 +549,6 @@ def execute(self, context: Context):
  )
  if dataflow_job_name and self.dataflow_config.location:
  multiple_jobs = self.dataflow_config.multiple_jobs or False
- DataflowJobLink.persist(
- self,
- context,
- self.dataflow_config.project_id,
- self.dataflow_config.location,
- self.dataflow_job_id,
- )
  self.dataflow_hook.wait_for_done(
  job_name=dataflow_job_name,
  location=self.dataflow_config.location,
@@ -686,20 +686,20 @@ def execute(self, context: Context):
  go_artifact.download_from_gcs(gcs_hook=gcs_hook, tmp_dir=tmp_dir)
 
  if is_dataflow and self.dataflow_hook:
- with self.dataflow_hook.provide_authorized_gcloud():
- go_artifact.start_pipeline(
- beam_hook=self.beam_hook,
- variables=snake_case_pipeline_options,
- process_line_callback=process_line_callback,
- )
-
  DataflowJobLink.persist(
  self,
  context,
  self.dataflow_config.project_id,
  self.dataflow_config.location,
  self.dataflow_job_id,
  )
+ with self.dataflow_hook.provide_authorized_gcloud():
+ go_artifact.start_pipeline(
+ beam_hook=self.beam_hook,
+ variables=snake_case_pipeline_options,
+ process_line_callback=process_line_callback,
+ )
+
  if dataflow_job_name and self.dataflow_config.location:
  self.dataflow_hook.wait_for_done(
  job_name=dataflow_job_name,