Пайплайн (DVC)

Author

Daniil Solovjev

Описание пайплайна

Используются текстовые данные отзывов.

Стадии пайплайна:

  • подготовка текстовых данных (приведение к нижнему регистру, стемминг и др.)
  • подготовка tf-idf фичей
  • обучение модели на тренировочных данных
  • оценка модели на тестовых данных

Изображения пайплайна представлены на рисунках Figure 1 и Figure 2.

Code
import os
import subprocess
from pathlib import Path

import graphviz

current_dir = Path(os.getcwd())
work_dir = current_dir.parent
COMMAND = "dvc dag --dot"
result = subprocess.run(COMMAND, shell=True, cwd=work_dir, capture_output = True, text = True)
text = result.stdout.replace("\\", "/")
image = graphviz.Source(text, format="png")
image
Figure 1: Пайплайн с отображением стадий
Code
import os
import subprocess
from pathlib import Path

import graphviz

current_dir = Path(os.getcwd())
work_dir = current_dir.parent
COMMAND = "dvc dag --dot --outs"
result = subprocess.run(COMMAND, shell=True, cwd=work_dir, capture_output = True, text = True)
text = result.stdout.replace("\\", "/")
image = graphviz.Source(text, format="png")
image
Figure 2: Пайплайн с отображением файлов