10,2 тыс подписчиков
🔥 Решение тестового задания на стажировку в Контур Data Science
В данном задании предлагается вам сделать модель, которая поможет отделу госзакупок извлекать нужный кусок текста из документа для того, чтобы сформировать анкету заявки.
То, какой именно фрагмент текста нужно извлечь, зависит от пункта анкеты, соответствующего документу.
Всего в каждом документе, с которыми вы будет работать, есть 1 из 2-х пунктов анкеты, по которым необходимо извлекать кусочки из текста:
▪обеспечение исполнения контракта
▪обеспечение гарантийных обязательств
Соответственно, ваша модель, принимая на вход текст документа и наименование одного из двух пунктов, должна возвращать соответствующий кусочек текста из текста документа.
Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json.
Новый файл назовите predictions.json
Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю). Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.
Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json. Новый файл назовите predictions.json
Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю).
Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.
1 минута
17 апреля 2024