Каждому гену человека дается имя и буквенно-цифровой код, известный как символ, который ученые используют для координации исследований. Но за последний год около 27 человеческих генов были переименованы. Произошло это потому, что Microsoft Excel продолжала неправильно интерпретировать их символы как даты. Excel регулярно используется учеными для работы и проведения клинических испытаний. Но его настройки по умолчанию были разработаны с учетом обычных приложений, поэтому, когда пользователь вводит буквенно-цифровой символ гена в электронную таблицу, например MARCH1 — сокращение от «мембрана ассоциированного кольца-CH-типа пальца 1» — Excel преобразует его в дату: 1-Mar.
Искажение данных крайне опасно. Ученые проверяют данные вручную, чтобы восстановить их. Эти ошибки уже широко распространились и влияют даже на рецензируемые научные работы. В исследовании, проведенном в 2016 году, было обнаружено, что примерно в одной пятой части от 3597 опубликованных работ находились ошибки из Excel.
Dezső Módos, биолог систем Института Quadram в Великобритании, чья работа включает в себя анализ недавно секвенированных генетических данных, говорит, что ошибки Excel происходят постоянно, просто потому, что это программное обеспечение часто является первым инструментом, к которому обращаются ученые для обработки числовых данных.
Excel не предлагает возможность отключить автоматическое форматирование, и единственный способ избежать этого — изменить тип данных для отдельных столбцов. Но и в этом случае в данные таблиц в Excel закрадываются ошибки.
Комитет по номенклатуре генов Хьюго или HGNC, отвечающий за стандартизацию названий генов, на этой неделе опубликовал новые рекомендации по именованию генов, в том числе для «символов, влияющих на обработку и извлечение данных». Отныне человеческие гены и белки, которые они выражают, будут зрительно отличаться для автоматического форматирования Excel. Это означает, что символ MARCH1 теперь стал MARCHF1, а SEPT1 стал SEPTIN1 и так далее. Запись старых символов и названий будет храниться HGNC, чтобы избежать путаницы в будущем.
Элспет Бруфорд, координатор HGNC, сообщил, что за последний год названия 27 генов были изменены подобным образом, но сами руководящие принципы официально не были объявлены до этой недели.
По материалам The Verge