Те, кто хотя бы раз в жизни писали код знают, что намного больше времени уходит на его отладку, чем на сам процесс написания. И ведь это проблема не только для самих программистов, но и для бизнеса. По данным исследования Judge Business School Кембриджского университета издержки связанные с устранением проблем в коде IT-сектора составляют порядка 312 миллиардов долларов в год. Чаще всего речь идет о небольших ошибках, которые превращаются в обязательную рутину, или переносы продуктов с одного языка на другой. С целью исправить устоявший порядок дел компания IBM представили Project CodeNet – open-source датасет для обучения нейронных сетей программированию. Датасет состоит из 14 миллионов примеров кода, написанных на 55 языках. Ключевая информация о CodeNet Датасет содержит более 500 млн строк кода на C++, Java, Python, Go, COBOL, Pascal и FORTRAN. CodeNet примерно в 10 раз превышает по размеру предыдущий крупнейший датасет, содержащий 52 000 примеров кода. CodeNet содержит образцы к
CodeNet: датасет от IBM для нейросетей, генерирующих и анализирующих код
27 мая 202127 мая 2021
23
3 мин