Таблицы — фундаментальная часть заданий Spark. На первый взгляд может показаться, что работать с ними нетрудно, но в реальности это сложнее, чем кажется. Перевели статью о том, с какими трудностями вы можете столкнуться в процессе и как их преодолеть.
В материале рассказываем:
- Как устроена анатомия таблицы и какие опасности могут ждать вас «за углом».
- Как безопасно перезаписать готовую таблицу, в том числе партиционированную
- Как использовать Magic committer
- И какие проблемы решают табличные форматы нового поколения.
Полный текст материала — в нашем блоге на Хабре.