Як працює HDFS read?

Клієнт починає операцію читання HDFS, спочатку спілкуючись із NameNode і отримуючи метадані, які містять розташування DataNodes із відповідними блоками даних. Щойно клієнт отримує дані про розташування DataNodes, він безпосередньо з ними взаємодіє. 12 грудня 2022 р.

Анатомія читання файлів у HDFS Для кожного блоку вузол імені повертає адреси вузлів даних, які мають копію цього блоку. DFS повертає клієнту FSDataInputStream, з якого він читає дані. FSDataInputStream, у свою чергу, обгортає DFSInputStream, який керує вузлом даних і вузлом введення-виведення.

HDFS ділить файли на блоки та зберігає кожен блок у DataNode. Кілька DataNodes пов’язані з кластером. Потім NameNode розподіляє репліки цих блоків даних по кластеру. Він також вказує користувачеві або програмі, де знайти потрібну інформацію.

Давайте розберемося, як файли записуються в HDFS. Коли користувач завантажує файл у HDFS, клієнт від імені користувача повідомляє namenode, що він хоче створити файл. У відповідь namenode повідомляє розташування вузлів даних, куди можна записати файл.

Щоб записати файл у HDFS, клієнту потрібно взаємодіяти з майстром, тобто namenode (master). Тепер namenode надає адресу вузлів даних (підлеглих), на які клієнт почне записувати дані. Клієнт безпосередньо записує дані на вузли даних, тепер вузол даних створить конвеєр запису даних.

HDFS надає кілька способів доступу до даних:

  1. Інтерфейс командного рядка (CLI): Ви можете взаємодіяти з HDFS за допомогою утиліт командного рядка, таких як hadoop fs або hdfs dfs. …
  2. Веб-інтерфейс користувача: HDFS містить веб-інтерфейс користувача, який надає інформацію про стан кластера та дозволяє керувати файлами.