После шести лет разработки представлен [3] релиз проекта Apache Hadoop 1.0.0 [4], который базируется на стабильной ветке 0.20.203.x и включает в себя [5] поддержку безопасного режима работы кластера (наработки ветки "0.20-security" с поддержкой аутентификации с использованием Kerberos и средств разграничения полномочий), интеграцию работающей поверх Hadoop и HDFS базы данных HBase [6] (аналог Google Bigtable, ранее развиваемый в рамках отдельного проекта Apache), поддержку интерфейса WebHDFS [7] (HTTP REST API для доступа к ФС HDFS), наработки по увеличению производительности HBase при доступе к локальным файлам.
Hadoop является свободной платформой для организации распределённой обработки больших объёмов данных (петабайты) с использованием парадигмы map/reduce [8], при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. В состав Hadoop входит также реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.
Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce. Одним из крупнейших пользователей и разработчиков Hadoop является компания Yahoo, активно использующая данную систему в своих поисковых кластерах (Hadoop-кластеру Yahoo, состоящему из 40 тысяч узлов, принадлежит мировой рекорд скорости сортировки большого объёма данных). Hadoop-кластер используется [9] в Facebook для обработки одной из самых больших баз данных, в которой хранится около 30 петабайт информации.
Hadoop также лежит в основе платформы Oracle Big Data [10] и активно адаптируется [11] компанией Microsoft для работы с СУБД SQL Server, Windows Server и облачной платформой Azura Cloud с целью создания новых продуктов для организации распределенной обработки больших объёмов данных. Hadoop является одним из ключевых звеньев суперкомпьютера IBM Watson, который выиграл сражение с лучшими игроками телевизионной игры-викторины "Jeopardy!".
Ссылки:
[1] http://htfl.ru/cat-news-apache
[2] http://htfl.ru/cat-news-obnovlenie-po
[3] /out.php?link=http://hadoop.apache.org/common/releases.html#News
[4] /out.php?link=http://hadoop.apache.org
[5] /out.php?link=http://hadoop.apache.org/common/docs/r1.0.0/releasenotes.html
[6] /out.php?link=http://hadoop.apache.org/hbase/
[7] /out.php?link=http://hortonworks.com/webhdfs-%E2%80%93-http-rest-access-to-hdfs/
[8] /out.php?link=http://ru.wikipedia.org/wiki/MapReduce
[9] /out.php?link=http://www.facebook.com/notes/paul-yang/moving-an-elephant-large-scale-hadoop-data-migration-at-facebook/10150246275318920
[10] http://htfl.ru/news/kompaniya-oracle-predstavila-nosql-reshenie-na-baze-berkeley-db-apache-hadoop-i-r
[11] http://htfl.ru/news/microsoft-zavershil-pogloshchenie-skype-gotovit-linux-draiver-dlya-sql-server-i-portiruet-apach