XAMPP — кроссплатформенная сборка веб-сервера, содержащая Apache, MySQL, интерпретатор скриптов PHP, язык программирования Perl и большое количество дополнительных библиотек, позволяющих запустить полноценный веб-сервер.
Lucene — свободная библиотека для высокопроизводительного полнотекстового поиска фонда Apache, используемая в качестве основы в двух самых популярных по состоянию на середину 2010-х годов тиражируемых поисковых системах — Elasticsearch и Solr. Написана на Java.
File Roller — компьютерная программа-архиватор для рабочей среды GNOME. File Roller является графической оболочкой, предоставляющей единый графический интерфейс для консольных программ-архиваторов. Распространяется согласно GNU General Public License.
Apache Maven — фреймворк для автоматизации сборки проектов на основе описания их структуры в файлах POM, на языке XML. Проект Maven издаётся сообществом Apache Software Foundation, где формально является частью Jakarta Project.
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.
Amazon Web Services (AWS) — коммерческое публичное облако, поддерживаемое и развиваемое компанией Amazon с 2006 года. Предоставляет подписчикам услуги как по инфраструктурной модели, так и платформенного уровня.
BigTable — проприетарная высокопроизводительная база данных, построенная на основе Google File System (GFS), Chubby Lock Service и некоторых других продуктах Google. В настоящий момент не распространяется и не используется за пределами Google, хотя Google предлагает использовать её как часть Google App Engine.
NoSQL — обозначение широкого класса разнородных систем управления базами данных (СУБД), появившихся в конце 2000-х — начале 2010-х годов и существенно отличающихся от традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к системам, в которых делается попытка решить проблемы масштабируемости и доступности за счёт полного или частичного отказа от требований атомарности и согласованности данных.
Google Code Search — проект поисковой машины от Google Labs, индексировавшей исходные коды открытых программ, и позволявшей использовать в поисковых запросах регулярные выражения. В виде бета-версии работал с 5 октября 2006 года по 15 января 2012 года. Закрыт в связи с закрытием Google Labs.
Cloudera — американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop.
HBase — СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop. Написана на Java; относится к категории «семейство столбцов», многие технические решения переняты из Google BigTable. Работает поверх распределенной файловой системы HDFS и обеспечивает BigTable-подобные возможности для Hadoop, то есть обеспечивает отказоустойчивый способ хранения больших объёмов разреженных данных.
Apache Cassandra — распределённая система управления базами данных, относящаяся к классу NoSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша.
Apache Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с хранением промежуточных данных на накопителях, Spark работает в парадигме резидентных вычислений — обрабатывает данные в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.
VoltDB — реляционная резидентная СУБД без разделяемых ресурсов с поддержкой SQL, разработанная под руководством Майкла Стоунбрейкера, Сэмьюэла Мэддена и Даниеля Абади в начале 2010-х годов на основе академического проекта H-Store.
Hive — система управления базами данных на основе платформы Hadoop с SQL-подобным языком запросов, позволяет выполнять запросы, агрегировать и анализировать данные; компонент экосистемы Hadoop.
Apache Zeppelin — многопользовательское интерактивное браузерное программное средство для анализа и визуализации данных, а также совместной работы над данными с использованием средств Apache Spark; позиционируется как аналог Jupyter для экосистемы Hadoop. Позволяет пользователям создавать запросы к данным в Hadoop и в базах под управлением различных СУБД на SQL, Scala, Python, отображать результаты в виде таблиц, графиков, диаграмм.
FoundationDB — свободная мультимодельная СУБД, относится к классу NoSQL, манипулирующих данными в формате ключ-значение. Особенностью FoundationDB является возможность создания больших распределённых хранилищ, в которых возможно использование полноценных транзакций, удовлетворяющих требованиям ACID для всех операций с данными. Разработчик — компания Apple. Код СУБД написан на языке С++ и Си.
Apache Flink — фреймворк с открытым исходным кодом для реализации обработки потоков, разработанный фондом Apache Software Foundation. В основу фреймворка положен движок для обработки процессов, написанный на языках Java и Scala. Flink поддерживает программирование потоков данных как в параллельном режиме, так и в конвейерном режиме (pipeline). В конвейерном режиме (pipeline) Flink позволяет реализовать последовательность заданий (batch) и поток заданий (stream). Flink поддерживает также итерационные алгоритмы естественным образом.
Apache ZooKeeper — открытая программная служба для координации распределённых систем, организованная на основе резидентной базы данных категории «ключ — значение». Изначально входила в экосистему Hadoop, впоследствии стала проектом верхнего уровня Apache Software Foundation. Распространяется под лицензией Apache 2.0.
NiFi — открытое программное обеспечение проекта фонда Apache, предназначенное для организации ETL-процессов в рамках экосистемы Hadoop.