Konieczny Bartosz / Конечны Бартош - Data Engineering Design Patterns / Шаблоны проектирования для инженерии данных [2025, PDF/EPUB, ENG]

Страницы:  1
Ответить
 

tsurijin

Стаж: 4 года 10 месяцев

Сообщений: 2905


tsurijin · 24-Авг-25 14:42 (22 дня назад, ред. 24-Авг-25 14:45)

Data Engineering Design Patterns / Шаблоны проектирования для инженерии данных
Год издания: 2025
Автор: Konieczny Bartosz / Конечны Бартош
Издательство: O’Reilly Media, Inc.
ISBN: 978-1-098-16581-9
Язык: Английский
Формат: PDF/EPUB
Качество: Издательский макет или текст (eBook)
Интерактивное оглавление: Да
Количество страниц: 375
Описание: Data projects are an intrinsic part of an organization's technical ecosystem, but data engineers in many companies continue to work on problems that others have already solved. This hands-on guide shows you how to provide valuable data by focusing on various aspects of data engineering, including data ingestion, data quality, idempotency, and more.
Author Bartosz Konieczny guides you through the process of building reliable end-to-end data engineering projects, from data ingestion to data observability, focusing on data engineering design patterns that solve common business problems in a secure and storage-optimized manner. Each pattern includes a user-facing description of the problem, solutions, and consequences that place the pattern into the context of real-life scenarios.
Throughout this journey, you'll use open source data tools and public cloud services to apply each pattern. You'll learn:
Challenges data engineers face and their impact on data systems
How these challenges relate to data system components
Useful applications of data engineering patterns
How to identify and fix issues with your current data components
Technology-agnostic solutions to new and existing data projects, with open source implementation examples
Bartosz Konieczny is a freelance data engineer who's been coding since 2010. He's held various senior hands-on positions that allowed him to work on many data engineering problems in batch and stream processing.
Проекты обработки данных являются неотъемлемой частью технической экосистемы организации, но инженеры по обработке данных во многих компаниях продолжают работать над проблемами, которые другие уже решили. В этом практическом руководстве показано, как предоставлять ценные данные, уделяя особое внимание различным аспектам разработки данных, включая обработку данных, качество данных, идемпотентность и многое другое.
Автор Бартош Конечны проведет вас по процессу создания надежных комплексных проектов по разработке данных, от приема данных до обеспечения их наблюдаемости, уделяя особое внимание шаблонам проектирования, которые решают распространенные бизнес-задачи безопасным и оптимизированным для хранения способом. Каждый шаблон содержит понятное пользователю описание проблемы, решений и последствий, которые помещают шаблон в контекст реальных сценариев.
На протяжении всего этого путешествия вы будете использовать инструменты обработки данных с открытым исходным кодом и общедоступные облачные сервисы для применения каждого шаблона. Вы узнаете:
Проблемы, с которыми сталкиваются инженеры по обработке данных, и их влияние на системы обработки данных
Как эти проблемы связаны с компонентами систем обработки данных
Полезные приложения шаблонов разработки данных
Как выявлять и устранять проблемы с текущими компонентами данных
Решения, не зависящие от технологий, для новых и существующих проектов обработки данных, с примерами реализации с открытым исходным кодом
Бартош Конечны (Bartosz Konieczny) - внештатный инженер по обработке данных, который занимается программированием с 2010 года. Он занимал различные руководящие должности, что позволило ему решать многие задачи по разработке данных в области пакетной и потоковой обработки.
Примеры страниц (скриншоты)
Оглавление
Preface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
1. Introducing Data Engineering Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
What Are Design Patterns? 1
Yet More Design Patterns? 3
Common Data Engineering Patterns 3
Case Study Used in This Book 5
Summary 6
2. Data Ingestion Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Full Load 8
Pattern: Full Loader 8
Incremental Load 12
Pattern: Incremental Loader 12
Pattern: Change Data Capture 16
Replication 20
Pattern: Passthrough Replicator 20
Pattern: Transformation Replicator 24
Data Compaction 27
Pattern: Compactor 27
Data Readiness 30
Pattern: Readiness Marker 30
Event Driven 33
Pattern: External Trigger 33
Summary 37
3. Error Management Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Unprocessable Records 40
v
Pattern: Dead-Letter 40
Duplicated Records 46
Pattern: Windowed Deduplicator 46
Late Data 51
Pattern: Late Data Detector 51
Pattern: Static Late Data Integrator 58
Pattern: Dynamic Late Data Integrator 64
Filtering 70
Pattern: Filter Interceptor 70
Fault Tolerance 74
Pattern: Checkpointer 74
Summary 77
4. Idempotency Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Overwriting 80
Pattern: Fast Metadata Cleaner 80
Pattern: Data Overwrite 86
Updates 89
Pattern: Merger 89
Pattern: Stateful Merger 94
Database 100
Pattern: Keyed Idempotency 100
Pattern: Transactional Writer 105
Immutable Dataset 110
Pattern: Proxy 110
Summary 113
5. Data Value Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Data Enrichment 116
Pattern: Static Joiner 116
Pattern: Dynamic Joiner 121
Data Decoration 125
Pattern: Wrapper 125
Pattern: Metadata Decorator 129
Data Aggregation 133
Pattern: Distributed Aggregator 133
Pattern: Local Aggregator 137
Sessionization 141
Pattern: Incremental Sessionizer 141
Pattern: Stateful Sessionizer 147
Data Ordering 153
Pattern: Bin Pack Orderer 153
vi | Table of Contents
Pattern: FIFO Orderer 158
Summary 162
6. Data Flow Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Sequence 166
Pattern: Local Sequencer 166
Pattern: Isolated Sequencer 170
Fan-In 174
Pattern: Aligned Fan-In 175
Pattern: Unaligned Fan-In 178
Fan-Out 182
Pattern: Parallel Split 182
Pattern: Exclusive Choice 186
Orchestration 191
Pattern: Single Runner 191
Pattern: Concurrent Runner 193
Summary 195
7. Data Security Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Data Removal 198
Pattern: Vertical Partitioner 198
Pattern: In-Place Overwriter 203
Access Control 207
Pattern: Fine-Grained Accessor for Tables 207
Pattern: Fine-Grained Accessor for Resources 211
Data Protection 215
Pattern: Encryptor 215
Pattern: Anonymizer 219
Pattern: Pseudo-Anonymizer 222
Connectivity 226
Pattern: Secrets Pointer 226
Pattern: Secretless Connector 228
Summary 231
8. Data Storage Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Partitioning 234
Pattern: Horizontal Partitioner 234
Pattern: Vertical Partitioner 240
Records Organization 243
Pattern: Bucket 243
Pattern: Sorter 246
Read Performance Optimization 251
Table of Contents | vii
Pattern: Metadata Enhancer 251
Pattern: Dataset Materializer 254
Pattern: Manifest 257
Data Representation 260
Pattern: Normalizer 260
Pattern: Denormalizer 266
Summary 271
9. Data Quality Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Quality Enforcement 274
Pattern: Audit-Write-Audit-Publish 274
Pattern: Constraints Enforcer 281
Schema Consistency 284
Pattern: Schema Compatibility Enforcer 284
Pattern: Schema Migrator 290
Quality Observation 293
Pattern: Offline Observer 293
Pattern: Online Observer 298
Summary 302
10. Data Observability Design Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
Data Detectors 306
Pattern: Flow Interruption Detector 306
Pattern: Skew Detector 310
Time Detectors 314
Pattern: Lag Detector 314
Pattern: SLA Misses Detector 317
Data Lineage 321
Pattern: Dataset Tracker 321
Pattern: Fine-Grained Tracker 325
Summary 328
Afterword. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
Appendix: Summary of Patterns. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Download
Rutracker.org не распространяет и не хранит электронные версии произведений, а лишь предоставляет доступ к создаваемому пользователями каталогу ссылок на торрент-файлы, которые содержат только списки хеш-сумм
Как скачивать? (для скачивания .torrent файлов необходима регистрация)
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error