Starting Data Analytics with Generative AI and Python / Начало анализа данных с помощью генеративного искусственного интеллекта и Python
Год издания: 2025
Автор: Guja Artur and others / Гуджа Артур и другие
Издательство: Manning Publications Co.
ISBN: 978-1-6334-3721-0
Язык: Английский
Формат: PDF
Качество: Издательский макет или текст (eBook)
Интерактивное оглавление: Да
Количество страниц: 362
Описание: Accelerate your mastery of data analytics with the power of ChatGPT.
Whether you’re brand new to data analysis or an experienced pro looking to do more work, faster, Starting Data Analytics with Generative AI and Python is here to help simplify and speed up your data analysis! Written by a pair of world-class data scientists and an experienced risk manager, the book concentrates on the practical analytics tasks you'll do every day.
Inside Starting Data Analytics with Generative AI and Python you’ll learn how to:
Write great prompts for ChatGPT
Perform end-to-end descriptive analytics
Set up an AI-friendly data analytics environment
Evaluate the quality of your data
Develop a strategic analysis plan
Generate code to analyze non-text data
Explore text data directly with ChatGPT
Prepare reliable reports
In Starting Data Analytics with Generative AI and Python you’ll learn how to improve your coding efficiency, generate new analytical approaches, and fine-tune data pipelines—all assisted by AI tools like ChatGPT. For each step in the data process, you’ll discover how ChatGPT can implement data techniques from simple plain-English prompts. Plus, you’ll develop a vital intuition about the risks and errors that still come with these tools.
about the technology:
If you have basic knowledge of data analysis, this book will show you how to use ChatGPT to accelerate your essential data analytics work. This speed-up can be amazing: the authors report needing one third or even one quarter the time they needed before.
about the book:
You’ll find reliable and practical advice that works on the job. Improve problem exploration, generate new analytical approaches, and fine-tune your data pipelines—all while developing an intuition about the risks and errors that still come with AI tools. In the end, you’ll be able to do significantly more work, do it faster, and get better results, without breaking a sweat.
Assuming only that you know the foundations, this friendly book guides you through the entire analysis process—from gathering and preparing raw data, data cleaning, generating code-based solutions, selecting statistical tools, and finally creating effective data presentations. With clearly-explained prompts to extract, interpret, and present data, it will raise your skills to a whole different level.
what's inside:
Write great prompts for ChatGPT
Perform end-to-end descriptive analytics
Set up an AI-friendly data analytics environment
Evaluate the quality of your data
Develop a strategic analysis plan
Generate code to analyze non-text data
Explore text data directly with ChatGPT
Prepare reliable reports
Ускорьте освоение анализа данных с помощью ChatGPT.
Независимо от того, являетесь ли вы новичком в анализе данных или опытным профессионалом, который хочет выполнять больше работы и быстрее, начните анализировать данные с помощью Generative AI и Python, которые помогут упростить и ускорить ваш анализ данных! В книге, написанной двумя специалистами по обработке данных мирового класса и опытным менеджером по управлению рисками, основное внимание уделяется практическим аналитическим задачам, которые вы будете выполнять каждый день.
В разделе "Запуск анализа данных с помощью генеративного искусственного интеллекта и Python" вы узнаете, как:
Создавать отличные подсказки для ChatGPT.
Выполнять комплексную описательную аналитику
Создайте среду анализа данных, ориентированную на искусственный интеллект
Оцените качество ваших данных
Разработайте план стратегического анализа
Сгенерируйте код для анализа нетекстовых данных
Изучайте текстовые данные напрямую с помощью ChatGPT
Готовьте надежные отчеты
Приступая к анализу данных с помощью Generative AI и Python, вы узнаете, как повысить эффективность программирования, разработать новые аналитические подходы и точно настроить конвейеры обработки данных - и все это с помощью инструментов искусственного интеллекта, таких как ChatGPT. На каждом этапе обработки данных вы узнаете, как ChatGPT может внедрять методы обработки данных, используя простые подсказки на английском языке. Кроме того, вы получите представление о рисках и ошибках, которые все еще возникают при использовании этих инструментов.
о технологии:
Если вы обладаете базовыми знаниями в области анализа данных, эта книга покажет вам, как использовать ChatGPT для ускорения работы по анализу данных. Это ускорение может быть поразительным: авторы сообщают, что им требуется на треть или даже на четверть больше времени, чем раньше.
о книге:
Вы найдете надежные и практические советы, которые помогут вам в работе. Совершенствуйте поиск проблем, разрабатывайте новые аналитические подходы и настраивайте свои каналы передачи данных - и все это при одновременном развитии интуиции в отношении рисков и ошибок, которые по—прежнему возникают при использовании инструментов искусственного интеллекта. В конце концов, вы сможете выполнять значительно больше работы, делать это быстрее и получать лучшие результаты, даже не вспотев.
Предполагая, что вы знакомы только с основами, эта удобная книга проведет вас по всему процессу анализа — от сбора и подготовки исходных данных, очистки данных, создания решений на основе кода, выбора статистических инструментов и, наконец, создания эффективных презентаций данных. Благодаря понятным подсказкам по извлечению, интерпретации и представлению данных вы поднимете свои навыки на совершенно новый уровень.
что внутри:
Напишите отличные подсказки для ChatGPT
Выполните комплексную описательную аналитику
Создайте среду анализа данных, дружественную к ИИ
Оцените качество ваших данных
Разработайте план стратегического анализа
Сгенерируйте код для анализа нетекстовых данных
Изучайте текстовые данные напрямую с помощью ChatGPT
Готовьте надежные отчеты
Примеры страниц (скриншоты)
Оглавление
foreword ix
preface xi
acknowledgments xii
about this book xiv
about the authors xix
about the cover illustration xx
1 Introduction to the use of generative AI in data analytics 1
1.1 Inherent limitations of generative AI models 2
1.2 The role of generative AIs in data analytics 5
Generative AI in the data analytics flow 5 ■ The complementarity
of language models and other data analytics tools 9 ■ Limits of
generative AIs’ ability to automate and streamline data analytics
processes 10
1.3 Getting started with generative AIs for data analytics 12
Web interface 12 ■ Beware of tokens 12 ■ Accessing and using
the API 13 ■ Third-party integrations of generative AI
models 18 ■ Running LLMs locally 19 ■ Best practices and tips
for successful generative AI implementation 20
2 Using generative AI to ensure sufficient data quality 23
2.1 On a whimsy of fortune 24
2.2 A note on best practices 25
2.3 Getting started 26
2.4 Quality assessment structure 33
Data cleaning steps 34 ■ Exploratory data analysis elements 34
2.5 Data cleaning 35
Removing duplicates 36 ■ Handling missing values 37
Correcting data entry errors 40 ■ Data validation 41
2.6 Exploratory data analysis 43
Reviewing score distribution 45 ■ Time series exploration 49
Mysterious variable investigation 55 ■ Harmonizing data 58
3 Descriptive analysis and statistical inference supported by
generative AI 62
3.1 Research questions 63
3.2 Analysis design 66
3.3 Descriptive data analysis 68
Popularity of product categories 69 ■ Performance of products in
their categories and regions 76 ■ Review scores distribution 84
Order status 91
3.4 Inferential analysis 97
Before you begin 97 ■ Relationship between product attributes and
shipping costs 98 ■ Relationship between product, transaction,
shipping attributes, and the review score 105 ■ Differences in sales
performance and customer satisfaction between sellers 111
4 Using generative AI for result interpretations 119
4.1 Problem definition 120
4.2 Popularity of product categories 122
4.3 Performance of products in their categories and
regions 130
4.4 Review scores distribution analysis 132
4.5 Order status 138
4.6 Relationship between product attributes and the shipping
costs 142
4.7 Relationship between product, transaction, shipping
attributes, and the review score 146
4.8 Differences in sales performance and customer
satisfaction between sellers 150
5 Basic text mining using generative AI 154
5.1 Text mining in the era of generative AI 155
Generative AI is a game changer 156 ■ Beware of AI
intimidation 156 ■ Unpacking the constraints 157
5.2 Preparing for analysis 159
Data quality 159 ■ Customer feedback preparation
example 160
5.3 Frequency analysis 162
What can we learn from frequency analysis of customer
reviews? 162 ■ Direct frequency analysis with generative
AI 163 ■ Uploading a data file to ChatGPT for frequency
analysis 164 ■ Extracting the most common words 165
Extracting the most common phrases 169 ■ Understanding
the output 170
5.4 Co-occurrence analysis 173
What can we learn from co-occurrence analysis? 174 ■ Cooccurrence
analysis in practice 175 ■ Understanding the
output 178
5.5 Keyword search 180
What can we learn from keyword search? 180 ■ Generating
keywords with generative AI 181 ■ Generating keywords in
practice 182 ■ Searching for keywords 186 ■ Improving
keyword search 187 ■ Comparing generative AIs: Code
snippets for positive review searches 194 ■ Seeking analytical
inspiration 200
5.6 Dictionary-based methods 206
What can we learn from dictionary-based methods? 206
Finding resources 208 ■ Interpreting resources 211
Adapting the code to chosen resources 212 ■ Improving
dictionary-based search 214
6 Advanced text mining with generative AI 218
6.1 Review analysis 219
6.2 Sentiment analysis 220
What can you learn from sentiment analysis? 222 ■ Direct
sentiment analysis with generative AIs 223 ■ Sentiment analysis
with generative AI’s API 225 ■ Sentiment analysis with
machine learning 227 ■ Sentiment analysis with a suboptimal
model 231 ■ Sentiment analysis on translated inputs 234
Sentiment analysis with multilingual models 235 ■ Sentiment
analysis with zero-shot learning models 236 ■ Comparing results
of advanced sentiment analysis 237
6.3 Text summarization 238
How can you benefit from text summarization? 239 ■ How can
generative AI help in text summarization? 240 ■ Summarizing
text with ChatGPT 242 ■ Summarizing text with dedicated
libraries 243 ■ Topic modeling 247
7 Scaling and performance optimization 251
7.1 Performance measurement 253
Execution time 255 ■ Throughput 258 ■ Resource
utilization 259
7.2 Improving code performance 261
Optimizing code 262 ■ Scaling code 264
7.3 Cloud-based deployment 271
What is cloud computing? 271 ■ Moving your code to the
cloud 272
7.4 Code conversion 274
8 Risk, mitigation, and tradeoffs 280
8.1 The risks of GenAI, in context 282
8.2 General best practices 283
AI use policy 283 ■ Encouraging transparency and
accountability 285 ■ Educating stakeholders 286
Validating model outputs with expert knowledge 289
8.3 AI delusion and hallucination risks 291
8.4 Mitigating misinterpretation and miscommunication
risks 296
Ensuring contextual understanding 297 ■ Tailoring model
prompts and iterative query refinement 297 ■ Implementing
post-processing techniques 299 ■ Implementing best practices for
clearly communicating results 301 ■ Establishing a feedback
loop 302
8.5 Model bias and fairness risks 303
Recognizing and identifying bias in model outputs 304
Applying bias detection and mitigation techniques 304
Encouraging diversity and ethical use of generative AIs 306
Continuously monitoring and updating models 306
8.6 Privacy and security risks 306
Identifying sensitive data 307 ■ Data anonymization and
pseudonymization 309 ■ Social engineering and phishing 310
Compliance with data protection regulations 311 ■ Regular
security audits and assessments 311 ■ Employee training and
awareness 312
8.7 Legal and compliance risks 312
Understanding applicable regulations 312 ■ Intellectual property
and licensing 312 ■ Transparency and explainability 313
Establishing a compliance framework 313 ■ Regularly reviewing
and updating compliance practices 313
8.8 Emergent risks 313
Rogue models 314 ■ Vulnerable crown jewels 314
Unknown unknowns 315
appendix A Specifying multiple DataFrames to ChatGPT v4 317
appendix B On debugging ChatGPT’s code 322
appendix C On laziness and human errors 329
index 333