İndi əlində təmiz, formaya salınmış data var. Amma data özü heç nə demir. Sual budur: “Bu nə deməkdir? Nəyi izah edir? Gələcəkdə nə gözləyə bilərik?”
Data Analysis mərhələsi mənim üçün detektivlikdir. Sən faktları toplayır, nümunələr axtarır, gizli əlaqələri aşkar edirsən və nəhayət, məlumatlara “səs” verirsən. Bu, ən yaradıcı və intellektual zövq verən hissələrdən biridir. Çünki burada rəqəmlər hekayəyə çevrilir.
Niyə bu qədər vacibdir?
Təhlil olmadan data sadəcə fayl yığınıdır. Yaxşı analiz biznesə yeni gəlir mənbələri, optimizasiya imkanları və ya risklərin qarşısını almaq üçün insight-lar verir. Bir çox şirkət məhz bu mərhələdə “data-driven” qərarlar qəbul etməyə başlayır. Pis təhlil isə yanlış nəticələrə, itkilərə səbəb ola bilər. Bu, körpü tikmək kimidir – əsas struktur düz olsa, üstündə hər şey dayanar.
Əsas alətlər və texnologiyalar
1. SQL – Ən vacib universal dil Hər data mütəxəssisinin əsas silahı. Verilənlər bazasından məlumatı tez və effektiv şəkildə çıxarır. Güclü tərəfləri: Aggregation (SUM, AVG, COUNT), JOIN-lar, Window functions (RANK, LAG), CTE-lər.
Nümunə sorğu (satış təhlili):
WITH monthly_sales AS (
SELECT
DATE_TRUNC('month', order_date) AS month,
SUM(amount) AS total_sales,
COUNT(DISTINCT customer_id) AS unique_customers
FROM orders
GROUP BY month
)
SELECT
month,
total_sales,
unique_customers,
total_sales / unique_customers AS avg_order_value,
LAG(total_sales) OVER (ORDER BY month) AS prev_month_sales
FROM monthly_sales
ORDER BY month;
- Pandas — DataFrame ilə işləmək üçün klassik.
- NumPy — Riyazi əməliyyatlar və massivlər üçün.
- Polars — Sürətli alternativ (böyük datasetlər üçün tövsiyə).
- Jupyter Notebook / JupyterLab — Təhlili addım-addım yazdığın, vizuallaşdırdığın interaktiv dəftər.
Sadə Pandas nümunəsi:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_parquet("clean_sales.parquet")
# Təhlil
summary = df.groupby('region')['amount'].agg(['sum', 'mean', 'count'])
print(summary)
# Korelyasiya və vizualizasiya
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title('Dəyişənlər arası əlaqə')
plt.show()
3. R dili Statistika və elmi təhlil üçün hələ də ən güclü seçimdir. ggplot2 ilə vizualizasiya çox gözəldir. Amma Python qədər geniş ekosistemə malik deyil.
4. Digər faydalı kitabxanalar
- SciPy, Statsmodels — Statistik testlər üçün.
- Scikit-learn — Sadə maşın öyrənməsi modellərinə keçid üçün.
Müqayisə cədvəli
| Alət / Dil | Çətinlik | Sürət (böyük data) | Statistika gücü | Vizualizasiya | Ən yxşı olduğu yr |
|---|---|---|---|---|---|
| SQL | Asan | Çox yüksək | Yüksək | Zəif | Verilənlər bazası təhlili |
| Python (Pandas) | Orta | Yüksək (Polars ilə daha yaxşı) | Yüksək | Çox yaxşı | Ümumi analiz və prototiplər |
| R | Orta | Orta | Çox yüksək | Əla | Elmi və statistik təhlil |
| Excel | Asan | Aşağı | Orta | Yaxşı | Kiçik datasetlər, başlanğıc |
- Exploratory Data Analysis (EDA)-ni unutma — ilk addım həmişə data ilə tanış olmaqdır (describe, head, missing values, outliers).
- Statistik əsasları öyrən — mean, median, variance, correlation, hypothesis testing.
- Reproducibility — Bütün kodları Jupyter-də və ya script-lərdə saxla, random seed qoy.
- Storytelling — Sadəcə rəqəm tapmaq yox, onu biznes dilinə çevir ( “Bu regionda satış 30% düşüb, səbəb budur…”).
- Version control — Git ilə təhlil notebook-larını idarə et.
- Outlier və bias-a diqqət et — onlar nəticəni korlaya bilər.
Mənim şəxsi hissim: İlk dəfə bir satış datasetində “həftə sonları satışlar 2 dəfə çoxdur” kəşf edəndə və ya müştəri seqmentləşdirməsində yeni qruplar tapanda həqiqətən həyəcanlanmışdım. Data təhlili sanki məlumatın içindəki hekayəni açmaq kimidir. Bəzən saatlarla qrafiklərə baxıb düşünürsən, amma o “insight” anı bütün zəhmətə dəyər. Bu mərhələ səni daha kəskin düşüncəli edir.
Başlanğıc üçün tövsiyə:
- SQL-i möhkəmləndir (LeetCode, HackerRank, StrataScratch).
- Pandas + Jupyter ilə Kaggle datasetləri üzərində EDA et.
- Bir real layihə seç: Məsələn, Azərbaycan iqtisadiyyatı haqqında açıq data təhlil et.
- Vizualizasiyanı öyrən (Seaborn və ya Plotly).
- Sonra R və ya Scikit-learn-ə keç.
Şərhlər bağlıdır, lakin trackbacks və pingbacks açıqdır.