Mingəçevirin ilk data-jurnalistika platforması!

Verilənlərin təhlili – hekayəni anlamaq

1

İndi əlində təmiz, formaya salınmış data var. Amma data özü heç nə demir. Sual budur: “Bu nə deməkdir? Nəyi izah edir? Gələcəkdə nə gözləyə bilərik?”

Data Analysis mərhələsi mənim üçün detektivlikdir. Sən faktları toplayır, nümunələr axtarır, gizli əlaqələri aşkar edirsən və nəhayət, məlumatlara “səs” verirsən. Bu, ən yaradıcı və intellektual zövq verən hissələrdən biridir. Çünki burada rəqəmlər hekayəyə çevrilir.

Niyə bu qədər vacibdir?

Təhlil olmadan data sadəcə fayl yığınıdır. Yaxşı analiz biznesə yeni gəlir mənbələri, optimizasiya imkanları və ya risklərin qarşısını almaq üçün insight-lar verir. Bir çox şirkət məhz bu mərhələdə “data-driven” qərarlar qəbul etməyə başlayır. Pis təhlil isə yanlış nəticələrə, itkilərə səbəb ola bilər. Bu, körpü tikmək kimidir – əsas struktur düz olsa, üstündə hər şey dayanar.

Əsas alətlər və texnologiyalar

1. SQL – Ən vacib universal dil Hər data mütəxəssisinin əsas silahı. Verilənlər bazasından məlumatı tez və effektiv şəkildə çıxarır. Güclü tərəfləri: Aggregation (SUM, AVG, COUNT), JOIN-lar, Window functions (RANK, LAG), CTE-lər.

Nümunə sorğu (satış təhlili):

SQL

WITH monthly_sales AS (
    SELECT 
        DATE_TRUNC('month', order_date) AS month,
        SUM(amount) AS total_sales,
        COUNT(DISTINCT customer_id) AS unique_customers
    FROM orders
    GROUP BY month
)
SELECT 
    month,
    total_sales,
    unique_customers,
    total_sales / unique_customers AS avg_order_value,
    LAG(total_sales) OVER (ORDER BY month) AS prev_month_sales
FROM monthly_sales
ORDER BY month;
2. Python Stack – Ən çevik və güclü
  • Pandas — DataFrame ilə işləmək üçün klassik.
  • NumPy — Riyazi əməliyyatlar və massivlər üçün.
  • Polars — Sürətli alternativ (böyük datasetlər üçün tövsiyə).
  • Jupyter Notebook / JupyterLab — Təhlili addım-addım yazdığın, vizuallaşdırdığın interaktiv dəftər.

Sadə Pandas nümunəsi:

Python

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_parquet("clean_sales.parquet")

# Təhlil
summary = df.groupby('region')['amount'].agg(['sum', 'mean', 'count'])
print(summary)

# Korelyasiya və vizualizasiya
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title('Dəyişənlər arası əlaqə')
plt.show()

3. R dili Statistika və elmi təhlil üçün hələ də ən güclü seçimdir. ggplot2 ilə vizualizasiya çox gözəldir. Amma Python qədər geniş ekosistemə malik deyil.

4. Digər faydalı kitabxanalar

  • SciPy, Statsmodels — Statistik testlər üçün.
  • Scikit-learn — Sadə maşın öyrənməsi modellərinə keçid üçün.

Müqayisə cədvəli

Alət / Dil Çətinlik Sürət (böyük data) Statistika gücü Vizualizasiya Ən yxşı olduğu yr
SQL Asan Çox yüksək Yüksək Zəif Verilənlər bazası təhlili
Python (Pandas) Orta Yüksək (Polars ilə daha yaxşı) Yüksək Çox yaxşı Ümumi analiz və prototiplər
R Orta Orta Çox yüksək Əla Elmi və statistik təhlil
Excel Asan Aşağı Orta Yaxşı Kiçik datasetlər, başlanğıc
Praktiki məsləhətlər və ən yaxşı təcrübələr
  • Exploratory Data Analysis (EDA)-ni unutma — ilk addım həmişə data ilə tanış olmaqdır (describe, head, missing values, outliers).
  • Statistik əsasları öyrən — mean, median, variance, correlation, hypothesis testing.
  • Reproducibility — Bütün kodları Jupyter-də və ya script-lərdə saxla, random seed qoy.
  • Storytelling — Sadəcə rəqəm tapmaq yox, onu biznes dilinə çevir ( “Bu regionda satış 30% düşüb, səbəb budur…”).
  • Version control — Git ilə təhlil notebook-larını idarə et.
  • Outlier və bias-a diqqət et — onlar nəticəni korlaya bilər.

Mənim şəxsi hissim: İlk dəfə bir satış datasetində “həftə sonları satışlar 2 dəfə çoxdur” kəşf edəndə və ya müştəri seqmentləşdirməsində yeni qruplar tapanda həqiqətən həyəcanlanmışdım. Data təhlili sanki məlumatın içindəki hekayəni açmaq kimidir. Bəzən saatlarla qrafiklərə baxıb düşünürsən, amma o “insight” anı bütün zəhmətə dəyər. Bu mərhələ səni daha kəskin düşüncəli edir.

Başlanğıc üçün tövsiyə:

  1. SQL-i möhkəmləndir (LeetCode, HackerRank, StrataScratch).
  2. Pandas + Jupyter ilə Kaggle datasetləri üzərində EDA et.
  3. Bir real layihə seç: Məsələn, Azərbaycan iqtisadiyyatı haqqında açıq data təhlil et.
  4. Vizualizasiyanı öyrən (Seaborn və ya Plotly).
  5. Sonra R və ya Scikit-learn-ə keç.

Şərhlər bağlıdır, lakin trackbacks və pingbacks açıqdır.