Mingəçevirin ilk data-jurnalistika platforması!

Verilənlərin toplanması – məlumatın ilk toxunuşu

0

Təsəvvür et ki, sən bir xəzinə ovçususan. Qızıl külçələri hər yerdədir: veb-saytların dərinliklərində, API-lərin qapıları arxasında, insanlardan alınan cavablarda, sensorların axınında… Amma bu xəzinəni tapıb özünə gətirmək üçün düzgün “ov alətləri” lazımdır.

Data collection mərhələsi mənim ən çox həyəcanlandığım hissədir. Çünki burada hər şey başlayır. Sən sadəcə “data var” demirsən, “bu datanı mənə ver, mən onu mənimsəyəcəm” deyirsən. Bu mərhələdə uğur qazanan insan sonrakı bütün addımlarda (təhlil, model qurma, biznes qərarları) böyük üstünlük əldə edir.

Niyə bu qədər vacibdir?

Müasir dünyada “data yeni neftdir” deyimi artıq banallaşıb. Amma reallıq budur: keyfiyyətli və müxtəlif mənbələrdən alınan data olmadan heç bir ağıllı sistem, proqnoz və ya insight mümkün deyil. Pis yığılmış data isə sonradan sənə illərlə baş ağrısı verəcək “zəhərli” məlumatlara çevrilir.

Əsas toplama metodları və alətlər

1. API-lər vasitəsilə toplama (ən təmiz və tövsiyə olunan yol) API-lər məlumatı strukturlaşdırılmış şəkildə verir.

  • Postman və insomnia — əvvəlcə API-ni test etmək üçün əvəzolunmazdır.
  • Python ilə: requests kitabxanası.

Sadə nümunə (Python):

Python

import requests

response = requests.get("https://api.example.com/data", 
                       params={"key": "your_api_key"})
data = response.json()
print(data)
Mənim hissim: İlk dəfə bir açıq API-dən (məsələn, weather və ya currency API) real-time məlumat çəkəndə özümü sehrbaz kimi hiss etmişəm.

Populyar açıq API-lər: OpenWeatherMap, Alpha Vantage (maliyyə), Twitter/X API, Google Maps API və s.

2. Web Scraping – vebin dərinliklərində ov Bəzi məlumatlar API ilə əlçatan olmur. O zaman scraping işə düşür.

  • BeautifulSoup + Requests — Kiçik və orta layihələr üçün ən rahat kombinasiya.
  • Scrapy — Böyük, peşəkar scraping layihələri üçün (sürətli, paralel işləyir, pipeline-ları var).
  • Selenium — JavaScript-lə yüklənən dinamik saytlar (React, Angular) üçün. Amma yavaşdır və resurs çox işlədir.
  • Playwright — Selenium-un müasir, daha sürətli və güclü alternativi (2026-cı ildə çox tövsiyə olunur).

Kiçik nümunə (BeautifulSoup):

Python

from bs4 import BeautifulSoup
import requests

response = requests.get("https://news.example.com")
soup = BeautifulSoup(response.text, "html.parser")
titles = [h.text for h in soup.find_all("h2")]

Xəbərdarlıq: Çoxsaylı sorğu göndərmə, robots.txt-yə hörmət et və legal məlumatları topla. Əks halda problemlə üzləşə bilərsən.

3. Sorğu və İnsan mənbələri

  • Google Forms — Pulsuz və sadə.
  • Typeform — Çox gözəl dizaynı var, insanlar daha rahat cavab verir.
  • SurveyMonkey, Qualtrics — Peşəkar araşdırmalar üçün.

4. Log və Sensor məlumatları

  • Fluentd, Logstash, Filebeat — Server loglarını toplamaq üçün.
  • IoT platformaları: MQTT protokolu, AWS IoT, Google IoT Core.

5. Digər mənbələr

  • Sosial media API-ləri (X, Instagram, LinkedIn)
  • Açıq verilənlər bazaları (Kaggle, data.gov, World Bank)
  • Şirkətin daxili sistemləri (CRM, ERP)

Praktiki Məsləhətlər və Ən Yaxşı Təcrübələr

  • Həmişə etik və legal ol — GDPR, CCPA qaydalarına diqqət et.
  • Rate limitingerror handling-ə diqqət et (məlumat axını kəsilə bilər).
  • Data schema-nı əvvəlcədən düşün — sonradan dəyişdirmək çətin olur.
  • Incremental collection istifadə et (bütün datanı hər dəfə yox, yalnız yeni olanı çək).
  • Monitoring qur — toplama prosesi dayansa, dərhal xəbərdarlıq alsın.

Müqayisə cədvəli (qısa)

Alət Çətinlik Sürət Böyük layihə üçün Qiymət
Requests+BS4 Asan Orta Orta Pulsuz
Scrapy Orta Çox yüksək Əla Pulsuz
Selenium Orta Aşağı Zəif Pulsuz
Playwright Orta Yüksək Əla Pulsuz
API (requests) Asan Çox yüksək Əla Pulsuz/Ödənişli
Mənim şəxsi hissim: Data toplama mərhələsi həm ən maraqlı, həm də ən “xam” hissədir. İlk uğurlu layihəmdə bir e-ticarət saytından məhsul məlumatlarını çəkib təhlil edəndə hiss etdim ki, bu, gələcəyin əsas bacarıqlarından biridir. Amma eyni zamanda səbr tələb edir. Bəzən kod işləmir, sayt strukturunu dəyişir, API limit qoyur… Bu, oyunun bir hissəsidir.

Başlanğıc üçün tövsiyə:

  1. Kiçik bir layihə seç (məsələn, “Azərbaycandakı hava məlumatlarını topla”).
  2. requests + BeautifulSoup öyrən.
  3. Sonra Scrapy-yə keç.
  4. Bir neçə API ilə oynayın.

Şərhlər bağlıdır, lakin trackbacks və pingbacks açıqdır.