Torna all'elenco degli articoli Articoli
Tempo di lettura: 13 minuti

Insiemi di dati della cultura pop in SQL: Pratica con film, musica e sport

Perché accontentarsi di fatture e tabelle di ordini quando si possono interrogare gli Oscar, le hit di Spotify o le statistiche dell'NBA? I dataset della cultura pop rendono la pratica di SQL divertente, coinvolgente e sorprendentemente efficace.

Avete mai voluto usare SQL per scoprire quale attore ha vinto più Oscar, quale artista ha dominato le classifiche nell'anno in cui vi siete laureati o quale paese è in cima alla classifica delle medaglie olimpiche? Buone notizie: è possibile.

La maggior parte dei principianti impara l'SQL analizzando clienti, ordini e fatture. È utile, ma siamo onesti: non è sempre entusiasmante. Se volete rimanere motivati durante l'apprendimento, avete bisogno di insiemi di dati che siano divertenti e rapportabili. È qui che entra in gioco la cultura pop. I film, la musica e gli sport sono ricchi di dati e la loro interrogazione è un modo perfetto per acquisire competenze reali in SQL mantenendo le cose interessanti.

Se avete appena iniziato, o se avete bisogno di una rinfrescata, iniziate con il corso SQL per principianti su LearnSQL.it. I nostri corsi SQL sono completamente interattivi: si scrivono le query, si eseguono su database reali e si riceve un feedback immediato. Offriamo corsi per principianti e per esperti, quindi anche se siete analisti di dati esperti troverete qualcosa per migliorare le vostre capacità.

In questo articolo analizzeremo come potete esercitarvi con l'SQL utilizzando set di dati della cultura pop. Prenderemo in considerazione esempi tratti da film, canzoni e sport e vi mostreremo come si collegano ai concetti che apprenderete nei nostri corsi.

🎬 Film: Interrogare i film preferiti

I film non sono solo intrattenimento, ma anche miniere di dati. Elenchi del cast, date di uscita, budget, guadagni al botteghino, generi, valutazioni... tutto si inserisce perfettamente in un database.

Idee per i dataset

  • Set di dati IMDB - Gestito da IMDb, questo enorme set di dati include titoli, cast, troupe, anni di uscita, valutazioni e altro ancora. È una delle fonti più utilizzate per i dati relativi ai film.
  • Il database dei film (TMDb) - Un database aperto, guidato dalla comunità, con metadati dettagliati su film e spettacoli televisivi. Popolare per le sue API e per i contenuti aggiornati.
  • Kaggle Top 500 Popular Movies - I dataset di film curati su Kaggle, come Top 500 Popular Movies, forniscono sottoinsiemi puliti e pronti all'uso di film popolari.
  • Spettacoli di Netflix (Kaggle) - Insiemi di dati compilati dai cataloghi di Netflix, spesso scraped o condivisi dai ricercatori, che coprono titoli, generi, anni di uscita e regioni.
  • Il vostro Netflix avvolto- Esportate la vostra cronologia personale di Netflix per analizzare le vostre abitudini di visione. Ottimo per esercitarsi con l'SQL personalizzato.
  • Oscar (Kaggle) - Dati storici sugli Academy Awards, inclusi vincitori, nominati, categorie e anni. Utile per le query sui successi e le tendenze del cinema.

Idee pratiche

  • Quale attore è apparso nel maggior numero di film premiati con l'Oscar?
  • Qual è stato il film che ha incassato di più nel 2010?
  • Qual è il regista con la valutazione media IMDB più alta?
  • Quanti film degli ultimi 20 anni hanno avuto un budget superiore a 100 milioni di dollari ma non sono riusciti a raggiungere il pareggio?

Concetti SQL su cui farete pratica

  • JOIN (ad esempio, collegare gli attori ai film)
  • Ordinamento con ORDER BY (ad esempio, elencare i film più votati o i maggiori successi al botteghino)
  • Aggregati come COUNT, AVG, MAX, SUM (ad esempio, contare i film per regista, trovare la valutazione media per decennio o calcolare gli incassi totali per studio).

👉 Questo è esattamente il tipo di pratica che farete nel nostro corso SQL per principianti . Al posto delle star del cinema, interrogherai dati aziendali strutturati, ma le competenze si trasferiscono direttamente.

🎵Musica: Analizzare le classifiche

I dati musicali sono ovunque: classifiche, playlist, statistiche di streaming, persino testi. Se siete curiosi di conoscere le tendenze, l'SQL può rivelare intuizioni affascinanti.

Idee per il set di dati

  • Billboard Hot 100 e altro - Dati di classifica che catturano le classifiche settimanali dei brani più venduti, con artisti, anni di pubblicazione e performance in classifica. Perfetto per esplorare le tendenze di popolarità nel tempo.
  • Set di dati dei brani di Spotify (Kaggle) - Un ampio set di dati con caratteristiche audio (tempo, ballabilità, energia, valenza), dettagli dei brani, artisti e punteggi di popolarità. Compilato dai collaboratori di Kaggle a partire dalle API di Spotify, è ampiamente utilizzato per analizzare le tendenze di ascolto e gli attributi musicali.
  • Crea il tuo Spotify personalizzato con SQL - Una guida pratica che mostra come esportare la cronologia personale di Spotify e interrogarla con SQL. Ideale per creare i propri approfondimenti in stile "Wrapped".
  • Premi Grammy (Kaggle) - Copre i nominati e i vincitori dal 1965 al 2024, comprese le categorie, gli artisti, le canzoni e gli album. Creato dalla comunità di Kaggle, questo set di dati è popolare per studiare la storia dei premi e il successo degli artisti nel corso dei decenni.
  • I migliori compositori classici (Kaggle) - Un dataset curato di compositori classici con metadati quali nomi, epoche e Paesi. Una risorsa semplice ma efficace per analizzare la storia della musica attraverso SQL.
  • MusicNet (Kaggle) - Contiene 330 registrazioni classiche con oltre un milione di etichette che indicano ogni nota e strumento. Originariamente rilasciato per la ricerca, è uno dei set di dati classici più ricchi, che consente di analizzare la struttura musicale e confrontare i compositori in dettaglio.

Idee pratiche

  • Chi è stato l'artista più ascoltato in streaming nel 2020?
  • Come è cambiata la lunghezza delle canzoni nel corso dei decenni?
  • Quale decennio ha prodotto il maggior numero di successi Billboard #1?
  • Quali artisti compaiono costantemente nella Top 10 anno dopo anno?
  • Chi detiene il record del maggior numero di nomination ai Grammy senza vittoria?
  • Quali compositori classici sono vissuti più a lungo e quante opere sono state loro attribuite?

Concetti di SQL che verranno messi in pratica

  • Funzioni GROUP BY e aggregate (ad esempio, contare le voci in classifica per artista o trovare la lunghezza media delle canzoni per decennio).
  • Filtrare con WHERE (ad esempio, limitare i risultati alle canzoni degli anni '90 o ai soli vincitori dei Grammy).
  • Lavorare con le date (ad esempio, confrontare le prestazioni delle classifiche per decennio o tracciare i picchi di streaming per anno).

👉 Se il GROUP BY vi confonde, il nostro SQL GROUP BY Pratica vi offre numerosi esercizi pratici per acquisire sicurezza. Con una serie di set di dati reali, vi eserciterete a raggruppare e aggregare i dati finché non diventerà una seconda natura.

🏀 Sport: Statistiche che raccontano una storia

Gli appassionati di sport sanno che le statistiche fanno parte del divertimento. Punti, gol, medaglie, vittorie, sconfitte: tutti vivono in database strutturati. Questo li rende perfetti per la pratica di SQL.

Idee per i dataset

  • 120 anni di storia olimpica (Kaggle) - Copre gli atleti e i risultati olimpici dal 1896 al 2016. Include dati demografici degli atleti, eventi, medaglie e statistiche dei Paesi. Ampiamente utilizzato per analisi storiche e di tendenza.
  • Coppa del mondo FIFA (GitHub) - Un insieme strutturato di partite, squadre, tornei, obiettivi e risultati della Coppa del Mondo. Creato dal ricercatore sportivo Jeffrey Fjelstul, è popolare per l'analisi della storia del calcio.
  • Set di dati NBA (Kaggle) - Dati completi sull'NBA con partite, squadre, giocatori e tabellini di tutti i decenni. Ottimo per confrontare le carriere dei giocatori, i successi delle squadre e le prestazioni stagione per stagione.
  • NFL - nflfastR - Dati pubblici sulla telecronaca della NFL dal 1999 in poi. Include statistiche avanzate come punti attesi e probabilità di vittoria. I dati sono disponibili in formato CSV/Parquet, largamente utilizzato nelle analisi sportive.
  • Baseball - pybaseball (GitHub) - Una libreria Python che estrae i dati della MLB da fonti ufficiali e semiufficiali come Baseball Savant e FanGraphs. Fornisce statistiche a livello di partita, stagione e campo.

Idee per esercitarsi

  • Quale giocatore dell'NBA ha segnato più punti negli anni '90?
  • Chi detiene il record di gol nella Coppa del Mondo?
  • Qual è il Paese che si colloca costantemente al primo posto per numero di medaglie d'oro olimpiche?
  • Come è cambiato il numero medio di gol per partita nei vari tornei?

Concetti SQL su cui fare pratica

  • Query di classificazione (ad esempio, trovare i capocannonieri o i leader delle medaglie)
  • Filtri con condizioni multiple (ad esempio, concentrarsi su stagioni o tornei specifici)
  • Aggregati con condizioni (ad esempio, calcolare la media dei gol per partita o dei punti per gara).

👉 I dati sportivi si basano su classifiche, medie e confronti tra le stagioni. Questo è esattamente ciò che imparerete nel nostro corso. Come creare semplici report SQL corso: trasformare le statistiche grezze in rapporti chiari e strutturati.

🎨 Arte: Forme di espressione

L'arte non è solo gallerie e mostre, ma anche dati che aspettano di essere esplorati. Musei e ricercatori di tutto il mondo pubblicano collezioni strutturate con informazioni su artisti, opere, stili e movimenti. Con SQL, è possibile rivelare modelli di creatività, confrontare epoche e persino seguire l'evoluzione di alcune tendenze artistiche nel tempo.

Idee per i dataset

Idee pratiche

  • Quale artista ha il maggior numero di opere nella collezione del MoMA?
  • Come variano i mezzi (olio, acrilico, scultura, ecc.) nei vari decenni?
  • Quali movimenti artistici sono più rappresentati nel set di dati del Whitney?
  • Quali sono i pittori che compaiono più frequentemente tra le "migliori opere di tutti i tempi" e in quali categorie di stile?
  • Confrontate la sovrapposizione tra MoMA e Whitney: alcuni artisti sono presenti in entrambi?

Concetti SQL su cui farete pratica

  • Filtri e raggruppamenti (ad esempio, opere per artista, medium o decennio)
  • JOIN (ad esempio, collegamento di opere d'arte a mostre o artisti)
  • Aggregati come COUNT e DISTINCT (ad esempio, numero di opere per stile o movimento)
  • Ordinamento e classifica (ad esempio, i 10 pittori più prolifici di una collezione)

👉 Volete esercitarvi su dati reali? Provate i nostri Pratica su SQL Banche dati. Troverete dataset come MoMA e Athletics Finals progettati per la libera esplorazione, in modo da poter scrivere le vostre query e scoprire intuizioni senza essere bloccati in esercizi predefiniti.

🎮 Videogiochi: Giocate con i dati

I videogiochi non sono solo divertenti da giocare, ma generano anche enormi quantità di dati strutturati. Dai numeri di vendita e dalle recensioni ai tornei di esports e alle valutazioni dei giochi da tavolo, questi set di dati consentono di esplorare le tendenze dell'intrattenimento, della competizione e della cultura. Con SQL è possibile scoprire cosa rende un gioco di successo, come si evolvono i generi o quali giocatori e squadre dominano la scena degli esports.

Idee per i dataset

  • Vendite di videogiochi (Kaggle) - Contiene i dati di vendita di oltre 16.000 videogiochi. Le colonne includono nome, piattaforma, anno, genere, editore e vendite globali/regionali. Perfetto per esercitarsi con le funzioni GROUP BY, JOIN e aggregate.
  • Set di dati sui giochi di Steam (Kaggle) - Copre il vasto catalogo di giochi di Steam. Include titolo, data di uscita, sviluppatore, genere, tag, prezzo e recensioni. Ottimo per il filtraggio, la ricerca testuale e l'analisi delle tendenze.
  • Guadagni degli Esports (Kaggle) - Dati a livello di torneo con montepremi, giocatori e squadre. Utile per le query gerarchiche, le classifiche e l'esplorazione delle tendenze delle prestazioni nei giochi competitivi.
  • Giochi da tavolo (Kaggle) - Dati da BoardGameGeek con recensioni, valutazioni e categorie. Eccellente per esercitarsi con i join tra recensioni, categorie e valutazioni.

Idee pratiche

  • Quale piattaforma di videogiochi ha registrato le maggiori vendite globali negli anni 2000?
  • Quali sono gli sviluppatori di Steam che hanno pubblicato il maggior numero di giochi e come sono le loro valutazioni medie?
  • Chi sono i primi 10 giocatori di esports per guadagni totali e quali giochi dominano i montepremi?
  • Quali sono le categorie di giochi da tavolo con le valutazioni medie più alte e si differenziano da quelle più recensite?
  • Come si è spostata la popolarità dei generi di gioco negli ultimi trent'anni?

Concetti SQL su cui farete pratica

  • Raggruppamento e aggregazione (ad esempio, vendite per piattaforma o genere)
  • JOIN (ad esempio, collegare le recensioni alle categorie di giochi da tavolo)
  • Classificazione con ORDER BY (ad esempio, i giochi più venduti o i giocatori di esports che guadagnano di più)
  • Filtraggio e ricerca testuale (ad esempio, giochi con "Adventure" nel titolo o nei tag)

👉 I giochi si basano su classifiche e leaderboard, ed è proprio qui che le funzioni di window brillano. Nel nostro Window Functions (Funzioni Finestra) corso, imparerete a classificare, confrontare e analizzare i dati nel tempo, proprio come se steste monitorando i migliori giocatori o i titoli più venduti.

🗂️ Come caricare un set di dati CSV in un database

La maggior parte dei set di dati che abbiamo esaminato sono in formato CSV. Per fare pratica con l'SQL, di solito è necessario caricarli in un sistema di database come PostgreSQL, MySQL o SQLite. Ecco il procedimento generale:

  1. Scegliere il database
    • SQLite - l'opzione più semplice; memorizza tutto in un unico file.
    • PostgreSQL / MySQL - più potente, ottimo se si vuole lavorare con insiemi di dati più grandi o con più tabelle.
  2. Creare una tabella
    Creare una tabella che corrisponda alla struttura del file CSV. Ad esempio, se il vostro CSV ha le colonne: Name, Platform, Year, Genre, Sales, la tabella potrebbe avere questo aspetto in PostgreSQL:
CREATE TABLE videogames (
    name TEXT,
    platform TEXT,
    year INT,
    genre TEXT,
    sales NUMERIC
);
  1. Importazione del CSV
  • In PostgreSQL:
COPY videogames(name, platform, year, genre, sales)
FROM '/path/to/videogames.csv'
DELIMITER ','
CSV HEADER;
  • In MySQL:
LOAD DATA INFILE '/path/to/videogames.csv'
INTO TABLE videogames
FIELDS TERMINATED BY ','
IGNORE 1 ROWS;
  • In SQLite (utilizzando la riga di comando):
sqlite3 mydatabase.db
.mode csv
.import videogames.csv videogames
  1. Avviare l'interrogazione
    Una volta caricata, è possibile eseguire le query SQL come di consueto:
SELECT genre, AVG(sales) 
FROM videogames
GROUP BY genre
ORDER BY AVG(sales) DESC;

👉 Se non si vuole avere a che fare con l'impostazione del database, è possibile utilizzare i database pratici SQL di LearnSQL.it di SQL Practice Databases. Sono pronti per essere interrogati nel browser, senza bisogno di installazione.

Dal divertimento al professionismo

Esercitarsi con SQL su film, musica, sport o giochi è un ottimo modo per mantenersi motivati. Ma il vero vantaggio arriva quando si trasferiscono queste competenze alla propria carriera. Una volta acquisita la padronanza di filtri, JOIN e aggregati su insiemi di dati divertenti, sarete pronti ad analizzare i dati dei clienti, i rapporti di vendita o le analisi di marketing al lavoro.

Se desiderate un modo strutturato per acquisire queste competenze, senza dover passare il tempo a cercare i set di dati, il pacchetto Completo per sempre pacchetto SQL è la scelta migliore. Vi dà accesso a vita a tutti i corsi di LearnSQL.it , dalle basi agli argomenti più avanzati come le funzioni finestra, i report e le subquery. Potrete esercitarvi in SQL in modo interattivo con dati reali, ricevere un feedback immediato e acquisire la sicurezza necessaria per interrogare qualsiasi set di dati, che si tratti di successi al botteghino, di classifiche di Spotify o del database della vostra azienda.

👉 Siete pronti a passare dalla cultura pop all'analisi professionale? Il pacchetto Completo per sempre pacchetto SQL ha tutto ciò che serve per diventare esperti di SQL una volta per tutte.