Il 2021 è l’anno in cui l’analytics smette di essere un lusso per multinazionali e diventa un’esigenza operativa per le PMI italiane. Dopo diciotto mesi di pandemia, ogni azienda con fatturato tra 5 e 50 milioni di euro ha capito una cosa: i dati che generi ogni giorno – ordini, magazzino, CRM, e-commerce, marketing, produzione – sono un patrimonio enorme, e finché restano sparsi tra fogli Excel, gestionale, Shopify e Google Analytics non servono a nulla.
Il problema è che il vocabolario tecnico è esploso. Snowflake è quotata a Wall Street da settembre 2020 con valutazione superiore ai 70 miliardi di dollari, Databricks ha pubblicato a inizio 2021 il paper sul lakehouse, ogni vendor parla di “Modern Data Stack” e i fornitori IT propongono soluzioni che vanno dai 250 dollari al mese ai 50.000 euro di consulenza. Come si orienta un imprenditore o un IT manager di PMI?
Questa guida nasce dall’esperienza diretta di Brentasoft con clienti retail, manifatturieri e servizi nel triennio 2019-2021. L’obiettivo è darti una mappa concreta delle tre architetture dati che oggi vanno per la maggiore – data warehouse, data lake e lakehouse – con costi reali, casi d’uso, errori comuni e una roadmap a 60 giorni per scegliere la strada giusta senza buttare via decine di migliaia di euro.
TL;DR – In 60 secondi
- Data warehouse: dati strutturati, schema-on-write, ottimo per BI tradizionale. Costo PMI: 250-2.500 €/mese.
- Data lake: dati grezzi multi-formato (CSV, JSON, Parquet, ORC, Avro), schema-on-read, costo storage bassissimo, complessità governance alta.
- Lakehouse: architettura unificata (Databricks, Snowflake, Synapse) che combina i vantaggi dei primi due. Concept consolidato nel 2020-2021.
- Stack consigliato PMI 2021: Fivetran o Airbyte per l’ingestion, Snowflake o BigQuery come warehouse, dbt per le trasformazioni, Power BI o Looker per la visualizzazione.
- Costo realistico: 800-3.500 €/mese tutto incluso per una PMI da 5-50 M€.
Cosa è un data warehouse: dalla teoria di Inmon e Kimball ai giorni nostri
Un data warehouse (DW) è un repository centralizzato di dati strutturati, ottimizzato per query analitiche e reportistica. La definizione canonica risale al 1990, quando Bill Inmon – considerato il padre del data warehousing – lo descrive come “una raccolta di dati orientata al soggetto, integrata, non volatile e variabile nel tempo a supporto delle decisioni del management”.
Nel corso degli anni Novanta nasce la prima grande contrapposizione metodologica: Inmon propone un approccio top-down con un Enterprise Data Warehouse normalizzato in terza forma normale, mentre Ralph Kimball – con il Kimball Group – pubblica nel 1996 The Data Warehouse Toolkit introducendo l’approccio dimensionale bottom-up basato su star schema e snowflake schema. Le PMI italiane che oggi implementano un DW nel 2021 seguono quasi sempre l’approccio Kimball, perché parte da casi d’uso concreti (vendite, magazzino, marketing) e produce risultati misurabili in poche settimane.
Caratteristiche tipiche di un data warehouse:
- Schema-on-write: i dati vengono trasformati e validati prima di essere caricati.
- Modello dimensionale a stella con tabelle fact (transazioni) e dimension (anagrafiche).
- SQL standard ANSI come linguaggio di interrogazione.
- Ottimizzato per query analitiche aggregate, non per inserimenti ad alta frequenza.
- Governance forte: chi inserisce dati deve rispettare uno schema definito.
Esempi storici: Teradata, Oracle Exadata, IBM Netezza. Nel 2021 il mondo si è spostato sul cloud: Snowflake, Google BigQuery, Amazon Redshift, Azure Synapse Analytics.
Cosa è un data lake: schema-on-read e il regno di Parquet, ORC e Avro
Il termine data lake viene coniato nel 2010 da James Dixon (allora CTO di Pentaho) come metafora opposta ai “data mart” che lui chiamava “bottiglie d’acqua confezionata”. Un data lake è un repository che memorizza dati grezzi nel loro formato originale, strutturati o non strutturati, senza obbligare a una trasformazione preventiva.
La differenza chiave con il data warehouse è l’approccio schema-on-read: lo schema viene applicato solo nel momento in cui il dato viene letto, non quando viene scritto. Questo permette di salvare oggi log applicativi, JSON dell’IoT, immagini satellitari, file PDF e domani decidere come usarli.
I data lake si appoggiano tipicamente su object storage cloud (Amazon S3, Azure Data Lake Storage Gen2, Google Cloud Storage) o, on-premise, su HDFS (Hadoop Distributed File System). I formati colonnari più diffusi nel 2021 sono:
- Parquet – formato colonnare open source nato da una collaborazione Twitter-Cloudera nel 2013, oggi standard de facto.
- ORC (Optimized Row Columnar) – sviluppato originariamente per Apache Hive, ottimo per workload OLAP.
- Avro – formato row-based, eccellente per streaming e schema evolution.
Nel 2021 vediamo emergere anche i primi table format aperti che portano le funzionalità transazionali ACID sui data lake: Delta Lake (open source da aprile 2019, progetto Databricks), Apache Hudi (donato a Apache nel 2019, top-level project 2020) e Apache Iceberg (top-level project Apache nel maggio 2021).

Il rovescio della medaglia? Senza governance, un data lake degenera in “data swamp” – palude di dati di cui nessuno conosce origine e affidabilità. È il problema che ha fatto fallire il 60% dei progetti Hadoop nel decennio 2010-2020.
Cosa è il lakehouse: il concept Databricks del 2020 spiegato semplice
Il termine lakehouse entra nel vocabolario tecnico nel gennaio 2020 con il paper “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” firmato da Michael Armbrust, Ali Ghodsi (CEO di Databricks), Reynold Xin e Matei Zaharia.
L’idea è semplice e potente: prendere il low cost e la flessibilità del data lake (object storage, formati aperti, supporto a dati non strutturati) e sovrapporvi i pattern transazionali, di governance e performance tipici del data warehouse. Il risultato è un’architettura unica che evita il classico dualismo “Data Lake + Data Warehouse separati con ETL bidirezionali”.
I pilastri tecnici del lakehouse nel 2021 sono:
- Storage cloud object (S3, ADLS Gen2, GCS) come layer di persistenza.
- Formati aperti Parquet per i file fisici.
- Table format con supporto ACID, time travel e schema enforcement: Delta Lake, Apache Hudi, Apache Iceberg.
- Compute engine separato dallo storage, scalabile in modo elastico (Databricks Runtime, Apache Spark, Photon).
- Supporto nativo a workload BI, machine learning e streaming sullo stesso dato.
Snowflake e Google BigQuery, pur essendo nati come puri data warehouse, nel 2021 si stanno avvicinando al concetto lakehouse con feature come Snowflake External Tables su S3, Snowpark (annunciato a giugno 2021) e BigQuery External Tables verso GCS. Microsoft con Azure Synapse Analytics propone una piattaforma unica con sia SQL serverless su data lake sia warehouse dedicato.
Confronto delle tre architetture: quando scegliere cosa
Per una PMI italiana la scelta dipende da tre variabili: tipologia dei dati, latenza richiesta per le decisioni, competenze interne disponibili.
| Caratteristica | Data Warehouse | Data Lake | Lakehouse |
|---|---|---|---|
| Tipologia dati | Strutturati | Strutturati, semi, non strutturati | Tutti |
| Schema | Schema-on-write | Schema-on-read | Entrambi |
| Latenza tipica | Secondi | Minuti | Secondi-minuti |
| Costo storage | Medio-alto | Bassissimo | Basso |
| Governance nativa | Forte | Debole | Forte (table format) |
| Casi d’uso ideali | BI, reportistica | Data science, ML, IoT | BI + ML su stessa fonte |
| Competenze richieste | SQL | SQL + Python/Spark | SQL + Python/Spark |
In termini pratici: una PMI con 300 GB di dati transazionali e tre dashboard Power BI non ha bisogno di un lakehouse, le basta un cloud data warehouse. Una PMI manifatturiera con sensori IoT che generano 50 GB/giorno di telemetria, e che vuole fare predictive maintenance, non può prescindere da un data lake o lakehouse.
Soluzioni cloud 2021: Snowflake, BigQuery, Synapse, Redshift, Databricks
Il panorama cloud nel 2021 è dominato da cinque attori. Vediamoli uno per uno con i pro/contro pratici per una PMI.
Snowflake ha completato l’IPO a settembre 2020 con la più grande quotazione software di sempre (oltre 30 miliardi di dollari di capitalizzazione iniziale). Funziona su AWS, Azure e GCP. Separa compute e storage, paghi solo quello che usi, scaling automatico. Il modello a credit è chiaro: 2-4 dollari per credit a seconda dell’edition. Per una PMI parte da circa $250-400/mese in setup minimale (X-Small warehouse acceso 8 ore al giorno + storage 100 GB).
Google BigQuery è il pioniere serverless: nessuna gestione di cluster, paghi $5 per TB di dati scansionati dalle query e $20 per TB/mese di storage attivo. Ottimo per chi ha già l’ecosistema GCP e Google Analytics 360. Trappola classica: query mal scritte che scansionano tutta la tabella diventano costose.
Microsoft Azure Synapse Analytics (rilancio di Azure SQL Data Warehouse) lanciato in GA a dicembre 2020 unifica warehouse, integrazione dati e Spark in unica workspace. Pro: integrazione perfetta con Power BI, Azure AD, Microsoft 365. Pricing più complesso, parte da circa 1.000-1.500 €/mese per setup PMI con SQL pool serverless e Spark.
Amazon Redshift, primo data warehouse cloud (lanciato 2013), ha ricevuto un grosso aggiornamento con i nodi RA3 (separazione compute/storage tramite Redshift Managed Storage). Pricing on-demand circa $0,25/ora per ra3.xlplus. Buona scelta se hai già l’ecosistema AWS e workload prevedibili.
Databricks Lakehouse Platform è la scelta naturale se vuoi fare anche machine learning e data science avanzata. Si basa su Delta Lake open source. Costo orario del cluster + costo cloud sottostante: per una PMI tipica si parte da $400-700/mese per workload batch e BI. Nel 2021 Databricks ha annunciato Databricks SQL per portare workload BI direttamente sul lakehouse.

Soluzioni on-premise e open source: PostgreSQL, ClickHouse, Hadoop in declino
Non tutte le PMI sono pronte ad abbracciare il cloud per ragioni normative (alcuni clienti pubblici richiedono on-premise) o di sovranità del dato. Ecco le opzioni 2021:
PostgreSQL 13 con estensioni come Citus, TimescaleDB e foreign data wrapper può fungere da data warehouse leggero per volumi fino a qualche TB. Abbinato a dbt Core per le trasformazioni è una soluzione gratuita e potentissima per progetti sotto i 500 GB.
ClickHouse open source (sviluppato da Yandex, rilasciato come OSS nel 2016) è un database colonnare velocissimo per analytics. Ingestion di milioni di righe al secondo, query analitiche aggregate sub-secondo. Curva di apprendimento moderata, eccellente per real-time analytics su log o eventi.
L’ecosistema Hadoop (HDFS, Hive, Spark, Impala) – dominante tra 2012 e 2018 – nel 2021 è in chiaro declino. Cloudera e MapR si sono fuse nel 2019, Cloudera è stata acquisita da private equity nel giugno 2021. Le PMI dovrebbero pensarci dieci volte prima di partire oggi con un nuovo progetto Hadoop on-premise: complessità operativa enorme, talenti rari, alternative cloud più moderne e produttive.
Strumenti ETL/ELT 2021: Fivetran, Stitch, Airbyte, Talend, dbt, Matillion
La pipeline di ingestione dati nel 2021 si è spostata massicciamente verso il paradigma ELT (Extract, Load, Transform) anziché il tradizionale ETL. I motivi: il warehouse cloud ha potenza di calcolo illimitata e poco costosa, quindi conviene caricare i dati grezzi e poi trasformarli con SQL nel warehouse stesso.
- Fivetran – leader di mercato per il SaaS connector. Ha catalogo di oltre 150 connector pre-built (Salesforce, HubSpot, Shopify, Stripe, Google Ads). Pricing basato su MAR (Monthly Active Rows), tipicamente 100-800 €/mese per una PMI.
- Stitch – acquisita da Talend nel 2018, alternativa più economica a Fivetran (da $100/mese).
- Airbyte – open source lanciato a luglio 2020, in rapida crescita. Self-hosted gratuito o cloud in early access. Buon catalogo di connector in espansione.
- Talend – storica suite ETL enterprise, sia Open Studio gratuito sia versione cloud Talend Data Fabric.
- Informatica PowerCenter (on-premise) e Informatica IDMC (cloud, rebrand 2021 di Informatica Intelligent Cloud Services) sono lo standard enterprise per le grandi aziende.
- dbt Core – open source, gioiello del Modern Data Stack. Trasforma il warehouse usando SQL + Jinja + test + documentazione automatica. Versione cloud (dbt Cloud) a $50/utente/mese.
- Matillion – ETL nativo cloud con interfaccia visuale, da $1,37/credit. Buona scelta per chi preferisce il drag-and-drop.
Sul fronte reverse ETL (caricamento dati dal warehouse a CRM e tool di marketing) emergono nel 2021 startup come Hightouch e Census: la cosiddetta “operationalization” dei dati.
Il Modern Data Stack: la combinazione che vince nel 2021
Nella seconda metà del 2021 in Silicon Valley si è cristallizzato un termine: Modern Data Stack. È la combinazione di tool best-of-breed che si è dimostrata vincente per migliaia di startup e PMI in tutto il mondo:
- Ingestion: Fivetran o Airbyte
- Storage e compute: Snowflake, BigQuery o Redshift
- Trasformazione: dbt Core (open source) o dbt Cloud
- Visualizzazione: Looker, Power BI, Metabase o Mode
- Reverse ETL (opzionale): Hightouch o Census
- Orchestrazione (per workload complessi): Apache Airflow, Prefect, Dagster
Questo stack ha tre vantaggi enormi rispetto alle vecchie suite monolitiche: tempi di setup ridotti (un POC in 2-3 settimane invece di 6-9 mesi), costi predicibili e scalabili, sostituibilità di ogni componente senza ricominciare da zero.
Costi reali 2021 per una PMI italiana
Vediamo numeri concreti, ricavati da progetti effettivi di Brentasoft con clienti retail, servizi e manifatturieri italiani:
| Componente | Setup minimo | Setup medio | Setup avanzato |
|---|---|---|---|
| Warehouse (Snowflake / BigQuery) | $250/mese | $800/mese | $2.500/mese |
| Ingestion (Fivetran / Airbyte cloud) | $120/mese | $400/mese | $1.200/mese |
| Trasformazione (dbt Cloud) | $0 (dbt Core) | $100/mese (2 dev) | $400/mese |
| BI (Power BI Pro) | €90/mese (10 utenti) | €180/mese (20 utenti) | €450/mese (50 utenti) |
| Totale mensile | ~€500 | ~€1.500 | ~€4.500 |
| Consulenza setup una-tantum | €8.000-15.000 | €20.000-40.000 | €60.000-120.000 |
Importante: Snowflake e BigQuery sono pay-as-you-use. Se accendi il warehouse solo durante le ore di ETL e per le query interattive degli analisti, il costo reale può scendere del 40-60% rispetto a un warehouse sempre attivo.
Errori comuni che vediamo nelle PMI italiane
Negli ultimi 24 mesi abbiamo visto ripetersi gli stessi errori nei progetti dati delle PMI. Eccoli, in ordine di frequenza:
- Lift-and-shift di Excel su data warehouse: replicare la logica dei fogli Excel “così come sono” sul warehouse. Risultato: tabelle illeggibili, formule duplicate, governance impossibile. La migrazione dati richiede un ridisegno logico.
- Ignorare la data quality: caricare dati senza test di qualità (dbt ha test built-in: not_null, unique, accepted_values, relationships). I report iniziano sbagliati e nessuno se ne accorge per mesi.
- Saltare la governance: nessun data catalog, nessuna definizione di metriche condivisa, ogni dipartimento calcola il “fatturato netto” in modo diverso. Conseguenza: caos in board e perdita di fiducia nei dati.
- Sovradimensionare il warehouse: pagare 3.000 €/mese di Snowflake quando 400 €/mese basterebbero. Si scalano i warehouse verso l’alto solo quando le query rallentano, non per “essere pronti”.
- Comprare BI senza dati puliti: investire 30.000 € in licenze Tableau o Power BI senza avere il warehouse a monte. La dashboard più bella del mondo è inutile se i dati sono sporchi.
- Non investire in formazione: il Modern Data Stack richiede competenze nuove (SQL avanzato, dbt, Git). Senza formare le persone, il progetto si ferma dopo 6 mesi.
Caso reale: PMI retail italiana 25 M€, da Excel a Snowflake in 90 giorni
Nel primo semestre 2021 abbiamo seguito un cliente retail con 12 punti vendita in Lombardia e Veneto, fatturato 25 milioni di euro, 110 dipendenti. La situazione di partenza era classica: gestionale ERP on-premise, e-commerce Magento, Google Analytics, Mailchimp, Facebook Ads e tre dipendenti che ogni lunedì impiegavano 8 ore complessive a estrarre dati e costruire report Excel da mandare al CdA.
Abbiamo proposto e implementato il seguente stack:
- Ingestion: Fivetran con connector verso Magento, Google Analytics 4, Mailchimp, Facebook Ads, HubSpot. Per il gestionale on-premise, custom script Python che ogni notte fa estrazione delta e upload su S3.
- Warehouse: Snowflake X-Small attivo dalle 6 alle 10 di mattina + on-demand durante il giorno per query analisti.
- Trasformazione: dbt Core con 78 modelli organizzati in layer staging-intermediate-marts. Test di qualità su tutti i marts.
- BI: Power BI Pro con 18 licenze (CdA, direttori, store manager).
Risultati misurati a 90 giorni dal go-live:
- Time-to-insight passato da 5 giorni a 4 ore per nuove richieste del CdA.
- Costo mensile totale: 1.380 €/mese (Snowflake 480 + Fivetran 290 + Power BI 162 + cloud ops 50 + utilizzo dbt Core gratuito + AWS S3 50 + manutenzione interna 30%).
- Investimento setup: 28.000 € + due settimane di formazione interna (2 analisti aziendali + 1 IT manager).
- ROI dichiarato dal cliente: liberazione di 1,5 FTE/anno, ottimizzazione campagne Facebook con +18% ROAS misurabile, identificazione di 4 referenze magazzino lente che hanno generato 95.000 € di sconto-svendite recuperate.

Roadmap 60 giorni: come scegliere la tua architettura
Ecco una roadmap operativa che usiamo con i clienti per arrivare a una decisione strutturata senza buttare via tempo e budget.
Come scegliere l’architettura dati per la tua PMI
Roadmap step-by-step di 60 giorni per valutare e scegliere tra data warehouse, data lake e lakehouse.
Step 1 (giorni 1-10): Inventario delle fonti dati
Mappare tutte le fonti dati attuali: ERP, CRM, e-commerce, marketing, social, file Excel. Per ognuna documentare volume (GB), frequenza di aggiornamento, criticità per il business, qualità percepita del dato.
Step 2 (giorni 11-20): Definizione casi d’uso prioritari
Identificare 3-5 casi d’uso concreti con ROI atteso: dashboard CdA mensile, analisi cohort clienti, predictive replenishment magazzino, attribution marketing multicanale. Stimare beneficio in euro per ciascuno.
Step 3 (giorni 21-35): POC tecnico con 2 vendor
Selezionare 2 stack candidati (es. Snowflake+dbt+Power BI vs BigQuery+dbt+Looker Studio) e fare un POC di 2 settimane con un caso d’uso reale. Misurare time-to-insight, costo orario di sviluppo, accuratezza dei dati prodotti.
Step 4 (giorni 36-50): Business case e governance
Costruire il business case a 36 mesi con TCO, ROI atteso, piano di formazione, definizione ruoli (data owner, data steward, analyst). Approvazione formale da direzione.
Step 5 (giorni 51-60): Piano di implementazione MVP
Pianificare un MVP di 60-90 giorni che includa: 2-3 fonti dati critiche, 1 caso d’uso prioritario in produzione, framework di data quality, prima dashboard utilizzata realmente dal management.
FAQ – Le domande più frequenti dei nostri clienti
Una PMI da 10 M€ ha bisogno di un data warehouse?
Se hai più di 3-4 fonti dati eterogenee (ERP, e-commerce, CRM, marketing) e qualcuno passa più di 4 ore a settimana a fare estrazioni manuali, sì. Sotto questa soglia un buon foglio Power Query collegato al gestionale può ancora bastare.
Qual è la differenza pratica tra data warehouse e data lake?
Il data warehouse richiede di definire lo schema prima di caricare i dati e ospita solo dati strutturati. Il data lake accetta qualsiasi formato (CSV, JSON, Parquet, immagini, log) e definisce lo schema solo al momento della lettura. Per una PMI con BI tradizionale il warehouse è quasi sempre la scelta giusta.
Snowflake o BigQuery: quale conviene a una PMI italiana?
Snowflake ha un’esperienza utente più matura per gli analisti SQL, è multi-cloud e ha una community attiva. BigQuery ha il vantaggio della perfetta integrazione con Google Analytics 4 e Google Ads. Per una PMI italiana che non ha ancora ecosistema Google, Snowflake è la scelta più conservativa.
Devo per forza usare dbt nel mio stack 2021?
No, ma è altamente consigliato. dbt Core è gratuito e open source. Offre versionamento dei modelli SQL con Git, test di qualità integrati, lineage automatico e documentazione. Senza dbt finirai con stored procedure spaghetti difficili da manutenere.
Posso partire con un’architettura on-premise nel 2021?
Sì, soprattutto con PostgreSQL 13 + dbt Core o ClickHouse per workload analitici. Tieni conto però che dovrai gestire backup, scaling, alta disponibilità e patching. Il cloud risparmia circa 1 FTE di IT per progetti analytics di media complessità.
In quanto tempo si vede il ROI di un progetto data warehouse?
I nostri clienti misurano un break-even tipico tra 9 e 18 mesi. Il primo valore tangibile (liberazione di tempo, decisioni più rapide, errori evitati) si vede già dai primi 60 giorni dal go-live di una prima dashboard funzionante.
Servono data engineer dedicati o posso usare risorse esistenti?
Per un setup PMI bastano: un IT manager esistente con buona conoscenza SQL (può imparare dbt in 4-6 settimane), 1-2 business analyst formati su Power BI o Looker, e un partner tecnico esterno (come Brentasoft) per i primi 6-12 mesi. Solo da 50+ M€ ha senso assumere un data engineer dedicato.
Vuoi capire da dove iniziare con i dati della tua PMI?
Brentasoft progetta e sviluppa gestionali personalizzati, integrazioni dati e architetture analytics per PMI italiane da oltre vent’anni. Possiamo aiutarti a scegliere lo stack giusto, evitare gli errori più costosi e impostare una roadmap concreta a 60 giorni.
Vuoi una soluzione su misura per la tua azienda?
Brentasoft sviluppa gestionali, CRM e software personalizzati per PMI italiane. Parliamo del tuo progetto.