{"id":2268,"date":"2022-07-21T16:18:00","date_gmt":"2022-07-21T14:18:00","guid":{"rendered":"https:\/\/brentasoft.com\/blog\/data-lake-vs-warehouse-vs-lakehouse-pmi-italiane-2022\/"},"modified":"2022-07-21T16:18:00","modified_gmt":"2022-07-21T14:18:00","slug":"data-lake-vs-warehouse-vs-lakehouse-pmi-italiane-2022","status":"publish","type":"post","link":"https:\/\/brentasoft.com\/blog\/data-lake-vs-warehouse-vs-lakehouse-pmi-italiane-2022\/","title":{"rendered":"Data Lake vs Data Warehouse vs Lakehouse per PMI italiane 2022: scelta architettura dati"},"content":{"rendered":"<p>Quasi tutte le PMI italiane che hanno superato i 25-30 dipendenti vivono lo stesso problema: <strong>i dati sono ovunque ma da nessuna parte<\/strong>. Il CRM ha gli ordini, l&#8217;ERP la fatturazione e il magazzino, l&#8217;e-commerce sessioni utente e carrelli, Google Analytics il traffico, Meta Ads le campagne, lo strumento di email marketing le aperture. Ogni reparto guarda i propri dashboard senza mai parlarsi davvero.<\/p>\n<p>Negli ultimi 5-6 anni si \u00e8 formato il cosiddetto <em>modern data stack<\/em>: un ecosistema pensato per centralizzare, modellare e analizzare dati senza dover assumere un team da 15 ingegneri come negli anni 2000. Il problema \u00e8 che oggi (luglio 2022) lo stesso ecosistema offre tre approcci architetturali diversi &#8211; <strong>Data Warehouse<\/strong>, <strong>Data Lake<\/strong> e <strong>Data Lakehouse<\/strong> &#8211; e la scelta sbagliata trasforma un budget da 800\u20ac\/mese in una fattura da 8.000\u20ac\/mese senza che nessuno se ne accorga finch\u00e9 non arriva il rinnovo annuale.<\/p>\n<p>Questo articolo \u00e8 una guida architetturale per CTO, Head of Data e CEO di PMI italiane che devono decidere quale strada prendere nel 2022, con costi reali, casi d&#8217;uso, stack consigliati per fascia di azienda e gli errori pi\u00f9 frequenti negli assessment.<\/p>\n<div style=\"background:linear-gradient(135deg,#f0f9ff 0%,#e0f2fe 100%);border-left:4px solid #0284c7;padding:20px;margin:25px 0;border-radius:8px;\">\n<h3 style=\"margin-top:0;color:#075985;\">TL;DR &#8211; Verdetto per persona<\/h3>\n<p><strong>PMI 25 dipendenti, 1-5M ricavi:<\/strong> Data Warehouse cloud (BigQuery o Snowflake small), ELT con Fivetran o Airbyte, dbt per le trasformazioni, Power BI o Looker Studio per la BI. Budget: 800-2.500\u20ac\/mese. Niente Data Lake, niente Lakehouse.<\/p>\n<p><strong>Scale-up 100 dipendenti, 10M+ ricavi:<\/strong> Cloud Data Warehouse o Lakehouse leggero. Se hai casi ML o ingestion semi-strutturata (log, eventi prodotto) il Lakehouse Databricks o Snowflake con stage esterni S3 \u00e8 ragionevole. Budget: 3.000-8.000\u20ac\/mese.<\/p>\n<p><strong>Enterprise 500+ dipendenti:<\/strong> Lakehouse pieno (Databricks o Snowflake + Iceberg), team data engineering dedicato (3-5 persone), governance formale con data catalog. Budget: 15-50K\u20ac\/mese.<\/p>\n<\/div>\n<h2>I tre paradigmi: una mappa per non perdersi<\/h2>\n<p>Prima di scendere nei dettagli serve un linguaggio comune. I tre paradigmi non sono &#8220;evoluzioni&#8221; lineari: rispondono a problemi diversi con trade-off precisi.<\/p>\n<p>Il <strong>Data Warehouse<\/strong> \u00e8 il pi\u00f9 anziano: nasce coi lavori di Bill Inmon (1990) e Ralph Kimball (1996) come repository centralizzato di dati strutturati, ottimizzato per OLAP. Schema definito <em>prima<\/em> di scrivere i dati (schema-on-write), struttura dimensionale (fatti e dimensioni nel modello a stella o snowflake), caso d&#8217;uso primario business intelligence: report, dashboard, ad hoc query.<\/p>\n<p>Il <strong>Data Lake<\/strong> \u00e8 pi\u00f9 giovane: termine coniato da James Dixon (CTO Pentaho) nel 2010. L&#8217;intuizione: invece di forzare i dati in uno schema predefinito, scrivi tutto su storage cheap (HDFS prima, poi object storage S3, ADLS Gen2, GCS) nel formato originale e definisci lo schema al momento della lettura (schema-on-read). Ottimo per ingestion alto volume di dati eterogenei (log, eventi, immagini, video, JSON, parquet). Pessimo senza governance: diventa &#8220;data swamp&#8221;, palude di file che nessuno sa pi\u00f9 cosa contengano.<\/p>\n<p>Il <strong>Data Lakehouse<\/strong> sintetizza i due. Termine formalizzato da Databricks nel paper <em>&#8220;Lakehouse: A New Generation of Open Platforms&#8230;&#8221;<\/em> (CIDR 2021). Object storage cheap come fondamenta + livello transazionale (Delta Lake, Iceberg, Hudi) che porta ACID, schema enforcement, time travel e performance da DWH direttamente sopra parquet. Un unico sistema gestisce BI, data engineering e ML senza copie multiple.<\/p>\n<h2>Data Warehouse: il workhorse della BI moderna<\/h2>\n<p>Un Data Warehouse cloud nel 2022 \u00e8 un sistema columnar, distribuito, con compute e storage separati (o quasi). Le scelte principali sul mercato sono <strong>Snowflake<\/strong>, <strong>Google BigQuery<\/strong>, <strong>Amazon Redshift<\/strong> e <strong>Azure Synapse Analytics<\/strong>.<\/p>\n<p><strong>Snowflake<\/strong> \u00e8 la scelta pi\u00f9 popolare nelle scale-up europee del 2022. Dopo l&#8217;IPO del 2020 ha investito in features enterprise: multi-cluster warehouse con auto-scale, zero-copy cloning, time travel, data sharing. Il pricing separa storage (~23\u20ac\/TB\/mese compresso) e compute (warehouse XS = $2\/h, scale by power of 2). Il vantaggio operativo \u00e8 enorme: scali il warehouse XS a M solo durante la trasformazione notturna. Lo svantaggio: \u00e8 facile mandare la bolletta alle stelle se qualcuno lascia un warehouse Large idle.<\/p>\n<p><strong>BigQuery<\/strong> \u00e8 la scelta pi\u00f9 semplice per chi \u00e8 gi\u00e0 su Google Cloud. \u00c8 serverless: $20\/TB di storage attivo, $5\/TB di dati scansionati dalle query nel modello on-demand. Esiste anche il flat-rate con slot reservation a partire da $2.000\/mese, sensato solo sopra una certa soglia. Usato in Italia da molte PMI digitali perch\u00e9 l&#8217;export GA4 nativo \u00e8 gratuito.<\/p>\n<p><strong>Redshift<\/strong> di AWS resta solido ma meno &#8220;fluido&#8221; di Snowflake. Con i nodi RA3 ha introdotto storage separato, ma cluster management (resize, snapshot, pause\/resume) \u00e8 pi\u00f9 operativo. Conviene se siete full AWS e usate Redshift Spectrum su S3.<\/p>\n<p><strong>Azure Synapse<\/strong> \u00e8 la scelta default in ambienti Microsoft enterprise: dedicated SQL pool, serverless SQL pool e Spark pool. Comodo se l&#8217;azienda \u00e8 gi\u00e0 su Azure AD e Power BI Premium.<\/p>\n<p>Il dimensional modeling Kimball-style resta lo standard: tabelle dei fatti con misure (fact_orders, fact_invoices), dimensioni (dim_customer, dim_product, dim_date), star schema per la maggior parte dei casi BI. L&#8217;approccio Inmon (3NF + data mart) resta valido ma pi\u00f9 adatto a contesti enterprise.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/brentasoft.com\/blog\/wp-content\/uploads\/2026\/06\/dl_inline1.jpg\" alt=\"Server data center moderno con rack per Data Warehouse cloud\" class=\"aligncenter\" \/><\/p>\n<h2>Data Lake: storage cheap e flessibilit\u00e0 estrema<\/h2>\n<p>Un Data Lake nasce come &#8220;scrivi tutto, capisci dopo&#8221;. Il foundation layer \u00e8 quasi sempre object storage cloud: <strong>Amazon S3<\/strong>, <strong>Azure Data Lake Storage Gen2<\/strong>, <strong>Google Cloud Storage<\/strong>. Costi ridicoli rispetto a un DWH: S3 Standard ~$23\/TB\/mese, Glacier Instant Retrieval ~$4\/TB\/mese, con lifecycle policies sotto il dollaro per TB sui dati freddi.<\/p>\n<p>Sopra lo storage si appoggiano formati colonnari: <strong>Apache Parquet<\/strong> (Apache 2013) \u00e8 lo standard de facto, <strong>Apache ORC<\/strong> pi\u00f9 diffuso in Hive\/Hadoop. Si compone un catalogo (Glue Catalog su AWS, Hive Metastore altrove) e si interroga con motori SQL serverless: <strong>Athena<\/strong>, <strong>BigQuery External Tables<\/strong>, <strong>Trino\/Presto<\/strong>, <strong>Spark<\/strong>.<\/p>\n<p>L&#8217;ingestion usa due pattern: <strong>batch<\/strong> (CSV\/JSON\/parquet via Airflow o Fivetran con destination S3) e <strong>stream<\/strong> (eventi via Kafka, Kinesis o Pub\/Sub partizionati per data\/ora). I dati possono essere strutturati (export CRM), semi-strutturati (JSON eventi, log) o non-strutturati (immagini, audio, PDF).<\/p>\n<p>Vantaggio: flessibilit\u00e0 totale e costi storage minimi, raw per anni a poche centinaia di euro. Svantaggio: senza governance diventa palude. Senza schema enforcement il file di ieri non garantisce lo stesso layout di oggi. Senza ACID due job concorrenti corrompono dati. Senza catalogo, dopo un anno nessuno sa cosa c&#8217;\u00e8 dentro.<\/p>\n<p>Per le PMI italiane il Data Lake &#8220;puro&#8221; del 2022 \u00e8 raramente la risposta giusta: si paga complessit\u00e0 senza beneficiare se i dati sono <5 TB e i casi d'uso sono BI tradizionale.<\/p>\n<h2>Lakehouse: la sintesi che convince Databricks (e non solo)<\/h2>\n<p>Il Lakehouse risolve la governance del Lake aggiungendo un layer transazionale ai parquet. Le tre implementazioni principali nel 2022:<\/p>\n<p><strong>Delta Lake<\/strong> (OSS dal 2019, Databricks): transaction log JSON accanto ai parquet, ACID, MERGE\/UPDATE\/DELETE, time travel, schema enforcement ed evolution. Default su Databricks ma funziona fuori (Delta 2.0 amplia la compatibilit\u00e0). Usabile su S3, ADLS, GCS senza lock-in di compute.<\/p>\n<p><strong>Apache Iceberg<\/strong> (Netflix 2018, Apache TLP 2020): table format con snapshot, partition evolution, hidden partitioning, schema evolution sicura. Supportato da Snowflake (preview), Dremio, Trino, Spark, Flink. Sta diventando lo standard &#8220;vendor-neutral&#8221;.<\/p>\n<p><strong>Apache Hudi<\/strong> (Uber 2017, Apache TLP 2020): orientato a workload incrementali con upsert pesanti. Strong su streaming, copy-on-write e merge-on-read tables.<\/p>\n<p>Sopra al table format si appoggia il compute. <strong>Databricks Lakehouse Platform<\/strong> \u00e8 il prodotto pi\u00f9 maturo: Spark con motore Photon (GA nel 2022, C++ vettorizzato), notebook collaborativi, SQL Warehouses per BI, MLflow per ML, Unity Catalog (preview a luglio 2022) per governance. Pricing su DBU: cluster Jobs medio ~$0.30\/DBU oltre al cloud compute.<\/p>\n<p>L&#8217;architettura interna segue il pattern <strong>medallion<\/strong> (bronze\/silver\/gold) proposto da Databricks:<\/p>\n<ul>\n<li><strong>Bronze<\/strong>: ingestion raw da source system, schema il pi\u00f9 vicino possibile alla sorgente, immutabile, append-only.<\/li>\n<li><strong>Silver<\/strong>: dati puliti, deduplicati, conformati. Filtri di qualit\u00e0, standardizzazione formati, join leggeri.<\/li>\n<li><strong>Gold<\/strong>: aggregati pronti al consumo da parte di BI, ML feature store, API. Modelli dimensionali, KPI calcolati, snapshot consolidati.<\/li>\n<\/ul>\n<h2>Pricing reale: cosa pagate davvero a 1 TB di dati<\/h2>\n<p>Numeri concreti per una PMI italiana con 1 TB di dati attivi, ingestion incrementale 5-10 GB\/giorno, dashboard interattive per ~20 utenti, 1-2 job di trasformazione notturni.<\/p>\n<p><strong>Snowflake small<\/strong>: storage $23\/TB\/mese (~21\u20ac), warehouse XS attivo 4-6 ore\/giorno = ~120 ore \u00d7 $2 = $240\/mese. Totale ~250\u20ac\/mese. Pi\u00f9 Fivetran (300-800\u20ac\/mese per 5-10 connettori) e dbt Core (free) o dbt Cloud Team ($100\/seat\/mese): siete tra 600 e 1.500\u20ac\/mese full stack.<\/p>\n<p><strong>BigQuery on-demand<\/strong>: storage 1 TB = $20\/mese, query scan ~5 TB\/mese (con partition pruning e materialized views) = $25. Totale ~50\u20ac\/mese sui costi BigQuery, ma sopra i 10 TB scan\/mese conviene flat-rate ($2.000\/mese minimo).<\/p>\n<p><strong>Redshift RA3<\/strong>: si parte da ra3.xlplus ~$1,086\/h, ~780\u20ac\/mese 24\/7 pi\u00f9 storage RMS a $24\/TB\/mese. Pause\/resume aiuta ma meno fluido di Snowflake.<\/p>\n<p><strong>Databricks Lakehouse<\/strong>: cluster Jobs medio (4-8 worker m5.xlarge) per 4 ore\/giorno = ~120 DBU \u00d7 $0.30 = $36 + cloud compute ~$200\/mese + storage ~$25\/mese. Totale ~250-350\u20ac\/mese lakehouse core. SQL Warehouse per BI: altre 50-150\u20ac\/mese.<\/p>\n<p>Regola pratica: per una PMI sotto i 5 TB di dati attivi <strong>il costo piattaforma non \u00e8 il problema<\/strong>. Il problema vero sono i tool intorno e il personale per integrarli.<\/p>\n<h2>Ingestion moderna: Fivetran, Airbyte e l&#8217;era dell&#8217;ELT<\/h2>\n<p>Nessuna PMI nel 2022 dovrebbe scrivere connettori ETL custom per Salesforce, HubSpot, Shopify, Stripe o Google Ads. Il mercato managed \u00e8 maturo:<\/p>\n<p><strong>Fivetran<\/strong> (Series E sep 2021, valutata $5.6B): leader di mercato, ~250 connettori pre-built, pricing su MAR (Monthly Active Rows). Per 5-10 sorgenti standard: 300-1.500\u20ac\/mese. Setup in minuti, manutenzione zero. Padre del modello &#8220;ELT moderno&#8221;: estrai raw nel DWH, trasforma poi con SQL.<\/p>\n<p><strong>Airbyte<\/strong> (open source dal 2020, Series B 2021): alternativa OSS, self-hosted gratis o Cloud da $2.50\/1.000 righe sincronizzate. ~350 connettori a luglio 2022, qualit\u00e0 variabile. Ottimo per chi ha team in grado di gestire l&#8217;infrastruttura.<\/p>\n<p><strong>Stitch<\/strong> (Talend dal 2018): connettori pi\u00f9 limitati, pricing fisso a tier, ok per use case semplici. Orchestrazione: <strong>Airflow<\/strong>, <strong>Prefect<\/strong>, <strong>Dagster<\/strong> (la terza \u00e8 la pi\u00f9 giovane ma in rapida crescita con un modello asset-based).<\/p>\n<p>I dati raw nel DWH\/Lakehouse si trasformano con <strong>dbt<\/strong>: SQL + Jinja + test + documentazione. dbt \u00e8 la tecnologia pi\u00f9 impattante del modern data stack: ha sostituito quasi ovunque le stored procedure custom e gli script Python sparsi. Series D nov 2021 a $4.2B di valutazione racconta meglio di qualsiasi articolo l&#8217;adozione.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/brentasoft.com\/blog\/wp-content\/uploads\/2026\/06\/dl_inline2.jpg\" alt=\"Team data engineer in riunione davanti a whiteboard per progettare data stack\" class=\"aligncenter\" \/><\/p>\n<h2>Sei segnali che vi basta un Data Warehouse<\/h2>\n<p>Nella maggior parte degli assessment che facciamo per PMI italiane, il Data Warehouse cloud \u00e8 la risposta giusta. Ecco i segnali concreti:<\/p>\n<ol>\n<li><strong>Volume sotto i 5 TB di dati attivi.<\/strong> A questi volumi anche BigQuery serverless o Snowflake XS gestiscono tutto agilmente, senza bisogno di compute distribuito.<\/li>\n<li><strong>Caso d&#8217;uso primario \u00e8 la BI<\/strong>: dashboard direzionali, report finanziari, analisi vendite, customer journey. Niente ML pesante in produzione.<\/li>\n<li><strong>Struttura dei dati prevedibile.<\/strong> CRM (record di vendita), ERP (fatture, ordini, magazzino), e-com (ordini, clienti, prodotti). Tutto modellabile in star schema.<\/li>\n<li><strong>Team data composto da 1-2 persone.<\/strong> Un analytics engineer che conosca dbt + un BI developer su Power BI\/Looker. Senza un team data engineering dedicato, gestire un Lakehouse \u00e8 un peso.<\/li>\n<li><strong>Cadenza di refresh oraria o giornaliera.<\/strong> Se vi serve real-time sotto i 5 minuti, allora il discorso cambia.<\/li>\n<li><strong>Budget piattaforma sotto i 3.000\u20ac\/mese.<\/strong> A questa fascia un DWH ben configurato \u00e8 il sweet spot operativo.<\/li>\n<\/ol>\n<h2>Sei segnali che vale la pena valutare un Lakehouse<\/h2>\n<p>Il Lakehouse ha senso quando uno o pi\u00f9 di questi fattori entrano in gioco:<\/p>\n<ol>\n<li><strong>Volume oltre i 10 TB attivi<\/strong> con previsione di crescita ad alta velocit\u00e0. A scale lo storage cheap del Lake diventa significativo rispetto ai costi DWH.<\/li>\n<li><strong>Casi d&#8217;uso ML in produzione<\/strong>: scoring predittivo, raccomandazioni, forecasting con modelli che hanno bisogno di feature store e training su dati raw.<\/li>\n<li><strong>Dati eterogenei<\/strong>: log applicativi, eventi prodotto JSON, immagini, audio, file PDF da OCR. Il DWH non li gestisce nativamente.<\/li>\n<li><strong>Team data engineering di 3+ persone.<\/strong> Serve maturit\u00e0 per gestire cluster Spark, lineage, deployment di pipeline streaming.<\/li>\n<li><strong>Bisogno di near real-time (1-5 minuti)<\/strong> con architetture stream-first (Kafka + Spark Streaming o Flink).<\/li>\n<li><strong>Requisiti di portabilit\u00e0 open<\/strong>: volete evitare lock-in proprietario e mantenere i dati in formato Iceberg\/Delta su object storage standard.<\/li>\n<\/ol>\n<h2>Modern data stack pattern per PMI italiane<\/h2>\n<p>Stack tipico consigliato a PMI italiana 50-150 dipendenti nel 2022:<\/p>\n<ul>\n<li><strong>Ingestion<\/strong>: Fivetran (5-10 sorgenti standard) + Airbyte self-hosted per fonti custom.<\/li>\n<li><strong>Storage\/compute<\/strong>: Snowflake (XS-M) o BigQuery on-demand, in base all&#8217;ecosistema cloud preesistente.<\/li>\n<li><strong>Trasformazione<\/strong>: dbt Core o dbt Cloud per CI\/CD managed.<\/li>\n<li><strong>Orchestrazione<\/strong>: Airflow su Cloud Composer\/MWAA, o Prefect Cloud per team piccoli.<\/li>\n<li><strong>Semantic layer<\/strong>: Looker (LookML) o Cube.js. dbt metrics \u00e8 promettente ma giovane a luglio 2022.<\/li>\n<li><strong>BI<\/strong>: Power BI Premium o Looker. Metabase OSS per quick wins.<\/li>\n<li><strong>Data quality<\/strong>: Great Expectations o Soda Core.<\/li>\n<li><strong>Catalog\/lineage<\/strong>: Amundsen o DataHub se serve governance formale.<\/li>\n<\/ul>\n<p>Budget realistico per PMI ~3 TB attivi: <strong>2.500-6.000\u20ac\/mese tooling<\/strong> + personale (1 analytics engineer + 1 BI developer = 80-130K\u20ac\/anno).<\/p>\n<h2>Semantic layer e feature store: i pezzi che spesso si dimenticano<\/h2>\n<p>Due componenti che molte PMI non implementano e poi pagano caro.<\/p>\n<p>Il <strong>semantic layer<\/strong> centralizza le definizioni di metriche e dimensioni. Senza, ogni dashboard riscrive &#8220;fatturato netto&#8221; o &#8220;margine lordo&#8221; a modo suo e dopo un anno avete tre numeri diversi sulla stessa metrica. Looker (LookML) \u00e8 lo storico. <strong>Cube.js<\/strong> l&#8217;alternativa OSS in crescita. <strong>MetricFlow<\/strong> (acquisito da Transform nel 2022) il newcomer. dbt metrics \u00e8 la promessa per il 2023.<\/p>\n<p>Il <strong>feature store<\/strong> serve con ML in produzione: separa il calcolo delle feature da training e serving. <strong>Feast<\/strong> \u00e8 lo standard OSS, <strong>Tecton<\/strong> il prodotto managed. Per PMI con <5 modelli ML \u00e8 over-engineering: bastano tabelle gold ben fatte nel DWH.<\/p>\n<h2>Data mesh: perch\u00e9 probabilmente NON serve alle PMI<\/h2>\n<p>Il <strong>data mesh<\/strong> \u00e8 stato proposto da Zhamak Dehghani (ThoughtWorks) nel 2019 come paradigma decentralizzato in cui ogni dominio aziendale \u00e8 proprietario dei propri data product. \u00c8 un&#8217;architettura organizzativa pi\u00f9 che tecnica.<\/p>\n<p>Per una PMI sotto i 500 dipendenti il data mesh \u00e8 quasi sempre la risposta sbagliata: richiede una maturit\u00e0 organizzativa che si forma su scala enterprise. Se avete 50 persone, il team data centralizzato che fa da fornitore interno \u00e8 pi\u00f9 efficiente di 8 mini-team di dominio che reinventano la ruota ognuno a modo suo. Tenetelo come orizzonte per quando supererete i 300-500 dipendenti.<\/p>\n<h2>Governance, lineage, access control<\/h2>\n<p>Anche su scala PMI tre cose vanno fatte dal giorno uno.<\/p>\n<p><strong>Data catalog<\/strong>: dovete sapere cosa avete. DataHub, Amundsen o il catalog nativo della piattaforma (Snowflake Tagging, BigQuery Data Catalog).<\/p>\n<p><strong>Lineage<\/strong>: chi ha generato questo numero, da quale sorgente, attraverso quali trasformazioni. dbt genera lineage automatico sui propri modelli; per end-to-end serve uno strumento dedicato (OpenLineage \u00e8 lo standard emergente).<\/p>\n<p><strong>Access control<\/strong>: non tutti devono vedere tutto. Row-level security in Snowflake\/BigQuery, masking di colonne PII, ruoli per dominio. Per i dati personali la GDPR non lascia margine: serve audit trail.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/brentasoft.com\/blog\/wp-content\/uploads\/2026\/06\/dl_inline3.jpg\" alt=\"Business analyst lavora a dashboard BI su doppio monitor con grafici\" class=\"aligncenter\" \/><\/p>\n<h2>Errori comuni che vediamo negli assessment<\/h2>\n<p>Negli ultimi 18 mesi ci \u00e8 capitato di entrare in PMI italiane gi\u00e0 &#8220;modernizzate&#8221; con problemi cronici. I pattern ricorrenti:<\/p>\n<ol>\n<li><strong>Over-engineering del Lake quando bastava un DWH.<\/strong> Cluster Spark accesi 24\/7 a 4.000\u20ac\/mese per servire 6 dashboard Power BI su volumi da 800 GB.<\/li>\n<li><strong>Niente semantic layer.<\/strong> Tre versioni di &#8220;MRR&#8221; in tre dashboard diverse. Il CFO torna a Excel.<\/li>\n<li><strong>Niente naming convention n\u00e9 documentazione.<\/strong> Tabelle `temp_test_v2_final_giuliano` in produzione. Nessuno sa cosa siano dopo 6 mesi.<\/li>\n<li><strong>Refresh notturni che falliscono in silenzio.<\/strong> Niente monitoring n\u00e9 alert. Il management lavora su dati di 4 giorni fa senza saperlo.<\/li>\n<li><strong>Cost monitoring assente.<\/strong> Bolletta Snowflake che passa da 800 a 6.000$ per un join scritto male, scoperta al consuntivo.<\/li>\n<li><strong>Stack troppo ampio.<\/strong> 14 tool diversi per un team di 2 persone. Manutenzione impossibile.<\/li>\n<li><strong>PII sparse senza masking.<\/strong> Email clienti in chiaro a tutti gli analisti. Rischio GDPR elevato.<\/li>\n<\/ol>\n<h2>Roadmap pilota in 90 giorni<\/h2>\n<p>Roadmap realistica per una PMI che parte da zero (Excel ovunque) e arriva a MVP affidabile in 90 giorni.<\/p>\n<p><strong>Settimane 1-2: Discovery e architecture decision.<\/strong> Mappa 6-8 sorgenti prioritarie, volumi attivi, 5 dashboard chiave. Decidi DWH vs Lakehouse coi segnali visti sopra. Per quasi tutte le PMI sar\u00e0 DWH.<\/p>\n<p><strong>Settimane 3-4: Setup.<\/strong> Provisioning DWH cloud, account Fivetran\/Airbyte, repo Git per dbt, ambiente staging\/production, connettori sulle 6-8 sorgenti.<\/p>\n<p><strong>Settimane 5-8: Modeling con dbt.<\/strong> Staging (1:1 con sorgenti, pulizia base), intermediate (join e business logic), mart (star schema BI). Test dbt sui modelli chiave (uniqueness, not_null, accepted_values, relationships).<\/p>\n<p><strong>Settimane 9-10: BI layer.<\/strong> 5 dashboard chiave su Power BI o Metabase, semantic layer definito. Pubblicazione interna con onboarding stakeholder.<\/p>\n<p><strong>Settimane 11-12: Hardening e handover.<\/strong> Monitoring pipeline (Slack alert), cost dashboard, documentazione dbt auto-generata, training team interno.<\/p>\n<p>Output atteso: 5 dashboard live, pipeline automatizzate, modello dati documentato, costi piattaforma 1.500-3.500\u20ac\/mese.<\/p>\n<h2>Come scegliere: la decision matrix in 5 step<\/h2>\n<div itemscope itemtype=\"https:\/\/schema.org\/HowTo\" style=\"background:#fafafa;border:1px solid #e5e7eb;padding:25px;margin:25px 0;border-radius:10px;\">\n<meta itemprop=\"name\" content=\"Come scegliere tra Data Warehouse, Data Lake e Lakehouse per una PMI\" \/><br \/>\n<meta itemprop=\"totalTime\" content=\"P14D\" \/><\/p>\n<h3 style=\"margin-top:0;\">Come scegliere l&#8217;architettura dati giusta in 5 step<\/h3>\n<div itemprop=\"step\" itemscope itemtype=\"https:\/\/schema.org\/HowToStep\">\n<h4 itemprop=\"name\">1. Misurate i volumi reali e la velocit\u00e0 di crescita<\/h4>\n<p itemprop=\"text\">Calcolate quanti GB occupate oggi (CRM + ERP + e-com + marketing tools) e quanti ne aggiungete al mese. Sotto i 5 TB attivi un DWH cloud \u00e8 sempre sufficiente. Sopra i 10 TB con crescita rapida valutate il Lakehouse.<\/p>\n<\/div>\n<div itemprop=\"step\" itemscope itemtype=\"https:\/\/schema.org\/HowToStep\">\n<h4 itemprop=\"name\">2. Mappate i casi d&#8217;uso reali (non quelli aspirazionali)<\/h4>\n<p itemprop=\"text\">Elencate le 5-10 domande di business che dovete rispondere nei prossimi 6 mesi. Se sono tutte di tipo BI (report, dashboard, ad hoc query SQL), un DWH basta. Se almeno una richiede ML in produzione o dati non strutturati, il Lakehouse entra in gioco.<\/p>\n<\/div>\n<div itemprop=\"step\" itemscope itemtype=\"https:\/\/schema.org\/HowToStep\">\n<h4 itemprop=\"name\">3. Valutate la maturit\u00e0 del team data<\/h4>\n<p itemprop=\"text\">Quante persone hanno competenze SQL avanzato, Python, infrastruttura cloud? Sotto le 3 persone full-time, il Lakehouse \u00e8 quasi sempre over-engineering. Iniziate da DWH + dbt + BI e crescete da l\u00ec.<\/p>\n<\/div>\n<div itemprop=\"step\" itemscope itemtype=\"https:\/\/schema.org\/HowToStep\">\n<h4 itemprop=\"name\">4. Stimate il budget realistico<\/h4>\n<p itemprop=\"text\">Sommate tooling, cloud, personale e consulenza esterna. Una PMI deve aspettarsi 60-150K\u20ac\/anno per uno stack moderno completo (1 senior + 1 mid + tooling). Sotto questa soglia conviene un approccio pragmatico: BigQuery + Metabase + dbt Core, gestiti part-time.<\/p>\n<\/div>\n<div itemprop=\"step\" itemscope itemtype=\"https:\/\/schema.org\/HowToStep\">\n<h4 itemprop=\"name\">5. Fate un pilota di 90 giorni prima di scalare<\/h4>\n<p itemprop=\"text\">Mai partire con il &#8220;big bang&#8221;. Scegliete 6-8 sorgenti prioritarie e 5 dashboard chiave, costruite l&#8217;MVP in 3 mesi, validate l&#8217;architettura su dati reali, poi pianificate il roll-out completo.<\/p>\n<\/div>\n<\/div>\n<h2>Domande frequenti<\/h2>\n<div itemscope itemtype=\"https:\/\/schema.org\/FAQPage\">\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">La mia PMI ha 800 GB di dati. Mi serve un Data Lake?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>No. A 800 GB un Data Warehouse cloud come BigQuery o Snowflake XS \u00e8 ampiamente sovradimensionato gi\u00e0 di suo, figuriamoci un Data Lake. Concentrate gli sforzi su modeling pulito (dbt) e BI layer (Power BI o Metabase), non sull&#8217;infrastruttura.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">BigQuery o Snowflake per una PMI italiana?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>Dipende dall&#8217;ecosistema preesistente. Se siete gi\u00e0 su Google Workspace, GA4 e Google Ads, BigQuery con export GA4 nativo \u00e8 ovvio. Se siete neutrali o multi-cloud, Snowflake offre pi\u00f9 flessibilit\u00e0 operativa (warehouse on\/off granulare, zero-copy cloning). Entrambi sono solide scelte enterprise-grade nel 2022.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">Posso fare ML senza un Lakehouse?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>S\u00ec, soprattutto se i casi d&#8217;uso ML sono pochi (1-3 modelli) e batch. BigQuery ML e Snowpark per ML permettono training in-database, e i dati possono essere esportati su Vertex AI o SageMaker per training avanzati. Il Lakehouse conviene quando l&#8217;ML diventa centrale (5+ modelli in produzione, feature store, training continuo).<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">Databricks \u00e8 giustificato per una PMI?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>Raramente sotto i 50 dipendenti. Databricks \u00e8 eccellente quando avete team data engineering forti, dati eterogenei e casi ML pesanti. Per BI tradizionale \u00e8 eccessivo: paghereste cluster Spark per fare quello che un DWH cloud fa con un decimo della complessit\u00e0.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">Quanto costa davvero il modern data stack a una PMI?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>Per una PMI italiana 30-80 dipendenti realistica: 2.500-5.500\u20ac\/mese di tooling (Fivetran + DWH + dbt + BI) e 80-130K\u20ac\/anno di personale (1 analytics engineer + 1 BI developer). Sotto questa soglia si pu\u00f2 partire pi\u00f9 leggeri (BigQuery + Airbyte OSS + Metabase) intorno a 600-1.200\u20ac\/mese di tooling.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">dbt \u00e8 davvero necessario o posso fare a meno?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>Si pu\u00f2 fare a meno, ma non conviene quasi mai. dbt porta version control via Git, test automatici, documentazione auto-generata, lineage tra modelli e separazione netta tra business logic e ingestion. Costa zero (dbt Core open source) e si impara in 2-3 settimane. Saltarlo significa tornare a stored procedure custom che diventano ingestibili dopo 6 mesi.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<div itemscope itemprop=\"mainEntity\" itemtype=\"https:\/\/schema.org\/Question\">\n<h3 itemprop=\"name\">Quanto tempo serve per arrivare a un MVP affidabile?<\/h3>\n<div itemscope itemprop=\"acceptedAnswer\" itemtype=\"https:\/\/schema.org\/Answer\">\n<div itemprop=\"text\">\n<p>90 giorni con un team focalizzato (1 senior data engineer + 1 BI developer) o consulenza esterna. In 12 settimane si arriva a 5-7 dashboard live, pipeline automatizzate orarie\/giornaliere, modelli dimensionali documentati e monitoring base. Roll-out su tutte le aree aziendali richiede tipicamente 6-12 mesi aggiuntivi.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<h2>Conclusione: pragmatismo prima di tutto<\/h2>\n<p>Nel 2022 una PMI italiana ha tre paradigmi tra cui scegliere ma per quasi tutte la risposta giusta \u00e8 la pi\u00f9 semplice: <strong>un Data Warehouse cloud ben modellato<\/strong>, con ingestion managed, trasformazioni dbt e BI moderna. Il Data Lake e il Lakehouse sono strumenti potenti ma vanno usati quando i segnali architetturali lo giustificano: volumi reali sopra i 10 TB, ML in produzione, dati eterogenei, team data engineering forte.<\/p>\n<p>L&#8217;errore peggiore non \u00e8 &#8220;scegliere lo strumento sbagliato&#8221;: \u00e8 perdere 12 mesi a litigare sulla scelta di architettura mentre il business continua a lavorare su Excel. Partite con un pilota di 90 giorni su DWH cloud, validate i casi d&#8217;uso e fate evolvere lo stack solo quando i numeri reali (volumi, casi d&#8217;uso, team) lo richiedono.<\/p>\n<div style=\"background:linear-gradient(135deg,#0284c7 0%,#0369a1 100%);color:white;padding:30px;margin:30px 0;border-radius:12px;text-align:center;\">\n<h3 style=\"color:white;margin-top:0;\">Vuoi una valutazione concreta sulla tua architettura dati?<\/h3>\n<p style=\"margin-bottom:20px;\">Aiutiamo PMI italiane a scegliere e implementare lo stack giusto: dal pilota di 90 giorni al roll-out enterprise. Senza vendor lock-in, senza over-engineering.<\/p>\n<p><a href=\"https:\/\/brentasoft.com\/preventivatore.php\" style=\"display:inline-block;background:white;color:#0284c7;padding:14px 32px;border-radius:8px;text-decoration:none;font-weight:600;\">Richiedi un assessment gratuito<\/a><\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Quasi tutte le PMI italiane che hanno superato i 25-30 dipendenti vivono lo stesso problema: i dati sono ovunque ma da nessuna parte. Il CRM ha gli ordini,&hellip;<\/p>\n","protected":false},"author":2,"featured_media":2264,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_titles_title":"Data Lake vs Warehouse vs Lakehouse PMI 2022 | Brentasoft","_seopress_titles_desc":"Data Warehouse, Data Lake o Lakehouse per la tua PMI italiana 2022? Guida architetturale: costi reali, modern data stack e roadmap 90 giorni.","_seopress_robots_index":"","_seopress_robots_follow":"","_seopress_robots_imageindex":"","_seopress_robots_snippet":"","_seopress_robots_primary_cat":"","_seopress_robots_breadcrumbs":"","_seopress_robots_freeze_modified_date":"","_seopress_robots_custom_modified_date":"","_seopress_robots_canonical":"https:\/\/brentasoft.com\/blog\/data-lake-vs-warehouse-vs-lakehouse-pmi-italiane-2022\/","_seopress_social_fb_title":"Data Lake vs Warehouse vs Lakehouse PMI 2022 | Brentasoft","_seopress_social_fb_desc":"Data Warehouse, Data Lake o Lakehouse per la tua PMI italiana 2022? Guida architetturale: costi reali, modern data stack e roadmap 90 giorni.","_seopress_social_fb_img":"https:\/\/brentasoft.com\/blog\/wp-content\/uploads\/2026\/06\/dl_featured.jpg","_seopress_social_fb_img_attachment_id":0,"_seopress_social_fb_img_width":0,"_seopress_social_fb_img_height":0,"_seopress_social_twitter_title":"Data Lake vs Warehouse vs Lakehouse PMI 2022 | Brentasoft","_seopress_social_twitter_desc":"Data Warehouse, Data Lake o Lakehouse per la tua PMI italiana 2022? Guida architetturale: costi reali, modern data stack e roadmap 90 giorni.","_seopress_social_twitter_img":"https:\/\/brentasoft.com\/blog\/wp-content\/uploads\/2026\/06\/dl_featured.jpg","_seopress_social_twitter_img_attachment_id":0,"_seopress_social_twitter_img_width":0,"_seopress_social_twitter_img_height":0,"_seopress_redirections_value":"","_seopress_redirections_enabled":"","_seopress_redirections_enabled_regex":"","_seopress_redirections_logged_status":"","_seopress_redirections_param":"","_seopress_redirections_type":0,"_seopress_analysis_target_kw":"","footnotes":""},"categories":[5],"tags":[],"class_list":["post-2268","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-kpi-e-metriche"],"_links":{"self":[{"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/posts\/2268","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/comments?post=2268"}],"version-history":[{"count":0,"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/posts\/2268\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/media\/2264"}],"wp:attachment":[{"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/media?parent=2268"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/categories?post=2268"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/brentasoft.com\/blog\/wp-json\/wp\/v2\/tags?post=2268"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}