đ°Le domande sono scritte live da un anonimo eroe che ci ha graziato con questa conoscenza, percioâ possono risultare difficili da capire. Ho cercato di dare il mio meglio con le risposte ampliando quelle che giaâ câerano, ma eâ evidente che il buon Danilone non chiede la luna, gli bastano due paroline sullâargomento e ti manda a casa (con un bel voto dai :LiSmile:).
-
Differenza tra Data Mining e Data Warehouse
- Data Mining si riferisce alla ricerca di pattern allâinterno dei dati, dove i pattern sono delle regolaritĂ che si ripresentano nei dati.
- Data Warehouse è una collezione di dati orientati al soggetto, integrati, variabili nel tempo e non volatili
-
Differenza tra Boolean Model e Vector Space Model
- Il Boolean Model fa data retrieval di tipo information retrieval (aka corrispondente, booleano), o i documenti corrispondono alla ricerca oppure no
- Vector Space Model cerca i top documenti rilevanti, ordinandoli come se fossero vettori o matrici in base alle parole contenute. Il ranking viene espresso grazie al peso delle parole, dato in parte ma non solo dalla frequenza dei termini.
- Nel VSM (Vector Space Model) ogni dimensione del vettore rappresenta un termine, mentre documenti e query sono anchâesse considerate vettori. Per la rilevanza alla query infatti i vettori vengono classificati per distanza vettoriale dal vettore query (euclidea, angolo).
-
Relazione tra XPath e XQuery
- XPath fa parte di XQuery e ti permette elaborare e manipolare le stringhe. Ci si può estrarre valori da nodi xml o alberi che rappresentano documenti xml.
- XQuery si appoggia a XPath per calcolare cammini (path) su dati espressi in formato xml.
-
Se volessi prendere XQuery ed estenderlo per manipolare grafi piuttosto che alberi, che problemi ci sono?
- In un grafo puoi non terminare (per la possibilitĂ â di grafi contenenti cicli), in un albero termini sempre.
-
Se invece di estrarre dal testo la dimensione temporale volessimo estrarre la dimensione spaziale, immaginiamo che nel testo ci sia un riferimento spaziale e ci sia un modo che lo riconosca. Problemi di un sistema di IR che contiene la dimensione spaziale e le query relative.
- Una dimensione spaziale eâ possibile da implementare come oggetto di una query di un sistema IR, ma non perfettamente: i maggiori problemi che sorgono sono riguardo la coerenza e pertinenza del testo con la query invece che delle match esatte. Infatti, le query possono essere ambigue (il nome di una via puoâ corrispondere ad un altro luogo nel mondo non necessariamente una via), cosiâ come i risultati possono essere soggetti a diversi significati (con che criterio posso giudicare se dei risultati sono âviciniâ?). Questo eâ il problema principale non solo della dimensione spaziale, ma un problema di IR su testo in generale.
-
Nei Data Warehouse che cosâè un fatto/misura e che proprietĂ hanno?
- Fatto: il soggetto che vogliamo analizzare â La vendita dei prodotti
- Misura: Quantifica i fatti â quantitĂ di prodotti venduti
- Misure possono essere:
- additive â sommate su tutte le dimensioni
- semiadditive â sommate su alcune dimensioni
- non additive â non sommate per alcuna dimensione
- distributive â definite come una funzione di aggregazione che viene calcolata in modo distributivo (count)
- algebriche â definite come una funzione di aggregazione che può essere espressa come una funzione scalare (media)
- olistiche â non possono essere calcolate da altri sottoaggregati (mediana)
-
Pensiamo ai dati semi-strutturati: se uno ti dicesse mettiamo in piedi un modello di progettazione semi strutturato come ti muoveresti?
đ°ma eâ proprio come parla Danilone!
- I modelli semi-strutturati non hanno schemi fissi, eâ possibile liberamente aggiungere attributi in qualsiasi momento, tuttavia lo schema ER potrebbe avere valori nulli come conseguenza. Non avrei sicuramente problemi a definire uno schema sul momento data la manovrabilitaâ in retrospettiva dello stesso, tuttavia saraâ necessario trovare un modo per aggiornare i campi mancanti nei vecchi documenti, se necessario.
-
Fare data mining su dati testuali, che tipo di attivitĂ si potrebbero fare?
- Data mining ricerca dei pattern nei dati ottenuti per estrapolare informazioni (eg. relazione tra comprare il latte e comprare i cereali).
- Alcune misure di classifica/pattern che si possono estrapolare sono:
- PopolaritĂ di autori
- Classificazione di parole
- Frequenza
-
Cosa si può fare con il data mining applicati a social network?
- Rilevazione di pattern e correlazioni, eg.
- Sentimenti nei post
- PopolaritĂ di post relazionati ad utenti
- Interessi di uno specifico utente (funzionalitaâ dellâalgoritmo)
- estrazione di sottografi basati su proprietĂ (clustering)
- Rilevazione di pattern e correlazioni, eg.
-
SQL/XML e XQuery che differenza câè?
- SQL/XML è utilizzato per manipolare storage di dati XML in SQL. Prende in input dati relazionali e tira fuori alberi XML
- XQuery è utilizzato per manipolare documenti XML, e quindi permette di accedere a dati semi-strutturati. Prende in input documenti xml e tira fuori xml
- SQL/XML prende dati relazionali e tira fuori alberi XML. XQuery prende documenti XML e tira fuori XML.
-
se immagini che un linguaggio parte da insiemi di grafi, dobbiamo supporre di fare un join tra grafi. Come ti muoveresti?
- Bisogna prima di tutto individuare vertici o etichette comuni dei grafi interessati per lâoperazione di join. Questo dipende da caso in caso, dato che si potrebbero unire grafi in parte, con archi comuni o con nuovi significati agli archi dei grafi
- esempio:
- Il grafo A ha vertici etichettati con persone e archi che indicano amicizie.
- Il grafo B ha vertici etichettati con persone e archi che indicano parentele. Se desideriamo fare un join tra i due grafi sulla base delle persone (vertici comuni), il risultato potrebbe essere un nuovo grafo in cui ogni vertice rappresenta una persona, e ogni arco rappresenta sia una relazione di amicizia che un grado di parentela. Se i vertici non corrispondono esattamente, potremmo unirli utilizzando identificatori comuni.
-
Riguardo i dati semistrutturati, che problematiche vedi nellâuso di questi dati per lâapprendimento automatico?
-
Il problema piuâ importante è la mancanza di uno schema, e che quindi i dati differiscono da un caso allâaltro. Lâapprendimento automatico dipende fortemente dai dati inseriti per il training, a priori dallâapproccio usato. Dati inconsistenti fondamentalmente.
-
-
Perchè abbiamo introdotto il Vector Space model? Cosa non andava bene nel modello booleano?
- Il modello booleano presenta un limite che il Vector space model sorpassa: I documenti/dati corrispondono alla query oppure no. Avevamo bisogno di uno spettro di corrispondenza alla query. In altre parole ricercare documenti per rilevanza piuttosto che corrispondenze esatte. Il VSM permette un ranking dei risultati per pertinenza con la query, invece che una lista di exact matches.
- Un esempio eâ quando effettuiamo una ricerca per topic.
-
ETL nel data warehouse.
- Estrazione dei dati dalle diverse sorgenti (statica o incrementale)
- Trasformazione: trasformazione e cleaning dei dati in un formato valido per il dw
- Loading: caricamento dei dati nel dw
-
Differenza tra i sistemi SQL e i sistemi NoSQL.
- SQL rispettano la proprietĂ ACID mentre NoSQL rispettano la proprietĂ BASE(Basic Avaliability, Soft State, Eventual Consistency).
- La differenza fondamentale è che con i SQL câè poca disponibilitĂ , non ridondanza e forte consistenza, mentre nei NoSQL molta disponibilitĂ , meno consistenza e appoccio best effort
-
Star Schema e Snowflakes schema nei Data Warehouse.
- La tabella dei fatti eâ al centro dello schema in entrambi.
- Snowflake Ha ridondanza e ha una sola tabella per dimensione
- Star Elimina la ridondanza frammentando in piĂš tabelle gerarchiche normalizzate
- La tabella dei fatti eâ al centro dello schema in entrambi.
-
Valutazione dei sistemi di Information Retrieval tramite collezione TREC.
- Text REtrieval Conference â Grandi collezioni, bisogna estrarre parole affini efficacemente
- coefficiente di dice
- mutual information
- expected mutual information
- pearsonâs chi-squared
- Text REtrieval Conference â Grandi collezioni, bisogna estrarre parole affini efficacemente
-
Abbiamo visto SQL/XML: se volessimo fare SQL/Text che prende dati relazionali e li mette in documenti testuali come potremmo procedere?
- Dalla natura normalizzata di SQL, non eâ necessario effettuare operazioni complesse per sistemare dati in un documento di testo.
- Per la ricerca nei documenti testuali sarebbe sufficiente la clausola âcontainsâ
-
Abbiamo visto SQL/XML, XPath e XQuery, relazione tra i tre linguaggi e differenze un poâ ad alto livello.
- SQL/XML eâ un linguaggio che contiene costruttori, routine e funzioni che supportano la manipolazione e archiviazione di XML in un database SQL
- XPath permette di elaborare e manipolare le stringhe allâinterno di documenti. Ci si può estrarre valori da nodi xml o alberi che rappresentano documenti xml.
- XQuery si appoggia a XPath per calcolare cammini (path) su dati espressi in formato xml. Eâ usato per effettuare query su documenti XML.
-
Relazione tra misura e dimensione in un cubo di un data Warehouse.
- Le dimensioni influiscono sulla decisone dellâaggregazione delle misure. Cambia il livello di astrazione nel quale i dati vengono visualizzati. In particolare abbiamo misure:
- additive â sommate su tutte le dimensioni
- semiadditive â sommate su alcune dimensioni
- non additive â non sommate per alcuna dimensione
- Le dimensioni influiscono sulla decisone dellâaggregazione delle misure. Cambia il livello di astrazione nel quale i dati vengono visualizzati. In particolare abbiamo misure:
-
SQL per gestire immagini o video.
- đ°Bleah
- Storing images and videos in SQL databases is possible trough Binary fields, but it is considered a bad practice, as itâs difficult to manipulate due to the size of these files, as well as the inability to accurately locate and preview the files after a given query.
- A âgoodâ approach would be to store the path to the resources (url or local location).
-
Come nasce cosa fa e che caratteristiche ha XQuery.
- XQuery was born to access XML data
- Has XSLT functions (eXtensible Stylesheet Language Transformations)
- Operates on sequences
- Can receive in input ďťż or ďťż sequences
- Can output an ordered and not-nested sequence
- Explore XML data trough nodes.