Francesco Stranieri

Student

Programmer

Web Developer

Francesco Stranieri

Student

Programmer

Web Developer

Introduction to Data Mining

  • Date: 11/10/2019
See Demo

Lo studente ha completato un percorso formativo che si compone dei seguenti tre corsi: “Data Mining: CLASSIFICATION”, “Data Mining: CLUSTERING and ASSOCIATION” and “Text Mining”.

Nel corso intitolato “Data Mining: CLASSIFICATION”, lo studente ha preso visione di videolezioni metodologiche e pratiche sui seguenti argomenti base; tipi di dato, esplorazione dei dati, trattamento di dati mancanti e pre-processamento di dati di tipi differenti. Il candidato ha inoltre preso visione di lezioni metodologiche e pratiche su formulazione e risoluzione di problemi di classificazione supervisionata binaria con e senza matrici di costo, misure di prestazione di un classificatore e tecniche per la loro stima, curve ROC, Lift e di guadagno cumulato, tecniche per la selezione degli attributi “rilevanti” e tecniche per la formulazione e risoluzione di problemi di classificazione non binaria. Il candidato ha infine preso visione di lezioni metodologiche e pratiche per l’addestramento e la validazione dei seguenti modelli di classificazione supervisionata; alberi di decisione, regressione logistica, feed-forward neural networks, support vector machines, naive Bayes, tree augmented naive Bayes e classificatori Bayesiani.

Nel corso intitolato “Data Mining: CLUSTERING and ASSOCIATION”, lo studente ha preso visione di video lezioni metodologiche e pratiche sui seguenti argomenti base; come misurare la prossimità nel caso di differenti tipi di attributi, diverse misure di similarità e distanza. Il candidato ha inoltre preso visione di lezioni metodologiche e pratiche su; come applicare algoritmi di clustering partizionale, gerarchico basati sulla densità dei dati e basati su rappresentazione tramite grafi. Il candidato ha preso visione di video lezioni metodologiche e pratiche relative alle tecniche di validazione delle soluzioni ottenute tramite procedure di clustering e su come selezionare il numero ottimale di clusters (qualsiasi cosa ciò significhi). Inoltre, il candidato ha visionato video lezioni metodologiche e pratiche finalizzate ad illustrare come estrarre in modo automatico regole di associazione a partire da dati transazionali e come ordinare le regole di associazione estratte in base a differenti misure di rilevanza.

Nel corso intitolato “Text Mining”, lo studente ha preso visione di video lezioni metodologiche e pratiche sui seguenti argomenti base; estrazione, trasformazione e caricamento di testo in linguaggio naturale proveniente da diverse piattaforme (Web, RSS feeds, Tweeter, Facebook, Reddit, Youtube ecc.), preprocessamento e rappresentazione quantitativa di testo in linguaggio naturale (binaria, term frequency, term frequency inverse document frequency ecc.), classificazione automatica di testo in linguaggio naturale (sentiment analysis), clustering ed estrazione di argomenti (topic models) per l’auto-organizzazione del testo in linguaggio naturale, estrazione automatica dell’informazione contenuta nel testo in linguaggio naturale atto a riconoscere menzioni di entità (persona, organizzazione, località ecc.) e le relazioni tra loro esistenti.Il candidato ha utilizzato la piattaforma open source KNIME per svolgere le sessioni pratiche nelle quali gli è stato richiesto di sviluppare oltre 30 workflow KNIME e di effettuarne il caricamento sulla piattaforma che ospita il corso. Questi workflow sono stati corretti manualmente dal Prof. Fabio Stella.

Il detentore di questo BADGE ha acquisito le seguenti competenze:

– Come pre-processare e trasformare diversi tipi di dati.

– Come formulare problemi di classificazione supervisionata binaria e non binaria.

– Come sviluppare un classificatore supervisionato per risolvere problemi di classificazione binaria e non binaria.

– Come comparare diversi classificatori supervisionati, in presenza o assenza di matrici di costo, per selezionare quello “ottimale”.

– Come identificare gli “attributi rilevanti” per la risoluzione di un problema di classificazione supervisionata.

– Come sviluppare un workflow KNIME per formulare e risolvere problemi di classificazione supervisionata binaria e non binaria.

– Come misurare similarità/distanza tra due records.

– Come formulare un problema di clustering.

– Come sviluppare modelli di clustering in base a diversi paradigmi, partizionale, gerarchico, basato su densità o su rappresentazione tramite grafo.

– Come validare un modello di clustering, e quanti cluster utilizzare.

– Scoprire quali delle regole associative estratte sono rilevanti/interessanti.

– Come sviluppare un workflow KNIME per formulare e risolvere un problema di clustering.

– Come sviluppare un workflow KNIME per formulare e risolvere un problema di associazione.

– Come pre-processare e trasformare diversi tipi di dati.

– Come formulare problemi di classificazione supervisionata binaria e non binaria.

– Come sviluppare un classificatore supervisionato per risolvere problemi di classificazione binaria e non binaria.

– Come comparare diversi classificatori supervisionati, in presenza o assenza di matrici di costo, per selezionare quello “ottimale”.

– Come identificare gli “attributi rilevanti” per la risoluzione di un problema di classificazione supervisionata.

– Come sviluppare un workflow KNIME per formulare e risolvere problemi di classificazione supervisionata binaria e non binaria.

%d blogger hanno fatto clic su Mi Piace per questo: