giovedì 16 gennaio 2025

[EN] Vectors & Features Extraction

At the recent ITDevCon in Rome, I introduced Vector Databases in my speech. 

The topic of Vectors and their use, especially for semantic search, has fascinated me since I first read about it. And even today, also in relation to my ongoing Machine Learning studies, Vectors continue to raise questions that I intend to answer (for myself).

For the benefit of those who will read this article, let's proceed in an orderly manner.

What are Vectors?

Vectors are "the multidimensional representation of an object."
Each dimension encodes specific information about the object and, together with others, contributes to the composition of the Embedding (another way to refer to the vector) of the object itself.
Taking up the example I proposed during my speech, let's consider the following sentence:

"L'ITDevCon è la conferenza su Delphi più attesa nell'anno"

Thanks to the use of an LLM model, we obtain the corresponding vector for this sentence:

As mentioned, each vector element encodes a semantic particularity (in this case) of the text.

For example:

Similarly, we would obtain such a vector in the case of an image, an email, a PDF, an audio track...
...and all this using specific models for text, images, audio, pre-trained and performant.

So far, so good: I pass text or an image to a transformer (BERT for text, ResNet for images) and get the embedding.

Let's now imagine one of those scenarios that we analyze daily; a scenario where there exists a classic RDBMS, supporting a business management system, where products are certainly stored. Products are at the center of business activity and, for many, many possible reasons, an embedding process is required for each of them for their management in a new business process where semantic search is fundamental.

Features
A product, generally, is a well-defined entity: it has a code, description, price, unit of measure, supplier, category, subcategory, image...
...but it also has correlations: it can be linked to other products as complementary; it has correlations on the type of use or its manufacture. It has specific behaviors. It has information about customer interactions (sales) or through social channels.

It has, to generalize, useful and necessary information for accurate and precise semantic search beyond all those characteristics (description, price...) that define it.

These informations are called Features.

Features cannot be ignored. And they particularly cannot be ignored when, as in this example case, products are subject to analysis and prediction through Machine Learning systems. Even if, in these cases, embedding might not be the ultimate goal.

Features and their extraction: a fundamental process
But how do we extract these features?

The process, called Feature Engineering, requires a deep understanding of both the application domain and data processing techniques. For example, from a review's text, we could extract the general sentiment (positive, negative), the most frequent keywords, the text length, the presence of specific technical terms (as seen in the previous example).

And let's not forget behavioral data: the number of times a product is viewed before purchase, the average time spent on its page, products viewed in the same session - these are all features that tell a story about the relationship between the product and the customer.

Feature extraction is not a simple process. Nor is it brief.

Feature extraction lies in balancing the quantity of information with their relevance. Not all features have the same weight, and part of the challenge lies in selecting those that best represent our object in the specific context in which we will use them.

In the embedding creation process, the features are then processed and transformed into those vector dimensions we talked about earlier, contributing to creating a rich and meaningful representation of our product.

The Challenge

The race towards 'Artificial Intelligence' by companies opens new scenarios for those who, like me, like us, design and develop software solutions for business. But it makes us vulnerable to failure when the proposed solution is not the result of real knowledge of the domain and the rules that the domain imposes.
It has always been and always will be this way: domain analysis is fundamental to our work.
And in the field of Artificial Intelligence, a very broad and technical subject, very far from everyday standards and often from our professional training up until now, pitfalls and failure are always just around the corner.
This is why we need to be aware that this is a field of action that must be approached with respect and humility. It's not just simple programming. It cannot be and should not be.

#codinglikeacoder

Vectors & Features Extraction

Allo scorso ITDevCon a Roma, con il mio speech ho introdotto i Vector Database. 
Quello dei Vettori e del loro utilizzo, specie per la ricerca semantica, è un argomento che mi ha appassionato sin da quando ne lessi la prima volta. E ancora oggi, anche in relazione allo studio del Machine Learning che sto facendo, i Vectors continuano a destarmi domande a cui intendo dare risposte (per me stesso). 

Anche in favore di coloro che leggeranno questo mio scritto, andiamo con ordine. 

 Cosa sono i Vettori?
 I Vettori sono "la rappresentazione multidimensionale di un oggetto". 
Ogni dimensione codifica informazioni specifiche dell'oggetto e, aggiungendosi alle altre, concorre alla composizione dell'Embedding (altro modo di riferirsi al vettore) dell'oggetto stesso. 
Riprendendo l'esempio che ho proposto durante il mio speech, consideriamo la seguente frase:

 "L'ITDevCon è la conferenza su Delphi più attesa nell'anno"

Grazie all'impiego di un modello LLM, otteniamo il vettore corrispondente a questa frase:


Come detto, ogni elemento del vettore, codifica una particolarità semantica (in questo caso) del testo.
Ad esempio:


In maniera analoga otterremmo un vettore siffatto anche nel caso di un immagine, una E-Mail, un PDF, una traccia audio.....
...e il tutto con l'impego di modelli specifici, per il testo, per le immagini, per l'audio, pre-addestrati e performanti.

Sin qui, tutto bello: passo del testo o una immagine ad un transformer (BERT per il testo, ResNet per le immagini) e ottengo l'embedding.

Proviamo adesso ad immaginare uno di quegli scenari che giornalmente ci si trova ad analizzare; scenario in cui esiste un RDMS classico (Postgres, Firebird...), a supporto di un gestionale aziendale, dove sicuramente vi sono memorizzati prodotti. I prodotti sono il centro dell'attività aziendale e, per tanti, tantissimi possibili motivi, è richiesto un processo di embedding di ognuno di essi al fine di una loro gestione in un nuovo processo aziendale in cui la ricerca semantica è fondamentale.

Le Features
Un prodotto, in genere, è una entity ben definita: ha un codice, una descrizione, un prezzo, una unità di misura, un fornitore, una categoria, una sub categoria, una immagine......
...ma ha anche delle correlazioni: può essere collegato ad altri prodotti in quanto complementari; ha delle correlazioni sul tipo di impiego o sulla sua fattura. Ha comportamenti specifici. Ha informazioni sull'interazione coi clienti (vendite) o attraverso i canali social.
Ha, per generalizzare, informazioni utili e necessarie per una semantic search corretta e puntuale oltre a tutte quelle info (descrizione, prezzo....) che lo caratterizzano.
Tali informazioni, attributi e correlazioni,  sono dette Features.
Le Features non possono essere ignorate. E non possono essere ignorate in particolare quando, come in questo caso esempflicativo, i  prodotti sono oggetto di analisi e predizione tramite sistemi di Machine Learning. Anche se, in questi casi, l'embedding potrebbe non essere  il fine ultimo.

Le Features e la loro estrazione: un processo fondamentale
Ma come estraiamo queste features? 
Il processo, chiamato Feature Engineering, richiede una profonda comprensione sia del dominio applicativo che delle tecniche di elaborazione dati. Ad esempio, dal testo di una recensione potremmo estrarre il sentiment generale (positivo, negativo),  le parole chiave più frequenti,  la lunghezza del testo, la presenza di termini tecnici specifici (come visto nell'esempio precedente)
E non dimentichiamo i dati comportamentali: il numero di volte che un prodotto viene visualizzato prima dell'acquisto, il tempo medio speso sulla sua pagina, i prodotti visualizzati nella stessa sessione: sono tutte features che raccontano una storia sulla relazione tra il prodotto e il cliente.

L'estrazione delle features non è un processo semplice. Nè tanto meno breve.

L'estrazione delle features sta nel bilanciare la quantità di informazioni con la loro rilevanza. Non tutte le features hanno lo stesso peso, e parte della sfida sta proprio nel selezionare quelle che meglio rappresentano il nostro oggetto nel contesto specifico in cui andremo ad utilizzarle.
Nel processo di creazione dell'embedding, le features vengono poi elaborate e trasformate in quelle dimensioni vettoriali di cui parlavamo prima, contribuendo a creare una rappresentazione ricca e significativa del nostro prodotto.

La Sfida
La corsa alla 'Intelligenza Artificiale' da parte delle aziende apre nuovi scenari per chi come me, come noi, progetta e sviluppa soluzioni software per il business. Ma ci rende vulnerabili al fallimento quando la soluzione proposta non è il frutto di conoscenza reale del dominio e delle regole che il dominio impone. 
E' sempre così e sempre lo sarà: l'analisi del dominio è fondamentale per il nostro lavoro.
E nell'ambito della Intelligenza Artificiale, materia molto ampia e molto tecnica, molto lontana dai canoni quotidiani e spesso dalla nostra formazione professionale sino ad oggi, l'insidia e il fallimento sono sempre dietro l'angolo.
E' per questo che è necessario essere coscienti che questo è un ambito di azione a cui approcciarsi con rispetto e umiltà. Non è semplice programmazione. Non lo può essere e non lo deve essere.

#codinglikeacoder

[EN] Vectors & Features Extraction

At the recent ITDevCon in Rome, I introduced Vector Databases in my speech.  The topic of Vectors and their use, especially for semantic sea...