---

# TP 2 : Approximation de fonctions

<b>Polytech Sorbonne, Main 3</b><br>
Analyse numérique et EDO<br>
Auteur : Fabien Vergnet

---

## Table des matières

- [Exercice 1 : La méthode des moindres carrés](#moindrescarres)
- [Exercice 2 : Erreur d'approximation](#erreur)
- [Exercice 3 : Extrapolation de données](#extrapolation)

In [None]:
import numpy as np 
import matplotlib.pyplot as plt 

<a id="moindrescarres"></a>
# Exercice 1 : La méthode des moindres carrés

Soit $m \in \mathbb{N}$, on considère $m+1$ points $(x_i,y_i)_{i=1,\dots,m+1}$ de $\mathbb{R}^2$ connus (ce sont les données du problème) et on cherche le polynôme $p$ de degré $n\leq m$ de meilleure approximation pour ces points, sous la forme $$ p(x) = \sum_{k=0}^n a_k x^k,$$ où les coefficients $(a_k)_{k=0,\dots,n}$ sont à déterminer.

Si on note $a$ le vecteur des $(a_k)_{k=0,\dots,n}$ et $y$ le vecteur des $(y_i)_{i=1,\dots,m+1}$, nous avons vu dans le cours que $p$ est l'unique polynôme de degré $n$ qui vérifie $$\|Va-y\| = \min_{b\in\mathbb{R}^{n+1}} \|Vb-y\|,$$ où $V$ est la matrice de taille $(m+1) \times (n+1)$ définie, pour $i=1,\dots,m+1$ et pour $j=1,\dots,n+1$ par $$V_{ij} = x_i^{j-1}.$$

De plus, il se trouve que ce problème de minimisation est équivalent à la résolution du système linéaire suivant : Trouver $a\in\mathbb{R}^{m+1}$ solution de l'équation $$V^T V a = V^T y, \,\,\, (\star)$$ où $V^T$ est la transposée de la matrice $V$.

## Question 1

Étant donnés un tableau `numpy` représentant les points $(x_i)_{i=1,\dots,m+1}$ et un entier $n$, définir une fonction `matrice_regression` qui retourne la matrice $V$ définie ci-dessus. On pourra tester la fonction python en utilisant, par exemple, le résultat de l'exercice 1 du TD 2.

In [None]:
def matrice_regression(x,n):
    # Compléter ici

# Compléter ici

## Question 2

Définir la fonction `moindres_carres` qui prend en argument une matrice $V$ et un tableau `numpy` représentant les points $(y_i)_{i=1,\dots,n+1}$, puis retourne le tableau `numpy` des coefficients $(a_k)_{k=0,\dots,m}$ du polynôme de meilleure approximation, solution du problème $(\star)$.

**Astuces :** Dans la librairie `numpy`
 - la transposées d'une matrice `M` est donnée par [M.T](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.T.html), 
 - le produit entre une matrice `M` et un vecteur `u` est obtenu à la l'aide de la fonction [np.dot(M,v)](https://numpy.org/doc/stable/reference/generated/numpy.dot.html?highlight=dot#numpy.dot),
 - le produit entre deux matrices `M` et `N` est également obtenu avec la fonction [np.dot(M,N)](https://numpy.org/doc/stable/reference/generated/numpy.dot.html?highlight=dot#numpy.dot),
 - la solution d'une équation matricielle `M x = y` est donnée par [np.linalg.solve(M,y)](https://numpy.org/doc/stable/reference/generated/numpy.linalg.solve.html?highlight=solve#numpy.linalg.solve).

In [None]:
def moindres_carres(V, y):
    # Compléter ici

# Compléter ici

## Question 3

Définir une fonction `evaluate_Lagrange_polynomial` qui prend en argument un tableau de coefficients $a=(a_k)_{k=0,\dots,m}$ et un tableau de points $x = (x_i)_{i=1,\dots,n+1}$ et qui retourne un tableau représentant les valeurs du polynôme $\sum_{k=0}^m a_k x^k$ évalué aux points $(x_i)$.

In [None]:
def evaluate_Lagrange_polynomial(a,x):
    # Compléter ici

# Compléter ici

## Question 4

Construire la fonction `regression` qui prend en argument 
- un entier $m$.
- deux tableaux `numpy` de taile `n+1`, représentant les données $(x_i)$ et $(y_i)$, 
- ainsi qu'un tableaux `numpy` de taille `r`, représentant des points $(z_i)$

et qui retourne un tableau `numpy` de taille `r` contenant les valeurs du polynôme de meilleure approximation pour la norme $\|\cdot\|_2$ et pour les points $(x_i,y_i)$ considérés, évalué aux points $(z_i)$.

In [None]:
def regression(m,x,y,z):
    # Compléter ici

# Compléter ici

## Question 5

On considère les points $\{ (1,2), (2,2), (3,0), (4,-1) \}$. Déterminer, numériquement, le polynôme de meilleure approximation de degré 2 pour les points considérés, pour la norme $ \|\cdot\|_2$.

In [None]:
# Compléter ici

<a id="erreur"></a>
# Exercice 2 : Erreur d'approximation

Dans cet exercice, nous allons étudier l'erreur d'approximation, c'est-à-dire l'erreur commise lorsque l'on approche $n+1$ points $(x_i,y_i)_{1\leq i \leq n+1}$ par un polynôme de degŕe $m\leq n$, par la méthode des moindres carrés.

Pour cela, nous considérons les points $(x_{\text{data}}, y_\text{data})$ définis dans la cellule ci-dessous, qu'il vous faut exécuter.

In [None]:
# IMPORTANT
# Exécuter cette cellule pour générer les données (x_data,y_data)

Ndata = 1000
x_data = np.linspace(0,1,Ndata)
y_data = np.cos(10*x_data) - np.sin(8*x_data**3)


## Question 1

Sur un graphique, afficher les données générées ci-dessus et tracer les polynômes de meilleure approximation de degrés 2, 3 et 4.

In [None]:
# Compléter ici

## Question 2

Créer une fonction `calcul_erreur` qui, étant donnés deux tableaux numpy $x$ et $y$ de taille $n+1$ et un entier $m$,
- détermine le polynône $p_m$ de degré $m$ de meilleure approximation pour les points $(x_i,y_i)$,
- calcule l'erreur d'approximation $E_m$ définies par
$$
    E_m = \sqrt{\sum_{i=1}^{n+1}|p(x_i)-y_i|^2}
$$
- et retourne l'erreur $E_m$.

Tester la fonction. Que se passe-t-il si on augmente le degré du polynôme ?

In [None]:
def calcul_erreur(x,y,m):
    # Compléter ici

# Compléter ici

## Question 3

Pour $m$ allant de 1 à 30, tracer la courbe de l'erreur $E_m$ en fonction de $m$ en échelle logarithmique (on utilisera la fonction [plt.loglog](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.loglog.html) pour cela). Qu'observez-vous ? Justifier le comportement observé.

In [None]:
# Pour avoir de l'aide sur la fonction plt.loglog, décommenter la ligne ci-dessous
#?plt.loglog

# Compléter ici

## Question 4

On suppose maintenant que les données auxquelles nous avons accès ne sont pas exactes, elles sont dites "bruitées".

Reprendre les questions 1 et 3 pour ces nouvelles données générées (aléatoirement) dans la cellule ci-dessous et commenter le résultat obtenu.

In [None]:
# IMPORTANT
# Exécuter cette cellule pour générer les données bruitées (x_data_b,y_data_b)
#
# ATTENTION
# La génération des données est aléatoire et change donc à chaque éxecution de la cellule

x_data_b = np.linspace(0,1,Ndata)
y_data_b = np.cos(10*x_data_b) - np.sin(8*x_data_b**3) + 0.5*(np.random.rand(Ndata)-0.5)

# Compléter ici

<a id="extrapolation"></a>
# Exercice 3 : Extrapolation de données

Dans cet exercice, nous étudions les données de salaires moyens des hommes et des femmes en France entre 2009 et 2018 (tirées de [L'INSEE](https://www.insee.fr/fr/statistiques/2407703#figure1_radio1)). Ces données sont regroupées dans les tableaux numpy `annees`, `salaire_F` et `salaire_H` ci-dessous :



In [None]:
# annees = np.arange(10)
annees = np.arange(2009,2019)
salaire_F = np.array([3182,3297,3346,3392,3395,3445,3492,3535,3604,3683])  # Salaire moyen des femmes
salaire_H = np.array([4147,4249,4271,4324,4302,4317,4375,4404,4445,4511])  # Salaire moyen des hommes

plt.figure(figsize=[10,8])
plt.plot(annees,salaire_F,"+-",label="Salaire Femmes")
plt.plot(annees,salaire_H, "x-", label= "Salaire Hommes")
plt.xlabel("Année")
plt.ylabel("Salaire moyen")
plt.title("Salaires moyens des femmes et des hommes en France")
plt.legend()
plt.show()

## Question 1

Créer un tableau `numpy` contenant la différence de salaire entre les hommes et femmes et réaliser les regressions polynômiales de degrés 1, 2 et 3 pour ces nouvelles données.

Afficher les coefficients polynomiaux obtenus pour chaque polynôme et tracer sur un graphique les polynômes obtenus.

In [None]:
# Compléter ici

## Question 2

À partir des valeurs numériques des coefficients polynômiaux obtenus, dire quels modèles vous semblent pertinents et pourquoi ?



### RÉPONDRE ICI OU SUR FEUILLE

## Question 3
Avec les modèles qui vous semblent pertinents, déterminer, par extrapolation et à l'aide d'un graphique, l'année (à 1 an près) pour laquelle le salaire moyen des femmes et égal à celui des hommes. 

In [None]:
# Compléter ici