Wyobraź sobie następującą sytuację. Testujesz liniowość metody analitycznej, powiedzmy HPLC. Współczynnik liniowości R=0,999, współczynnik determinacji R^2 = 0,999. Sytuacja idealna. Kryteria spełnione, walidacja zakończona sukcesem. Teraz tylko raport i do domu. Nic bardziej mylnego. W naszych danych może być ukryty chochlik, którego na pierwszy rzut oka nie widać. Pomoże nam w tym jednak analiza resztkowa.

Liniowość a dopasowanie modelu regresji
W 2023 roku ICH opublikowało nową wytyczną ICH Q2 – walidacja metod analitycznych. Jedna ze zmian dotyczyła właśnie wyznaczania liniowości. Ich w nowych wytycznych uwzględniła metody biologiczne takie jak ELISA czy testy cytotoksyczności. Te metody często oparte są o nieliniowe modele kalibracji. W związku z tym niemożliwe jest wyznaczenie dla nich liniowości.
Z tego właśnie powodu w nowym ICH Q2 liniowość została zastąpiona dopasowaniem modelu regresji. Nie zmienia to faktu, że dla metod z natury liniowych dalej można się posługiwać terminem linowość.
Jak działa regresja liniowa?
W celu wyznaczenia stężenia wykonuje się krzywą kalibracyjną. Kilka roztworów o znanym stężeniu poddaje się analizie a na podstawie uzyskanych wyników generuje się wykres funkcji liniowej zależności sygnału od stężenia. Oczywiście wartości zmierzone mogą nie pokrywać się idealnie z przebiegiem krzywej. Stosuje się więc zabieg interpolacji, w którym linia wykresu przebiega pomiędzy zmierzonymi punktami. Przebieg nie jest przypadkowy a wyznacza się go tak by suma kwadratów błędów pomiaru była najmniejsza.
Współczynnik liniowości a współczynnik determinacji
Przy wyznaczaniu liniowości i odczytywaniu wyników możemy się spotkać z dwiema wartościami: współczynnikiem liniowości – R, oraz współczynnikiem determinacji – R^2. Czym się różnią?
Współczynnik liniowości (R) – tożsamy ze współczynnikiem korelacji Pearsona. Mówi o tym czy zależność pomiędzy danymi jest liniowa i w jakim stopniu. Im bliżej wartości 1 tym silniejsza korelacja.
Współczynnik determinacji (R2) – Wyznacza się go poprzez podniesienie wartości R do kwadratu. Wskazuje on na dopasowanie modelu regresji, czyli tego jak dobrze można wyznaczyć stężenie na podstawie pomiaru sygnału.
No dobra nasze dane są idealne: współczynnik liniowości R = 0,9999, współczynnik determinacji R2 = 0,9999? No cóż. Teoretycznie model jest idealnie dopasowany. Być może nawet dokładność nie pokazałaby, że jest jakiś problem. Możliwe jednak, że coś źle liczymy a nasza metoda jest jeszcze bardziej dokładna niż nam się wydaje.
Analiza resztkowa – czyli czy model naprawdę jest liniowy?
Analiza resztkowa jest jednym z etapów oceny modelu regresji. Polega on na badaniu różnic (reszt, rezyduów) między wartościami zaobserwowanymi (zmierzonymi) a wartościami odczytanymi z modelu regresji. Reszty (e) reprezentują błędy modelu. Ich położenie na wykresie zależności od stężenia może nam wskazać, czy model jest odpowiednio dopasowany.

Analiza wykresu zależności stężenia od wartości reszt może pomóc w ustaleniu następujących rzeczy:
- Weryfikacja poprawności modelu
- Weryfikacja jednorodności wariancji (homoskedastyczność)
- Identyfikacja obserwacji odstających
Dla wyjaśnienia analizy resztkowej posłużymy się zestawem danych:
| Stężenie | Sygnał |
| 50 | 110,2483571 |
| 75 | 159,9308678 |
| 100 | 210,3238443 |
| 125 | 260,7615149 |
| 150 | 309,8829233 |

Sygnał ti wartości zmierzone. By wyliczyć reszty musimy wyznaczyć sobie wartości oczekiwane na podstawie równania krzywej y=ax +b.
| Stężenie | Sygnał (y) | wartości oczekiwane (ŷ) |
| 50 | 110,2483571 | 110,2095456 |
| 75 | 159,9308678 | 160,2195235 |
| 100 | 210,3238443 | 210,2295015 |
| 125 | 260,7615149 | 260,2394794 |
| 150 | 309,8829233 | 310,2494574 |
Następnie wykorzystując odejmując wartości zmierzone od oczekiwanych wyznaczamy reszty
| Stężenie | Sygnał (y) | wartości oczekiwane (ŷ) | Reszty (e) |
| 50 | 110,2483571 | 110,2095456 | 0,038811 |
| 75 | 159,9308678 | 160,2195235 | -0,28866 |
| 100 | 210,3238443 | 210,2295015 | 0,094343 |
| 125 | 260,7615149 | 260,2394794 | 0,522035 |
| 150 | 309,8829233 | 310,2494574 | -0,36653 |

Generalnie:
- Wartości reszt powinny równomiernie układać się po obu stronach poziomej linii 0
- Brak wyraźnego trendu, kształtu oznacza dobre dopasowanie modelu liniowego
- Można zaobserwować wartości odstające
Analiza przypadku
By pokazać prawdziwą moc analizy resztkowej posłużę się zestawem trzech danych.
| Przypadek 1 | Przypadek 2 | Przypadek 3 | ||||
| Stężenie | Sygnał | Reszty | Sygnał | Reszty | Sygnał | Reszty |
| 50 | 110,2483571 | 0,0388115 | 114,9531726 | 2,345937031 | 109,80000 | -0,440000 |
| 75 | 159,9308678 | -0,288655683 | 161,5658426 | -1,031487151 | 160,40000 | 0,400000 |
| 100 | 210,3238443 | 0,094342782 | 210,1534869 | -2,433936904 | 209,20000 | -0,560000 |
| 125 | 260,7615149 | 0,522035486 | 261,1561051 | -1,421412863 | 261,20000 | 1,680000 |
| 150 | 309,8829233 | -0,366534085 | 315,108512 | 2,540899887 | 308,20000 | -1,080000 |



Wykresy reszt dla tych przypadków wyglądają następująco:



Co możemy wywnioskować na podstawie wykresów:
Przypadek 1:
Punkty układają się równomiernie po obu stronach wartości 0. Brak wyraźnego trendu w położeniu punktów. Świadczy to o dobrym dopasowaniu modelu liniowego.
Przypadek 2:
Charakterystyczny paraboliczny kształt ułożenia punktów. Taki kształt świadczy o nieliniowym charakterze rozkładu punktów. Najczęściej w tym przypadku mają one rozkład dwumianowy (funkcja drugiego stopnia). W tym przypadku zastosowanie modelu liniowego pomimo wysokiego R^2 jest nieprawidłowe, gdyż zależność jest nieliniowa.
Przypadek 3:
Reszty oddalają się od wartości 0 wraz ze wzrostem stężenia (kształt lejka). Świadczy to o tzw. Heteroskedastyczności (niestałej wariancji). W takim wypadku powinno zastosować się regresję ważoną.
Podsumowanie
Na podstawie powyższych danych dość dobrze widać, że wartości R czy R^2 mogą być mylące. Przy wyznaczaniu liniowości warto dokładniej przyjrzeć się danym i ocenić czy zastosowany przez nas model kalibracji faktycznie jest najlepszy i zgodny z matematyką.
Niestety w większości przypadków oprogramowanie służące do obsługi sprzętu i analizy wyników nie wykona tej analizy. Warto więc sięgnąć do specjalnych narzędzi statystycznych takich jak Statistica czy Minitab, lub po prostu arkusza obliczeniowego by ocenić czy liniowość faktycznie jest liniowa.



