Entrez - wstęp

Patrz też opis strony PubMed

Entrez
i inne systemy do wyszukiawania informacji

Przeszukiwanie i przeglądanie danych gromadzonych w wielu miejscach na świecie ułatwione jest dzięki zintegrowanym systemom dającym dostęp do wielu baz danych jednocześnie. Systemem takim jest na przykład Entrez. Daje on dostęp do baz sekwencji (nukleotydowych i aminokwasowych), struktur białek, genomowych baz danych, oraz do baz bibliograficznych (referencje i abstrakty publikacji naukowych). W Entrez czytając abstrakt publikacji naukowej mamy jednocześnie aktywne odnośniki (hyperlinki) do dokumentów zawierających sekwencje wymienionych w tej publikacji genów, do struktur opisywanych białek i listę publikacji na ten sam bądź zbliżony temat. Bez wdawania się w szczegóły, działanie systemu takiego jak Entrez jest możliwe dzieki temu, że poszczególne bazy danych umożliwiają dostęp do zawartych w nich dokumentów w formacie zwanym Abstract Syntax Notation (ASN.1). Entrez tworzy też powiąznia pomiędzy danymi z różnych baz danych widoczne dla użytkownika w postaci hypertekstowych odnośników. Innym rodzajem zintegorwanych systemow do wyszukiwania informacji jest baza AceDB. Pierwotnie została ona stworzona dla komputerow Unixowych, ale są już jej wersje działające na Macintoshach, PC, oraz wersje dostępne przez Internet. Siłą AceDB jest prostota a co za tym idzie łatwość adaptacji do zastosowań dla wielu różnych organizmów. Niestety efektem ubocznym tego jest tworzenie baz zmodyfikowanych tak dalece w stosunku do AceDB, że nie jest możliwa łatwa ich integracja w jeden spojny system.

Entrez
Po znalezieniu nazwy interesującego nas genu można za pośrednictwem Entrez obejrzeć opis dołączony do jego sekwencji, przeczytać abstrakty artykułów opisujacych te sekwencje a także poszukać innych homologicznych do niej sekwencji, wszytko to można zrobić bez potrzeby ponownego przeszukiwania innych baz danych. Łatwosc z jaką użytkownik może przeskakiwać pomiędzy dokumentami zawartymi w rożnych bazach danych pozwala na znalezienie ogromnej ilości informacji w czasie znacznie krotszym niż ten, jaki by nam zajął na przeszukanie każdej z tych baz osobno.
Informacje w poszczegolnych bazach danych są powiązane za pomoca procedury zwanej ``neighboring" pozwalającej na wyszukanie podobnych dokumentów. Neighbouring pozwala odpowiedzieć na pytnie: ``Które publikacje są podobne do tej która właśnie czytam?" lub ``Które sekwencje są podobne do danej sekwencji?". Wewnątrz każdej z baz danych podobieństwa są określane na podstawie homologi (wykorzystuje się tu program BLAST). Dla Medline podobieństwa pomiedzy artykułami określane są poprzez analizę podobieństw pomiędzy słowami w słowach kluczowych, tytułach, abstraktach (Wilbur & Coffee, 1994).

Powiazania pomiędzy różnymi bazami danych są tworzone za pomocą tzw. hard links. Na przykład artykół o BRCA1 znaleziony w MEDLINE może zawierać sekwencje nukleotydową genu BRCA1. Jeśli tak jest to hard link jest towrzony pomiedzy artykułem w MEDLINE i sekwencją genu w bazie sekwencji nukleotydowych. Hard links są dwukierunkowe, co oznacza że pozwalają one na przemieszczanie się z jednej bazy do drugiej i z powrotem.


	[Home] [Zadania] [Teoria] [Index]