Cheminformatics 101

1. Chemoinformatik Basics

Was ist Chemoinformatik?

Chemoinformatik ist eine Kreuzung zwischen Informatik und Chemie: Der Prozess der Speicherung und Abruf von Informationen über chemische Verbindungen.

Information Systems sind mit der Speicherung besorgt, Abrufen und Suchen der Informationen, und mit der Speicherung Beziehungen zwischen Datenbits.

Wie ist Chemoinformatik anders?

Es gibt vier zentrale Probleme einer auf Chemieinformatik System löst:

1. Bewahren Sie eine Molecule

Informatiker der Regel verwenden die Valenz-Modell der Chemie auf die Verbindungen darstellen. Abschnitt 2, die Moleküle, beschreibt dieser endlich.

2. Finden Sie genaue Molekül

Wenn Sie fragen: "Ist Abraham Lincoln in der Datenbank?" Es ist nicht schwer, die Antwort zu finden. Aber, ein spezifisches Molekül gegeben, ist es in der Datenbank? Was wissen wir darüber? Dies mag auf den ersten Blick einfach, aber es ist nicht, wie wir sehen werden, wenn wir Tautomere diskutieren, Stereochemie, Metalle und andere "Schönheitsfehler" in der Valenz-Modell der Chemie.

3. Unterbau Suche

Wenn Sie fragen: "Ist jemand namens Lincoln in der Datenbank?" Sie erwarten in der Regel auf den ehemaligen Präsidenten zu finden und eine Reihe von anderen - dies wird als eine Suche als eine Lookup. Für eine chemische Informatik-System haben wir eine Unterkonstruktion Suche: Hier finden Sie alle Moleküle mit einer teilweisen Molekül (der "Unterbau") durch den Benutzer erstellt. Der Unterbau ist in der Regel eine funktionelle Gruppe, "Gerüst", oder Core-Struktur entspricht einer Klasse von Molekülen. Auch dies ist ein schwieriges Problem, viel härter als die meisten Textsuche, aus Gründen, die an die Wurzel gehen und der Mathematik die Theorie der Berechenbarkeit.

4. Ähnlichkeitssuche

Einige Datenbanken finden Sie ähnlich klingende oder falsch geschriebene Wörter, wie "Find Lincon" oder "finden Cincinati", die jeweils Abraham Lincoln und Cincinnati finden könnten. Viele chemische Informationssysteme finden Moleküle ähnlich wie bei einem bestimmten Moleküls, durch die Ähnlichkeit geordnet. Es gibt mehrere Möglichkeiten, um molekulare Ähnlichkeit zu messen, weiter diskutiert in Abschnitt 4, Molecular Similarity.

2. Repräsentierende Moleküle

Was ist ein Molekül?

Eine der größten Errungenschaften in der Chemie wurde die Entwicklung der Valenz-Modell der Chemie, wo ein Molekül als Atome durch halbstarre Anleihen, werden Einzel-, Doppel-oder Dreibettzimmer können beigetreten vertreten ist. Diese einfache mentale Modell hat wenig Ähnlichkeit mit dem zugrunde liegenden quantenmechanischen Realität der Elektronen, Protonen und Neutronen, aber es erwies sich als außerordentlich nützlich Angleichung der, wie sich Atome verhalten sich in unmittelbarer Nähe zueinander zu sein hat, und ist seit der Gründung der chemischen Unterricht Seit gut einem Jahrhundert.

Die Valenz-Modell ist auch die Grundlage der modernen chemischen Informationssystemen. Wenn ein Computer Scientist ein Problem nähert, ist die erste Aufgabe zu ausrechnen ein Datenmodell, dass das Problem darstellt, wie Informationen gelöst werden. Um den Computer Scientist, der Valenz-Modell natürlich verwandelt sich in ein Diagramm, in dem die Knoten sind die Atome und die Kanten sind Anleihen. Informatiker wissen, wie man Grafiken manipulieren - mathematischen Graphentheorie und Informatik wurden eng seit der Erfindung des digitalen Computers. Es gibt Atomen und Raum. Alles andere ist Meinung. - Demokrit

Allerdings hat die Valenz-Modell der Chemie viele Mängel. Die naheliegendste ist Aromatizität, die schnell du das Konzept einer nicht-integral "aromatischen" verteilt Bindung erforderlich ist, um die Einzel / Doppel / Dreifachbindungen der einfachen Valence-Modell. Und das war erst der Anfang - Tautomere, Ferrocene, geladene Moleküle und eine Vielzahl anderer gemeinsamer Moleküle einfach nicht passen die Valenz-Modell gut.

Dies erschwert das Leben für die Informatiker. Wie wir sehen werden, sind sie die Quelle der meisten der Komplexität moderner Systeme Chemieinformatik. Ältere Systeme: Connection Tables

Die meisten der frühen (und einige moderne) Darstellungen von Molekülen in einem Zusammenhang Tisch, buchstäblich, ein Tisch Aufzählung der Atome, und eine Tabelle der Aufzählung der Anleihen und die Atome jede Anleihe verbunden. Hier ist ein Beispiel von Verbindung-Tabelle (CTAB) Teil einer MDL "SD"-Datei (der Datenteil hier nicht dargestellten):

MOLCONV

3 2 0 0 1 0 1 -0,0000 -0,0000 5,9800 V2000 Br 0 0 0 0 0 0 4,4000 -0,6600 0,8300 C 0 0 0 0 0 0 3,5400 -1,3500 -0,1900 C 0 0 0 0 0 0 1 2 1 0 2 3 1 0

Dieses einfache Beispiel zeigt die meisten der wichtigsten Funktionen. Das Molekül besteht aus drei Atomen, zwei Anleihen, und ist mit drei-dimensionale (vorausgesetzt, x, y, z)-Koordinaten. MDL bietet umfangreiche Dokumentation für ihre verschiedenen Formaten CTFile wenn Sie sich für die Details interessieren.

Connection-Tabellen können die Valenz-Modell der Chemie ziemlich gut einzufangen, aber sie leiden unter zwei Problemen:

* Sie sind sehr ineffizient, wobei in der Größenordnung von ein oder zwei Dutzend der Bytes an Daten pro Atom und pro Anleihe. Neuere den Bezeichnungen (siehe unten) stellen eine Moleküle mit einem Durchschnitt von 1,2 bis 1,5 Bytes pro Atom, oder 6-8 Byte pro Atom, wenn Koordinaten hinzugefügt werden.

* Viele litten an mangelnder Spezifität. Zum Beispiel, weil Wasserstoffatome sind oft nicht angegeben wird, kann es zu Mehrdeutigkeiten werden, um den elektronischen Zustand einiger Moleküle, weil die Verbindung-table-Format nicht ausdrücklich die Wertigkeit Annahmen.

* Die meisten mix das Konzept der Konnektivität (was sind die Atome und wie sind sie verbunden?) Mit anderen Daten, wie zB 2D-und 3D-Koordinaten. Zum Beispiel, wenn Sie zwei unterschiedliche Konformere eines Moleküls hatte, würden die meisten Tabellen-Verbindung müssen Sie das gesamte Molekül zweimal angeben, obwohl die Verbindung Tabelle identisch ist, in beiden.

Den Bezeichnungen: InChI, SMILES, WLN und andere

Eine Linie stellt eine Notation Molekül als eine einzeilige Zeichenkette.

WLN - Wisswesser Line Notation

WLN, erfunden von William J. Wisswesser in den frühen 1950er Jahren, war die erste umfassende Online-Notation, der fähig ist vertreten beliebig komplexe Moleküle korrekt und kompakt.

1H = CH4 Methan 2H = CH3-CH3 Ethan 3H = CH3-CH2-CH3 Propan QVR BG CG DG EG FG = C7HCl5O2 Pentachlorbenzoate

WLN war die erste Zeile Notation, um eine kanonische Form Funktion, das heißt, die Regeln für WLN bedeutete es nur einen "richtigen" WLN für einen bestimmten Moleküls. Diejenigen, versiert in WLN konnten molekulare Struktur in eine Zeile schreiben, formatieren, zu kommunizieren molekulare Struktur zu einander und zu Computerprogrammen. Leider verhindert die Komplexität WLN verbreitete Annahme. Die Regeln für die korrekte Spezifikation der WLN füllte ein kleines Buch, Encoding diese Regeln in einem Computer als schwierig erwiesen, und die Regeln für die Kanonisierung wurden rechnerisch unlösbar. SMILES - Simplified Molecular Input Line Entry System

Die bekanntesten Online-Notation ist heute lächelt. Es wurde von Arthur und David Weininger in Reaktion auf ein Bedürfnis nach einem einfacheren, "menschliche zugänglich" Notation als WLN. Während SMILES ist nicht trivial zu lernen und zu schreiben, können die meisten Chemiker richtige SMILES mit nur ein paar Minuten Training zu erstellen, und die gesamte SMILES Sprache kann in ein oder zwei Stunden gelernt werden. Sie können weitere Details lesen Sie hier. Hier sind einige Beispiele:

Methan Ethan C CC C = C Ethen Oc1ccccc1 Phenol

SMILES, wie WLN, hat eine kanonische Form, aber im Gegensatz WLN stützte Weininger auf dem Computer, anstatt der Chemiker, um eine nicht-kanonische lächelt eine kanonische SMILES konvertieren. Diese wichtige Trennung der Aufgaben war der Schlüssel, um SMILES leicht zu geben. (Lesen Sie mehr über die Kanonisierung unten.)

InChI

InChI ist die neueste und modernste der Linie Notationen. Es löst viele der chemischen Unklarheiten nicht von SMILES gerichtet, insbesondere im Hinblick auf Stereo-Zentren, Tautomere und andere der "Valenz-Modell Probleme" in der Einleitung dieses Dokuments erörtert.

Sie können mehr über InChI auf der offiziellen Web-Site oder auf der Unofficial FAQ InChI Seite zu lesen.

Kanonisierung

Ein entscheidendes Merkmal der Bezeichnungen der Kanonisierung ist - die Fähigkeit, wählen Sie "gesegnet" Repräsentation unter den vielen. Bedenken Sie:

OCC CCO Ethanol Ethanol

Beide repräsentieren die SMILES dasselbe Molekül. Wenn wir alle zustimmen konnte, dass einer dieser die "richtige" oder "kanonische" Lächeln für Ethanol wurde, dann würden wir immer bewahren Sie sie auf dieselbe Weise in unserer Datenbank. Noch wichtiger ist, wenn wir fragen: "Ethanol ist in unserer Datenbank wollen:" Wir wissen, dass es nur einmal da sein, und dass wir die kanonische SMILES für Ethanol erzeugen und schauen Sie.

(Beachten Sie, dass in der Theorie kann man eine kanonische Verbindung Tisch zu schaffen, aber es ist nicht so nützlich, da der Informatik-Systeme haben normalerweise Probleme Indizierung BLOBs - große Objekte.)

Line Notation Version Connection Tabellen: eine praktische Sache

Warum sind Bezeichnungen der bevorzugte Verbindung über-table-Formate? In der Theorie könnten weder ausdrücklich die gleichen Informationen. Aber es gibt praktische Unterschied, vor allem auf die Komplexität der "Parsen" eine Verbindung Tisch stehen. Wenn Sie wissen, dass das ganze Molekül in einer Zeile einer Datei ist, ist es einfach zu analysieren.

Line Notationen sind auch sehr schön für Datenbank-Anwendungen. Relationale Datenbanken sind Datentypen, die, grob gesagt, in Zahlen, Text verteilt sind, und "alles andere", auch bekannt als "Blobs" (Binary Large Objects) bekannt. Sie können den Bezeichnungen in der "Text speichern" Felder viel leichter als Verbindung Tabellen.

Line Notationen auch pragmatische Vorteile. Moderne Unix-artigen Systemen (wie UNIX, Linux und Cygwin) haben eine Reihe von sehr mächtigen "Filter" Text-Verarbeitung Programme, die "Pipe" können zusammen angeschlossen (end-to-end), um wichtige Aufgaben zu erfüllen. Zum Beispiel, zu zählen, die Anzahl der Moleküle, die aliphatische Stickstoff in einem SMILES-Datei, kann ich einfach:

grep N file.smi | wc

Query Languages: SMARTS

Neben einer typographischen Weg zu Molekülen darstellen, brauchen wir auch eine Möglichkeit, Abfragen über Moleküle, wie z. B. Kraft, "Suche alle Moleküle, die Phenol enthalten."

Mit Text, sind wir vertraut mit dem Konzept der Typisierung einer teilweisen Wort wie "Ford" zu finden "Henry Ford" sowie "John Hartford". Für die Chemie, wir können auch angeben, Teilstrukturen, und finden Sie alles, was sie enthält.

Die einfachste Abfragesprache für Chemie ist SMILES selbst: Nur eine Struktur, wie "Oc1ccccc1", und suchen. Dies ist, wie eMolecules "basic Benutzer arbeitet. Es ist einfach und wegen der High-Performance-Indizes in eMolecules, ist es sehr schnell.

Doch für allgemeine Zwecke Chemieinformatik, braucht man mehr Leistung. Was, wenn der Unterbau Sie suchen ist nicht ein gültiges Molekül? Zum Beispiel ClccBr (1,2 - Substitution an einem aromatischen Ring) ist nicht eine ganze Molekül, da das Konzept der Aromatizität nur sinnvoll in den Kontext eines ganzen Ringsystem ist.

Oder was, wenn das, was wir suchen, ist nicht ein einfaches Atom wie Br, sondern ein Konzept wie "Halogen"? Oder: "Ein Terminal-methyl"?

Um dieses Problem anzugehen, haben Chemieinformatik Systeme spezielle Abfrage-Sprachen, wie SMARTS (lächelt Willkürliche Target-Spezifikation). SMARTS ist ein enger Verwandter SMILES, aber es hat Ausdrücken anstelle von einfachen Atomen und Anleihen. Zum Beispiel, [C, N] zu finden, die entweder ein Atom Kohlenstoff oder Stickstoff.

IUPAC, Handelsnamen, Common Names

Chemie hat auch drei andere wichtige Namen Systeme:

* IUPAC-Namen (von der IUPAC, hat die International Union of Pure and Applied Chemistry) eine Namenskonvention, die breite Anwendung in der Chemie verwendet wird. Jede chemische können benannt werden, und alle IUPAC-Namen sind eindeutig. Diese textliche Darstellung ist auf den Menschen gerichtet, nicht Computer: Chemiker versiert in der IUPAC-Nomenklatur (was häufig unterrichteten) kann eine Lese-und IUPAC-Namen oder zeichnen das Molekül zu visualisieren.

* Handelsnamen wie Tylenol ® und Valium ® sind Verbindungen und Formulierungen von den Herstellern für Marketing und Vertrieb Zwecken gegeben, und für regulatorische Zwecke.

* Gemeinsame Namen Namen wie "Aspirin" oder "Alkohol" für Stoffe, die weit verbreitet sind.

3. Unterbau Suche mit Indizes

Was ist Indexing?

Die Indizierung ist pre-Computing die Antworten auf Teile der erwarteten Fragen, bevor sie gefragt sind, so dass, wenn die Frage kommt, ist es schnell zu beantworten.

Nehmen Sie Ihre Lieblings-Suchmaschine (AOL, Yahoo, Google, MSN, ...) zum Beispiel. Ohne die Indizierung, könnten sie warten, bis Sie für "John Hartford Bluegrass" fragen, dann starten Sie die Suche im Netz, und in ein oder zwei Jahre finden Sie alle Web-Seiten über den Verstorbenen Banjo / Fiddle-Spieler und Kapitän Dampfboot. Das wäre wahrscheinlich nicht beeindrucken.

Stattdessen diese Suchmaschinen das Web durchsuchen, bevor Sie Ihre Frage stellen, und bauen einen Index der Worte, die sie finden. Wenn Sie in "Bluegrass John Hartford Typ", die sie bereits kennen alle Seiten haben, dass "John", alle Seiten mit "Hartford", und alle Seiten mit "Bluegrass". Statt nach, untersuchen sie ihren Index und finden Sie Seiten, die auf allen drei Listen sind, und finden Sie schnell Ihre Ergebnisse. (NB: Es ist eigentlich viel komplexer, aber dies zeigt die Grundidee der Indexierung). Aber auch andere Inhalte kann man auf diesem Weg finden. Gibt man beispielsweise den Begriff Zahnimplantate ein, so werden als Ergebnisse viele Seiten, darunter die Seite http://www.zahnarzt-implantologie.de, angezeigt.

Indizes für Chemie

Statt der Indizierung Worten, Unterkonstruktionen Chemieinformatik Systeme Index. Obwohl es viele Pläne, dies zu tun sind, Chemieinformatik-Systeme verwenden alle die gleichen Grundprinzip: sie zersetzen das Molekül in kleinere Stücke und die Index.


Zersetzung des Moleküls für die Indizierung

Grob gesagt, einer auf Chemieinformatik System wird jeder Index der Unterbauten (Fragmente) oben, so dass jedes Molekül, jedes Fragment bekannt ist, enthält.

Wenn eine Abfrage eingegeben wird, bricht das System auseinander Chemieinformatik die Abfrage mit der gleichen Technik, um alle Fragmente in der Abfrage finden. Es überprüft dann den Index für jedes Fragment, und verbindet die Listen sie feststellt, nur diejenigen Moleküle zu erhalten, dass alle diese Fragmente.

Dies bedeutet nicht, dass alle Moleküle, die durch den Index zurückgegeben tatsächlich übereinstimmt. In der Sprache der Datenbanken, sagen wir, der Index wird Fehlalarme zurück, Kandidaten-Moleküle, die eigentlich nicht passen die Unterkonstruktion suchen.

Betrachten wir beispielsweise die Suche nach "John Hartford" - der Index könnte viele Seiten, die Rückkehr haben beide "John" und "Hartford", die noch nichts mit Bluegrass-Musik oder Dampfschiffe zu tun. Zum Beispiel könnte es eine Seite mit zurückzukehren ", sagte Präsident John F. Kennedy besucht Hartford, Connecticut heute ...". Um zu bestätigen, dass das Suchsystem hat etwas Relevantes gefunden, muss er überprüfen Sie die Seiten aus dem Index zurück, um sicherzustellen, dass die spezifischen Satz "John Hartford" vorhanden ist. Beachten Sie jedoch, dass dies viel schneller als Benutzer auf jeder Seite, da die überwiegende Mehrheit der Web-Seiten wurden sofort abgelehnt, weil sie weder "John" noch "Hartford" auf sie haben.

Auch eine chemische Fragment Index nur die wahrscheinlichste Moleküle für unsere Unterkonstruktion Match - nichts, dass der Index nicht finden, finden dient, ist definitiv nicht ein Streichholz an. Aber wir haben noch jedes der Moleküle durch die Indexierung wieder prüfen und kontrollieren, dass der komplette Unterbau für die wir suchen anwesend ist.

NP-Complete - ein wenig über Berechenbarkeit

Das Durchsuchen einer Textseite für die Worte, "John Hartford" ist recht einfach für einen modernen Computer. Obwohl Fehlalarme durch den Index wieder ein Ärgernis und Performance beeinträchtigen, sind sie nicht eine Katastrophe. Nicht so für den Unterbau Passende. Leider passender Unterbau fällt in eine Kategorie der "harten" mathematischen Probleme, die Fehlalarme aus dem Index bedeutet, sind ein großes Problem.

Passende Unterkonstruktion (Suche nach einer bestimmten funktionellen Gruppe innerhalb eines Moleküls) ist ein Beispiel, was die Mathematiker Aufrufdiagramm Isomorphismus, und ist in einer Klasse von Problemen NP Complete aufgerufen. Grob gesprochen bedeutet dies, wie lange es dauert, um einen Unterbau Suche zu tun ist nicht polynomial, dh exponentiell in der Anzahl der Atome und Bindungen. Um zu sehen, warum dies eine rechnerische Katastrophe ist, zu vergleichen, zwei Aufgaben, eine, die polynomieller Zeit dauert, k1 * N2 versus eine, die exponentielle Zeit k2 * 2N dauert. Unsere Aufgabe Polynom ist schlimm genug: Wenn wir doppelte N, es viermal so lang dauert zu lösen. Aber das exponentielle Aufgabe ist schlimmer: Jedes Mal, wenn wir fügen es ein Atom verdoppelt. So gehen von einem Atom auf zwei verdoppelt sich die Zeit und gehen von 100 bis 101 Atomen Atome verdoppelt sich die Zeit. Selbst wenn wir K2 auf ein Millionstel K1 bekommen können, wir sind immer noch in Schwierigkeiten - eine Million ist nur 220 oder zwanzig Atome entfernt.

Es wurde mathematisch bewiesen, daß Unterkonstruktion Benutzer ist in der Menge der NP vollständigen Probleme, so macht es keinen Sinn, unsere Zeit auf der Suche nach einen polynomialen Algorithmus. Die gute Nachricht ist, dass die meisten Moleküle "low-Konnektivität", was bedeutet, die meisten Atome haben weniger als vier Anleihen, im Gegensatz zu den seltsamen und verdreht, dass Mathematiker Graphen zu betrachten. In der Praxis können die meisten passenden Unterbau in polynomieller Zeit herum geschehen N2 oder N3. Aber auch mit dieser Verbesserung ist passender Unterbau ein "teures" zeitaufwändige Aufgabe für einen Computer.

Der entscheidende Punkt ist, dass die Indizierung ist besonders wichtig für Chemieinformatik Systeme. Die typische moderne Computer kann nur prüfen, ein paar tausend Moleküle pro Sekunde, so dass die Prüfung Millionen von Molekülen one-by-one ist nicht die Rede. Die Indizierung durch ein modernes System Chemieinformatik getan ist der Schlüssel zu seiner Leistung.

4. Molecular Similarity

Unterbau Benutzer ist eine sehr mächtige Technik, aber manchmal ist es verfehlt Antworten für scheinbar triviale Unterschiede.

Es ist etwas wie die Suche nach "221b Baker Street" und fand nichts, weil die Datenbank enthält "221b Baker Street" und das System nicht der Ansicht, "b" und "B" ein Streichholz an.

Eine gute Ähnlichkeitssuche finden würde der Zielstruktur oben gezeigt, denn auch wenn es sich nicht um einen Unterbau passen, ist es sehr ähnlich zu unserem Abfrage ist.

Es gibt viele Möglichkeiten, um Ähnlichkeit zu messen.

2D-Topologie

Die bekannteste und meistgenutzte Ähnlichkeit Metriken vergleichen die zweidimensionale Topologie, das heißt, sie verwenden nur die Moleküls Atome und Bindungen, ohne Berücksichtigung seiner Form.

Tanimoto Ähnlichkeit ist vielleicht der bekannteste, da sie einfach zu implementieren ist und schnell zu berechnen. Eine hervorragende Zusammenfassung von 2D-Ähnlichkeit Metriken können in Abschnitt 5.3 der Daylight Theory Manual gefunden werden.

3D-Konfiguration

Eine der wichtigsten Anwendungen der Ähnlichkeit ist in der Entdeckung neuer Medikamente und ein Molekül die Form ist entscheidend für ihre Heil-Wert (siehe QSAR).

3D Ähnlichkeitssuche vergleichen Sie die Konfiguration (auch als "Konformation") von einem Molekül zum anderen Molekülen. Die "elektronische Oberfläche" des Moleküls ist das wichtigste Bit - der Teil, der mit anderen Molekülen interagieren können. 3D Sucheinträge vergleichen Sie die Oberflächen der beiden Moleküle, und wie polarisierten oder polarisierbaren jedes Bit der Oberfläche ist.

3D Ähnlichkeitssuche sind selten, aus zwei Gründen: Es ist schwierig, und es ist langsam. Die Schwierigkeit kommt von der Komplexität der molekularen Interaktionen - ein Molekül ist keine feste Form, sondern ein dynamisches Objekt, das ändert sich je nach seiner Umgebung. Und die Langsamkeit kommt aus der Schwierigkeit: Um bessere Ergebnisse zu erzielen, Wissenschaftler mehr und mehr komplexe Programme zu beschäftigen.

Physikalische Eigenschaften

Die oben genannten 2D-und 3D Ähnlichkeit auf der Molekül-Struktur basiert. Eine andere Technik vergleicht die Eigenschaften - entweder berechnet oder gemessen oder beides - und erklärt, dass Moleküle mit vielen Eigenschaften gemeinsam voraussichtlich eine ähnliche Struktur haben. Es ist die Idee der QSAR ergriffen, um die Datenbank.

Clustering

"Clustering" ist der Prozess der Differenzierung eine Reihe von Dingen in Gruppen, wo jede Gruppe hat gemeinsame Merkmale. Moleküle können gruppierten mit einer Vielzahl von Techniken, wie gemeinsame 2D-und / oder 3D-Funktionen.

Beachten Sie, dass Clustering ist keine Ähnlichkeit metrische per se (das Thema dieses Abschnitts), aber es kann verschiedene Metriken verwenden, wenn Ähnlichkeit Computing Clustern. Es ist hier, weil es als ein "billiger Ersatz" verwendet werden kann enthalten. Das heißt, wenn jemand ähnliche Verbindungen zu einer bekannten Verbindung finden will, kann man ihnen zeigen, die Gruppe (Cluster), zu denen die Verbindung gehört. Es erlaubt Ihnen, vor der Berechnung von Clustern, oder viel Rechenzeit vorne, und dann geben wir Antworten sehr schnell.

Viele Chemieinformatik-Datenbanken haben eine oder mehrere Ähnlichkeitssuche zur Verfügung.

5. Chemische Registration Systems

Chemische Registrierung ist der "große Bruder" der Chemieinformatik.

Einer auf Chemieinformatik-System ist in erster Linie gewidmet, um die Aufnahme der chemischen Struktur. Chemische Registrierung Systeme sind zusätzlich mit betroffen:

* Strukturelle Neuheit - sicherstellen, dass jede Verbindung nur einmal registriert ist

* Strukturelle Normalisierung - sicherstellen, dass Strukturen mit alternativen Darstellungen (wie Nitrogruppen, Ferrocene und Tautomere) sind in einer einheitlichen Weise eingegeben.

* Struktur Zeichnung - sicherstellen, dass Verbindungen in einer einheitlichen Art und Weise gezogen werden, so dass sie schnell erkannt werden kann "nach Augenmaß".

* Pflege der Beziehungen zwischen verwandten Verbindungen. Zum Beispiel sollten alle Formen von Salz eine Verbindung als miteinander verwandt erkannt werden, und Verbindungen in verschiedenen Solvate sind ebenfalls in Zusammenhang stehen.

* Die Registrierung Gemische, Rezepturen und alternative Strukturen.

* Registrierung der Verbindungen der Struktur unbekannt ist.

* Rollen, Verantwortlichkeiten, Sicherheit und Unternehmens-Workflows.

* Updates, Änderungen und Berichtigungen, Controlling und Ausbreitung von Änderungen (zB das Ändern einer Verbindung zu ändern, dass eine Mischung, die Verbindung?)

Der Umfang der Chemical Registration Systems ist weit über die Ziele dieser kurzen Einführung in die Chemieinformatik. Jedoch zu illustrieren nur eine der oben genannten Punkte, laßt uns überlegen, strukturelle Neuerung. Im wirklichen Leben, können chemische Struktur sehr zweideutig. Angenommen, Sie haben fünf Flaschen einer bestimmten Substanz, ein Stereo-Zentrum verfügt über:

1. Der Inhalt der ersten Flasche wurden sorgfältig analysiert und festgestellt, dass ein einziges Stereoisomer werden.

2. Der Inhalt der zweiten Flasche wurden sorgfältig analysiert und festgestellt, ein racemisches Gemisch der Stereoisomeren enthalten.

3. Die Stereoisomere der dritten Flasche sind nicht bekannt. Es kann sein, rein, oder haben eine vorherrschende Form, oder ein racemisches Gemisch.

4. Die vierte Flasche war, indem Sie ein Teil des Inhalts der Flasche # 2 durch eine chromatographische Trennung erzielt. Es ist isotopenreine, aber Sie wissen nicht, welche Stereoisomer wissen.

5. Die fünfte Flasche ist die andere Fraktion, die aus der gleichen Trennung von # 4. Es ist auch isotopenreine, aber Sie wissen nicht, welche Stereoisomer, aber man weiß, es ist das Gegenteil von # 4.

Welche von diesen fünf Flaschen enthalten die gleiche Verbindung, und die anderen? Das ist die wesentliche Aufgabe einer chemischen Registry System, das alle fünf betrachten, anders zu sein würden. Immerhin haben Sie wahrscheinlich Daten von jeder Flasche (das ist, warum Sie sie haben), und Sie müssen in der Lage sein, um es aufzunehmen und nicht zu verwechseln mit den anderen Flaschen.

Einer auf Chemieinformatik System hat keine Möglichkeit, die Inhalte der fünf Flaschen aufnehmen, es ist nur mit Struktur betrifft. Im Gegensatz dazu kann ein chemisches System zur Registrierung aufzeichnen, was sowohl als auch, was nicht bekannt ist bekannt. Dies ist der entscheidende Unterschied zwischen den beiden.

Weitere Informationen in Englisch finden Sie hier.