løsningen på Big Data i en strand? – Nonteek

2

Data inde i DNA, eller verden inde i en skoæske

Tilbage i 2016, et indlæg underskrevet af Thomas Barnet Jr. med titlen “Zettabyte-æraen begynder officielt” optrådte på Cisco Blog. Hvad handler det om?

Indlægget refererede til den globale internettrafik målt af Cisco, som i 2016 lige havde overskredet ZB1og forventet at overstige de 3 ZB i 2021. Men trafikken er stadig ingenting sammenlignet med de genererede data (som oversteg ZB allerede i 2012), hvorimod IDC i sin rapport Dataalder 2025 viste, at tærsklen på 20 ZB allerede var overskredet i år, og at denne eksponentielle vækst ville føre til at bryde igennem de 160 ZB i 2025!

Trend i datagenerering frem til 2025 ifølge IDC

En syndflod af data

Vi genererer en enorm mængde data, og det gør vi hurtigt når frem til kapacitet begrænse af den nuværende teknologi til at håndtere det. Nogle vil måske hævde, at en stor del af de genererede data er skrald, der nemt kunne slettes uden problemer, men det er svært at forstå i dag, hvad der kan blive relevant i fremtiden, så dette kan bestemt ikke betragtes som en løsning.

Big Data er allerede en udfordring med hensyn til computerkapacitet i dag, men det vil snart blive en udfordring med hensyn til plads med nutidens teknologier: SSD medier har bragt en vis ydelsesforbedring i forhold til magnetiske harddiske, men hvad angår langtidslagring, sidder vi stadig fast med magnetbånd.

Genetik til undsætning?

I 2007 offentliggjorde GM Skinner, K. Visscher og M. Mansuripur en ret revolutionerende artikel i Journal of Bionanoscience, med titlen Biokompatibel skrivning af data til DNA, hvor de brugte et simpelt DNA-baseret opbevaringsskema. I dette arbejde demonstrerede gruppen muligheden for at “skrive” information i DNA-strenge og læse den ved hjælp af en specifik gel. Metoden var stadig rudimentær, men vejen var banet.

Kodning og afkodning af data på DNA

Sekvensering og syntese

Processen med at læse DNA, bedre kendt som “sekventering”, fik et stort løft fra arbejdet i NHGRI inden for rammerne af Human Genome Projectsom blev afsluttet i 2003.

DNA består af 4 baser: ENdenine, Guanine, Thymin og Cytosin. “Tricket” er, at de eneste tilladte kombinationer er mellem Adenin og Thymin, og mellem Cytosin og Guaninaog dermed tillade rekonstruktionen af ​​sekvensen ved at introducere én base ad gangen. Processen gentages millioner af gange. Nu, ved at kombinere kombinationer af 0 og 1 til hver base, får du en 2-bit kode: 00, 01, 10, 11. Og voilà, vi har et digitaliseringsskema.

Hvorfor DNA?

Der er mange fordele:

  • Massefylde: DNA er frem for alt utrolig tæt. Allerede sidste år tærsklen på 200 PetaBytes (1000 TB) pr. gram blev overskredet. Det anslås, at al data på internettet i dag let kunne være indeholdt på DNA i rummet af en skoæske (!).
  • Loyalitet: Datagendannelse kan være praktisk talt fejlfri på grund af nøjagtigheden af ​​DNA-replikationsmetoder.
  • Bæredygtighed: den energi, der kræves for at vedligeholde DNA-kodet information, er en lille brøkdel af den, der kræves af moderne datacentre.
  • Lang levetid: DNA er et stabilt molekyle, der kan holde i tusinder af år uden at nedbrydes.

Det sekventering teknologier er nu meget avancerede, og i dag findes der endda USB-pocket-sequencers (se nedenfor), og de mest avancerede enheder tillader udførelse af mange kørsler parallelt.

Billedresultat for smidgION
Oxford Nanopores SmidgION: den mindste sequencer i handelen

Skrivning (eller syntese) af DNA kræver i stedet at “hæfte” den ene base efter den anden i et kontrolleret miljø, en meget langsom kemisk proces, der går tilbage til 1981. Men i betragtning af den enorme markedsefterspørgsel er der virksomheder som f.eks. Twist Bioscience og DNA script der har udviklet innovative synteseteknologier, baseret på henholdsvis silicium og enzymatisk syntese, som lover mængder af størrelsesordener højere end traditionelle. Desuden har for nylig to forskere ved Syntetisk biologi informatik afdeling af JBEI fremlagde en ny syntesemetodologi, der kunne føre til oprettelse af 3D-printere af DNA.

Alle verdens data i DNA | Dina Zielinski | TEDxVienna

Siden arbejdet med Skinner & coll. forskningen har gjort store fremskridt: i 2015, Microsoft og MISL fra University of Washington skabte DNA opbevaring projekt, der etablerede en rekord i 2016 ved at lagre og med succes genvinde 200 MB i DNA-strenge. I 2017, i en anden vigtigt arbejdeY. Erlich og D. Zielinski, opbevarede og genvundne 2 MB materiale med en densitet på over 200 PetaByte pr. gram, der rørte den teoretiske grænse postuleret af Shannongennem brug af “fontænekoder”.

Relateret billede
CRISPR i aktion

Den dag i dag er DNA-syntese-/sekventeringsprocessen stadig dyr (vi taler om nogle få tusinde dollars pr. MB på skrift og 200 dollars til læsning), men dette er nødt til at falde, både i lyset af den hurtige udvikling i sektoren, pga. til den eksplosive anmodning om manipuleret DNA, både fordi det til opbevaring af data er muligt at bruge ad-hoc syntetiseret DNA i stedet for det biologiske. I denne henseende er det forventet at den omfattende brug af redigeringsteknologier som f.eks CRISPR/Cas9, TALEN og ZNF inden for genetisk manipulation vil blive den vigtigste drivkraft for vækst på dette marked.

Billedresultat for dna-syntesemarked

Ansøgninger

Brugen af ​​DNA til digitalisering er derfor ikke noget, der hører til science fiction, men vi begynder allerede at se de første prototyper af applikationer.

  • Kryptering: Carverren amerikansk startup har udviklet en metode til at kryptere data til DNA-molekyler og tilbyder en DNA-baseret adgangskodekrypteringstjeneste for $1.000.
  • Sky: i marts sidste år offentliggjorde Microsoft en papir på Nature, hvor den demonstrerede evnen til at udføre DNA-aflæsninger igennem tilfældig adgang, hvilket dramatisk øger effektiviteten af ​​sekventeringsprocessen. Takket være fremskridt som dette og dem, der er nævnt ovenfor, ser det ud til, at Microsoft begynder at overveje DNA til cloud backup for fremtiden og samarbejder aktivt med Twist Biosciences. Omkostningerne er stadig meget høje, men folk hos Redmond er overbeviste om, at denne hindring let vil blive overvundet, hvis der er tilstrækkelig efterspørgsel fra computerindustrien.

Bemærk

En zettabyte svarer til omkring en milliard terabyte (TB). Hvis vi tænker på, at 1 TB er mere eller mindre på størrelse med en gennemsnitlig harddisk i dag, er det let at indse størrelsen af ​​denne trafik.

EN springvandskode er en måde at tage data (f.eks. en fil) og omdanne dem til et faktisk ubegrænset antal kodede bidder, så den originale fil kan samles igen af ​​ethvert sæt af disse stykker, så længe totalen er lidt højere end den originale størrelse . Det, der gør denne type algoritme bemærkelsesværdig, er, at den giver dig mulighed for at sende information gennem “støjende” kanaler uden at kræve, at modtageren sender feedback om manglende pakker. Med andre ord vil det være tilstrækkeligt at have en fil på 10 MB for modtageren modtage en i alt 11 MB af nogen af ​​bidderne for at være sikker på at samle filen igen.

Med Tilfældig adgang i IT mener vi evnen til at få adgang til en hvilken som helst placering af medierne uden at skulle passere de tidligere placeringer (seriel adgang).

Links

En interaktiv tidslinje for det menneskelige genom

Wikipedia: DNA Digital Storage

Opbevaring

UDVIKLING AF OPBEVARING AF DNA-DATA

Tilfældig adgang i storstilet DNA-datalagring

Lagring af DNA-data tættere på at blive virkelighed

Forskere fra Microsoft og University of Washington satte rekord for DNA-lagring

Hvordan DNA kunne lagre al verdens data

Lagring af data i DNA bringer naturen ind i det digitale univers

Mod praktisk højkapacitets-lav-vedligeholdelseslagring af digital information i syntetiseret DNA (pdf)

DNA-lagring: en ny metode til lagring af digital information

Vil syntetisk DNA skubbe Ledger og Trezor ud af markedet?

Syntese og sekventering

DNA EKSTRAKTION MED EN 3D-PRINTET CENTRIFUGE

REVERS ENGINEERING EN DNA SEQUENCER

Ny forskning kan føre til DNA 3D-printer

DNA Fountain muliggør en robust og effektiv lagerarkitektur (pdf)

MinION: En komplet DNA-sequencer på en USB-stick

DNA-sekventeringsmarked: nye industrier, potentielle indtægter, omkostningsstrukturanalyse og topnøglespillere

Ansøgninger

Bitcoin-fanatikere gemmer deres cryptocurrency-adgangskoder i DNA

3D-print kan være nøglen til overkommelig datalagring ved hjælp af DNA

Forbandet seje algoritmer: Fountain Codes

lignende indlæg

Leave a Reply