-
Notifications
You must be signed in to change notification settings - Fork 0
/
lec1 cn.sbv
875 lines (584 loc) · 20.2 KB
/
lec1 cn.sbv
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
0:00:00.640,0:00:02.560
大家好,我是早水桃子
0:00:02.560,0:00:05.359
欢迎来到我的频道
0:00:05.359,0:00:11.280
在这部视频里,我将解释一些我在组合系统演化领域的研究成果
0:00:11.280,0:00:18.160
今天的演讲目标是向你们介绍离散数学的生物学领域
0:00:18.160,0:00:21.199
因此我开始先提供一些系统演化和离散数学的基础
0:00:21.199,0:00:25.199
然后描述一些系统演化树和系统演化网络的组合问题
0:00:25.199,0:00:31.840
这些问题会在下一次演讲中解决
0:00:34.480,0:00:38.239
那么什么是系统演化呢
0:00:38.239,0:00:42.399
系统演化是研究不同种群的生物体之间关系
0:00:42.399,0:00:46.079
以及它们进化发展过程的学科
0:00:46.079,0:00:49.440
这涉及到追溯生物体进化历史
0:00:49.440,0:00:56.160
代表性的方式有分析基因或形态学的相似点
0:00:56.160,0:01:00.000
系统演化的术语你们可能并不熟悉
0:01:00.000,0:01:03.840
但我想你们可能都见过树
0:01:03.840,0:01:08.240
用于描述不同种群进化过程的树
0:01:08.240,0:01:12.720
比如人类,黑猩猩,大猩猩等等
0:01:12.720,0:01:16.240
如你所见
0:01:16.240,0:01:20.400
生物体之间的进化关系通常用树来表示
0:01:20.400,0:01:24.240
这个树就是系统演化树
0:01:25.520,0:01:29.600
树是用来描述生物体进化的基本模型
0:01:29.600,0:01:33.040
并且有各种应用
0:01:33.040,0:01:36.960
包括研究病毒的进化
0:01:36.960,0:01:42.320
有趣的是,系统演化树在非生物学科中也广泛应用
0:01:42.320,0:01:48.000
比如说要表示分层的分簇
0:01:48.000,0:01:54.640
通过从期货价格的时间序列数据来构建系统演化树
0:01:54.640,0:01:59.439
我们可以发现类似公司的簇
0:02:00.799,0:02:05.119
事实上树非常有用,因为它们很容易计算
0:02:05.119,0:02:08.959
容易画也容易说明
0:02:08.959,0:02:13.920
这就是为什么树的应用案例这么多的原因
0:02:14.879,0:02:18.640
然而树有明显的缺点
0:02:18.640,0:02:26.800
显然,它们过于简单和受限以至于不能准确表示复杂信息
0:02:26.800,0:02:33.680
这很麻烦,因为现实世界的数据几乎不能被树精确表示
0:02:33.680,0:02:36.480
而当我们分析现实世界数据时
0:02:36.480,0:02:41.120
我们必需对付其中的噪点和不确定性
0:02:41.120,0:02:48.879
为了直观感受,我们看两个简单例子
0:02:48.879,0:02:52.480
假设我们希望估算三个物种的进化
0:02:52.480,0:02:55.840
鱼,海豚和猫
0:02:55.840,0:02:58.800
第一个例子描述了这种情况
0:02:58.800,0:03:04.879
根据数据重构的图和树并不相似
0:03:04.879,0:03:07.280
原因可能是数据中的噪点和错误
0:03:07.280,0:03:12.080
但正确的进化历史应该用树表示
0:03:12.080,0:03:15.840
如实线所示
0:03:16.239,0:03:18.000
在这个例子里
0:03:18.000,0:03:21.599
即使树是一个合适的模型
0:03:21.599,0:03:27.360
我们总是需要处理这种数据里的噪点和错误
0:03:27.360,0:03:31.280
下一张图描绘了一个类似但不同的情形
0:03:31.280,0:03:37.920
想象我们有两个不同的信息源
0:03:37.920,0:03:39.519
它们是关于物种间相似点的
0:03:39.519,0:03:46.080
而其中一个来源比另一个更可信
0:03:46.080,0:03:48.879
出于表示目的
0:03:48.879,0:03:53.760
假设我们构建了两个进化树
0:03:53.760,0:03:57.840
它们分别使用来自形态学的数据和基因的数据
0:03:57.840,0:04:05.120
而重构自基因信息的树被认为是更可信的
0:04:05.120,0:04:07.239
我们姑且这么认为
0:04:07.239,0:04:09.040
根据基因数据
0:04:09.040,0:04:16.399
蓝线表示的进化设想纠正为0.9
0:04:16.399,0:04:18.880
我们知道海豚是哺乳动物
0:04:18.880,0:04:22.320
且基因上更接近猫而不是鱼
0:04:22.320,0:04:24.960
因此通过关注基因数据
0:04:24.960,0:04:29.440
我们得到这个似然为0.9的进化树
0:04:29.440,0:04:33.680
如蓝色实线所示
0:04:34.960,0:04:41.440
相反,形态学上海豚的外形明显更接近鱼类
0:04:41.440,0:04:44.960
所以如红色实线所示
0:04:44.960,0:04:47.600
形态学数据表明
0:04:47.600,0:04:50.160
其他可能性的似然值是0.1
0:04:50.160,0:04:56.400
比第一个似然值少,但不可忽略
0:04:56.400,0:05:02.800
这就是一个关于真实进化历史不确定性的案例
0:05:02.800,0:05:05.759
如第二个例子所示
0:05:05.759,0:05:12.080
一个单一的系统演化树经常不足以完全描述给定的信息
0:05:12.080,0:05:17.120
因此我们可能需要使用两个或更多具有不同权重的不相容的树
0:05:17.120,0:05:23.039
以此来准确表示复杂信息
0:05:23.280,0:05:25.120
这不是这个演讲的关注点
0:05:25.120,0:05:28.560
但我只是想提一下在这种其他情况下
0:05:28.560,0:05:32.000
系统演化树并不能很好地发挥作用
0:05:32.000,0:05:34.800
如你左侧所见的例子
0:05:34.800,0:05:40.080
新的物种从不同物种杂交中出现非常普遍
0:05:40.080,0:05:43.080
尤其是植物的案列
0:05:43.080,0:05:48.639
杂交是一个需要融合和分支的事件
0:05:48.639,0:05:54.800
因此我们不能用系统演化树来描述这一事件
0:05:54.800,0:05:56.280
除此以外
0:05:56.280,0:06:00.319
细菌和病毒中也有著名案例
0:06:00.319,0:06:04.880
它们能发生一种叫基因水平转移的事件
0:06:04.880,0:06:06.479
如你右侧所见
0:06:06.479,0:06:09.759
在大多数的动物案例中
0:06:09.759,0:06:14.880
包括人类基因,都只能从双亲向后代垂直遗传
0:06:14.880,0:06:17.560
我们都知道
0:06:17.560,0:06:22.560
我们不能从一个朋友或七个身边人那里获得一个好基因
0:06:22.560,0:06:24.800
但让我们惊讶的是
0:06:24.800,0:06:29.199
有的细菌和病毒有办法这么做
0:06:29.199,0:06:32.960
这被称为水平基因转移
0:06:32.960,0:06:38.240
是另一个已知的树状探测进化例子
0:06:38.240,0:06:42.240
在这次演讲中,我不会更深入讨论这些话题
0:06:42.240,0:06:44.880
但重要的是
0:06:44.880,0:06:50.960
生物学中有许多情况要求图结构更复杂的树
0:06:50.960,0:06:56.240
这就是为什么我们考虑系统演化网络的原因
0:06:56.240,0:06:59.840
它们是系统演化树的普遍化
0:06:59.840,0:07:04.800
网络提供一种更灵活的进化模型
0:07:04.800,0:07:07.360
因为它们不仅允许分支
0:07:07.360,0:07:12.160
还允许融合
0:07:12.160,0:07:18.720
但这并不意味着网络模型总是比树更有用
0:07:18.720,0:07:22.800
拓展系统演化树的概念是真实的
0:07:22.800,0:07:29.039
系统演化网络能表示更复杂的数据和现象
0:07:29.039,0:07:33.840
但许多系统演化网络相关的问题显示其难度为非多项式时间
0:07:33.840,0:07:37.759
并且还有许多计算问题
0:07:37.759,0:07:42.479
它们的复杂度还没有被完全知晓
0:07:43.199,0:07:47.199
这次演讲的关注点如我们之前所见
0:07:47.199,0:07:51.199
是我们想确认,在一个复杂的系统演化网络中
0:07:51.199,0:07:55.919
确认真实的树的情形
0:07:56.000,0:08:03.919
这类似于从测得的原始数据中移除噪点来提取有意义信号的想法
0:08:03.919,0:08:10.639
同样地,我们用一个系统演化网络来准确表示真实世界的数据
0:08:10.639,0:08:20.400
然后通过移除不必要的弧来估计真实的进化树,用以解释数据
0:08:20.960,0:08:27.520
有许多不同的计算问题和这一设定相关
0:08:27.520,0:08:31.440
比如最基础的决定和寻找问题
0:08:31.440,0:08:35.440
通俗地说,给定一个系统演化网络
0:08:35.440,0:08:41.519
决定问题是问该网络是否存在潜在的树
0:08:41.519,0:08:48.160
寻找问题是要求找到存在的潜在树(如存在)
0:08:48.160,0:08:55.360
如你所见同一网络中可能有不止一个潜在的树
0:08:55.360,0:09:00.800
因此计数问题问的是有多少个(这样的树)
0:09:00.800,0:09:06.720
列表问题要求生成所有或一个指定数量的潜在树
0:09:06.720,0:09:12.640
优化问题要求找到最好的
0:09:12.640,0:09:16.959
因为我到目前为止只展示了小型的例子
0:09:16.959,0:09:21.120
这些计算问题可能看起来太简单了
0:09:21.120,0:09:23.399
但看一下这个图片
0:09:23.399,0:09:28.120
如果网络的尺寸增加一点
0:09:28.120,0:09:36.320
有多少解决办法和哪个最佳就没那么明显了
0:09:36.320,0:09:39.519
我会在今天晚些时候描述这些问题
0:09:39.519,0:09:46.399
但重点是我研究的关注点并不是为每一个问题创造算法
0:09:46.399,0:09:50.320
或分析每个问题的复杂度
0:09:50.320,0:09:57.279
反而我研究的关键点是一个更普遍框架的开发
0:09:57.279,0:10:01.760
该框架将用更统一的方式解决不同问题
0:10:01.760,0:10:06.760
所以就像有限生成的阿贝群的结构定理一样
0:10:06.760,0:10:10.399
我想在代数课上学过
0:10:10.399,0:10:13.920
我证明了系统演化网络的结构定理
0:10:13.920,0:10:20.320
该定理揭示了系统演化网络
0:10:20.320,0:10:22.800
以及潜在树集合的唯一可分解结构
0:10:22.800,0:10:25.600
我将在下一次演讲中展示
0:10:25.600,0:10:29.279
系统演化网络的结构定理
0:10:29.279,0:10:37.440
立即为各种计算问题引出了一系列快速算法
0:10:38.399,0:10:42.320
那么在正式陈述那些问题之前
0:10:42.320,0:10:47.680
我将解释必要的数学术语和符号
0:10:47.680,0:10:52.160
一个图被定义为一对顶点和边的集合
0:10:52.160,0:10:58.959
如果存在一个保持毗邻的双射,两个图就被称为同构的
0:10:58.959,0:11:01.920
正如这里通俗的表述
0:11:01.920,0:11:09.200
两个图可以认为是相同的,即使它们看起来不同
0:11:10.480,0:11:17.040
这次演讲,我将交换地使用术语“图”和“网络”
0:11:17.040,0:11:20.480
这里所有的图都认为是有限的
0:11:20.480,0:11:27.320
这意味着顶点和弧的数量都是有限且简单的
0:11:27.320,0:11:33.120
也就是说没有多重弧和环
0:11:33.120,0:11:37.040
有向意味着每条边都是有方向的
0:11:37.040,0:11:40.839
而非循环意味着没有有向的循环
0:11:40.839,0:11:48.959
下面的两张示意图就是这种图的例子
0:11:49.440,0:11:54.000
如我所说一个图被定义为一对顶点和边的集合
0:11:54.000,0:11:59.279
因此一个图有一个顶点集合v和一个弧集合a
0:11:59.279,0:12:03.000
"被记为一个有序对(V,A)"
0:12:03.000,0:12:05.040
另外对于给定的图g
0:12:05.040,0:12:09.040
g的v代表g的顶点集合
0:12:09.040,0:12:14.079
而g的a代表g的弧集合
0:12:14.480,0:12:19.680
这也是一个标准的图理论上的符号
0:12:19.680,0:12:26.000
而从顶点u指向顶点v的弧
0:12:26.000,0:12:32.320
被记为(u,v)
0:12:32.320,0:12:39.440
对于任意弧a,弧a的头部意味着a到达的顶点
0:12:39.440,0:12:46.480
而a的尾部是指a始发的顶点
0:12:46.480,0:12:48.839
对于图g的一顶点v
0:12:48.839,0:12:54.639
进到v的弧的数量被称为v的入角度
0:12:54.639,0:12:59.240
类似地,从v离开的弧的数量称之为v的出角度
0:12:59.240,0:13:09.920
比如说这张示意图里顶点v有入角度1和出角度2
0:13:10.480,0:13:14.800
给定一个图,对其弧的再分割运算
0:13:14.800,0:13:18.560
由插入一个新顶点
0:13:18.560,0:13:27.600
以及用两条有向线段代替弧组成
0:13:27.600,0:13:32.519
其结果图称为原图的再分割
0:13:32.519,0:13:39.120
比如说,这样一个图h就是一个图g的再分割
0:13:39.120,0:13:43.320
弧再分割的逆运算叫做顶点平滑化
0:13:43.320,0:13:47.560
两个图会被称为同态
0:13:47.560,0:13:56.880
如果它们在平滑化所有入角度和出角度为1的顶点后同胚
0:13:57.199,0:14:01.519
比如图g和图h不是同胚的
0:14:01.519,0:14:05.519
但它们是同态的
0:14:06.560,0:14:11.120
一个图的构成是这次演讲���关键词之一
0:14:11.120,0:14:18.079
假设g是一个图且A’是其弧集合的一个子集
0:14:18.079,0:14:26.240
比如对于下面描绘的一个图g,a1是其弧集合的一个子集
0:14:26.240,0:14:36.720
因此我们选择a1,然后a1中的两条弧在图中用红色表示
0:14:36.720,0:14:39.920
g[A1]
0:14:39.920,0:14:43.199
这是一个由a1引出的图g的子集
0:14:43.199,0:14:52.519
接下来我们考虑把g的弧集合a划分为非空子集
0:14:52.519,0:15:01.279
这里我们把g的a划分为三个子集a1,a2,a3
0:15:01.279,0:15:08.720
然后每个子集引出一个图g的子图,用不同颜色表示
0:15:08.880,0:15:15.760
这三个的合集称为一个图g的构成
0:15:18.720,0:15:25.760
在这次演讲中,符合x总是表示非空有限集
0:15:25.760,0:15:31.360
它可以被解释为现有物种的一个集合
0:15:31.360,0:15:37.839
集合x有时被称为标签集合或叶集合
0:15:38.240,0:15:44.160
所以我们现在声明系统演化树和系统演化网络的定义
0:15:44.160,0:15:46.399
这里我们先定义系统演化网络
0:15:46.399,0:15:52.000
因为系统演化树只是其中的一个特殊案例
0:15:52.000,0:16:00.399
所以一个系统演化网络,更官方的说法是一个有根的二叉系统演化x网络
0:16:00.399,0:16:03.000
或者在x上的系统演化网络
0:16:03.000,0:16:07.600
被定义为任何有向非循环图n
0:16:07.600,0:16:11.680
其具有一些三点属性
0:16:11.680,0:16:22.160
首先,在x的标签和n的叶集合之间存在着一一对应
0:16:22.160,0:16:29.120
第二,n有一个唯一的通路其入角度为0
0:16:29.360,0:16:38.959
第三,任何其他顶点都具有入角度1和出角度2,或入角度2出角度1
0:16:38.959,0:16:46.639
一个入角度2出角度1的顶点称为n的网状顶点
0:16:46.639,0:16:50.000
如果一个n没有网状顶点
0:16:50.000,0:16:57.680
它就会被特别地称为一个有根的二叉系统演化x树或在x上的树
0:16:57.680,0:17:01.120
在这次演讲中我们省略有根二叉等描述
0:17:01.120,0:17:04.720
因为我们只考虑这种网络
0:17:04.720,0:17:08.000
为了符号简洁,我们使用符合tx和nx
0:17:08.000,0:17:15.439
来表示所有有根二叉系统演化x树和网络的合集
0:17:15.439,0:17:23.359
好的,那么我们已经定义了系统演化树以及它的普遍化情况系统演化网络
0:17:23.359,0:17:28.559
系统演化网络有许多子类别
0:17:28.559,0:17:35.440
但在这次演讲中我们只讨论关于基于树的网络的问题
0:17:37.039,0:17:42.000
这里展示的是基于树的网络
0:17:42.320,0:17:43.880
正如名字描述的
0:17:43.880,0:17:51.360
基于树的网络是可以从一个系统演化树获得的系统演化网络
0:17:51.360,0:17:54.400
它们很容易构造
0:17:54.400,0:18:03.360
我们首先挑选任意有根二叉系统演化树作为基础起始树
0:18:03.360,0:18:07.280
然后如果我们再分割基础树的弧
0:18:07.280,0:18:12.320
那么新的顶点就出现了
0:18:12.559,0:18:16.160
像这样,它们就是新顶点
0:18:16.160,0:18:19.280
然后我们在它们之间放置额外的弧
0:18:19.280,0:18:23.679
并且在可以的地方进行顶点平滑化运算
0:18:23.679,0:18:28.880
得到的系统演化网络称为基于树的网络
0:18:28.880,0:18:37.360
因此它们可以被直觉地理解为一个系统演化树加上额外的噪点
0:18:37.360,0:18:38.520
这个定义很合理
0:18:38.520,0:18:45.120
但在这次演讲中,我会使用另一个作为接下来等效的定义
0:18:45.120,0:18:50.480
假设n是一个有根二叉系统演化x网络
0:18:50.480,0:18:55.760
而t’也是一个有根二叉系统演化x网络
0:18:55.760,0:18:56.880
这两个x是一样的
0:18:56.880,0:19:03.520
那么如果有一个张成的树t是t’的再分割
0:19:03.520,0:19:12.559
那么n就被称为一个基于树的网络,而t被称为n的再分割树
0:19:12.559,0:19:17.000
回忆一下之前关于鱼类,海豚和猫的进化例子
0:19:17.000,0:19:21.280
我们可以得知n的一个再分割树
0:19:21.280,0:19:27.039
只不过是不类树数据下潜在的一个树
0:19:27.039,0:19:33.360
这里,在基于树的网络和再分割树上,有一些重要的注意点
0:19:34.080,0:19:40.559
首先,基于树的网络表现了系统演化网络的一个适当子类别
0:19:40.559,0:19:41.280
换句话说
0:19:41.280,0:19:48.559
存在一个不具有再分割树的系统演化网络
0:19:48.559,0:19:52.679
右边的网络就是一个这样的网络例子
0:19:52.679,0:19:56.160
通过这次观察,很自然地会问
0:19:56.160,0:19:58.600
给定一个系统演化网络n
0:19:58.600,0:20:02.919
如何确定n是否是基于树的
0:20:02.919,0:20:08.720
还有,如果n是基于树的,如何找到n的再分割树
0:20:08.720,0:20:14.320
这就是决定问题和寻找问题要求得的
0:20:14.720,0:20:17.280
第二个注意点是
0:20:17.280,0:20:22.240
任何系统演化网络可以被转化成基于树的网络
0:20:22.240,0:20:26.960
方法是通过附加额外的叶
0:20:28.080,0:20:32.840
这次观察引出了下面这个多变的决定问题,我称之为
0:20:32.840,0:20:37.919
偏差量化问题
0:20:37.919,0:20:39.640
这里的问题是
0:20:39.640,0:20:45.360
如何度量和基于树的网络之间的偏差
0:20:45.360,0:20:48.240
偏差度量差
0:20:48.240,0:20:53.640
被定义为额外叶所需的最小入口数
0:20:53.640,0:20:57.400
这个问题是之前决定问题的变体
0:20:57.400,0:20:59.919
在决定问题中
0:20:59.919,0:21:03.919
唯一的问题是目标网络是不是基于树的
0:21:03.919,0:21:06.960
所以回答是“是”或“否”
0:21:06.960,0:21:08.440
但在这个问题里
0:21:08.440,0:21:10.400
如果网络不是基于树的
0:21:10.400,0:21:13.360
我们想评估,或者说我们想量化
0:21:13.360,0:21:17.000
该网络和基于树的情况有多少偏差
0:21:17.000,0:21:21.760
最后的注意点是
0:21:21.760,0:21:27.200
如我所说,基于树的网络可以有很多再分割树
0:21:27.200,0:21:29.480
这个例子只����个
0:21:29.480,0:21:36.159
但一般来说再分割树的数量是指数级大小
0:21:36.159,0:21:39.840
因此很自然地会问,如何计算数字alpha
0:21:39.840,0:21:46.400
这就是计数问题想要求得的
0:21:46.799,0:21:54.400
同样的,一个列表问题要求计算一列n的所有再分割树
0:21:54.960,0:21:58.080
至今为止,我们只考虑了这种情况下的问题
0:21:58.080,0:22:01.760
就是输入网络是无权重的情况
0:22:01.760,0:22:04.240
但我在开始提过
0:22:04.240,0:22:09.679
考虑优化问题也很有趣
0:22:09.679,0:22:14.440
这是在基于每条弧都有一个正权重值的情况下
0:22:14.440,0:22:16.320
比如说概率
0:22:16.320,0:22:23.440
并且我们想最大化一些目标函数,比如似然函数或者对数似然函数
0:22:23.440,0:22:27.280
在优化问题上没有前作
0:22:27.280,0:22:30.320
但考虑到alpha可以是指数级的
0:22:30.320,0:22:36.799
我们可以立即得知,一个简单的方式也要花费指数级的时间
0:22:37.280,0:22:41.919
最后一个问题是优化问题
0:22:41.919,0:22:45.840
列举问题和列表问题的组合
0:22:45.840,0:22:54.960
在很多实际情况中,目标函数的值可以在第一,第二,第三直到第k个位置都几乎相同
0:22:54.960,0:22:56.600
在这种情况下
0:22:56.600,0:23:00.760
只计算一个最优树并不是一个好想法
0:23:00.760,0:23:04.240
因为这会忽略所有相近的最优解
0:23:04.240,0:23:08.880
这些最优解在生物学上可能是有长远意义的
0:23:08.880,0:23:11.360
因此考虑如何计算基于树的网络的前k个排名
0:23:11.360,0:23:16.960
是有意义的
0:23:18.480,0:23:20.039
来回顾一下今天的演讲
0:23:20.039,0:23:24.360
我们学习了系统演化树和网络的定义
0:23:24.360,0:23:29.679
以及基于树的网络和再分割树的概念
0:23:29.679,0:23:33.120
然后我们看了各种计算问题
0:23:33.120,0:23:41.120
它们是关于在复杂的系统演化网络中找到真实的进化树的
0:23:41.440,0:23:43.840
好了,今天的演讲到此结束
0:23:43.840,0:23:48.559
下一个视频我会向你们展��用于系统演化网络的结构定理
0:23:48.559,0:24:00.559
它会解决我们今天讨论的所有问题