~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/weave.py

  • Committer: Martin Pool
  • Date: 2005-09-12 09:50:44 UTC
  • Revision ID: mbp@sourcefrog.net-20050912095044-6acfdb5611729987
- no tests in bzrlib.fetch anymore

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
#! /usr/bin/python
 
2
 
 
3
# Copyright (C) 2005 Canonical Ltd
 
4
 
 
5
# This program is free software; you can redistribute it and/or modify
 
6
# it under the terms of the GNU General Public License as published by
 
7
# the Free Software Foundation; either version 2 of the License, or
 
8
# (at your option) any later version.
 
9
 
 
10
# This program is distributed in the hope that it will be useful,
 
11
# but WITHOUT ANY WARRANTY; without even the implied warranty of
 
12
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 
13
# GNU General Public License for more details.
 
14
 
 
15
# You should have received a copy of the GNU General Public License
 
16
# along with this program; if not, write to the Free Software
 
17
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
18
 
 
19
# Author: Martin Pool <mbp@canonical.com>
 
20
 
 
21
 
 
22
"""Weave - storage of related text file versions"""
 
23
 
 
24
# before intset (r923) 2000 versions in 41.5s
 
25
# with intset (r926) 2000 versions in 93s !!!
 
26
# better to just use plain sets.
 
27
 
 
28
# making _extract build and return a list, rather than being a generator
 
29
# takes 37.94s
 
30
 
 
31
# with python -O, r923 does 2000 versions in 36.87s
 
32
 
 
33
# with optimizations to avoid mutating lists - 35.75!  I guess copying
 
34
# all the elements every time costs more than the small manipulations.
 
35
# a surprisingly small change.
 
36
 
 
37
# r931, which avoids using a generator for extract, does 36.98s
 
38
 
 
39
# with memoized inclusions, takes 41.49s; not very good
 
40
 
 
41
# with slots, takes 37.35s; without takes 39.16, a bit surprising
 
42
 
 
43
# with the delta calculation mixed in with the add method, rather than
 
44
# separated, takes 36.78s
 
45
 
 
46
# with delta folded in and mutation of the list, 36.13s
 
47
 
 
48
# with all this and simplification of add code, 33s
 
49
 
 
50
 
 
51
 
 
52
 
 
53
 
 
54
# TODO: Perhaps have copy method for Weave instances?
 
55
 
 
56
# XXX: If we do weaves this way, will a merge still behave the same
 
57
# way if it's done in a different order?  That's a pretty desirable
 
58
# property.
 
59
 
 
60
# TODO: Nothing here so far assumes the lines are really \n newlines,
 
61
# rather than being split up in some other way.  We could accomodate
 
62
# binaries, perhaps by naively splitting on \n or perhaps using
 
63
# something like a rolling checksum.
 
64
 
 
65
# TODO: End marker for each version so we can stop reading?
 
66
 
 
67
# TODO: Check that no insertion occurs inside a deletion that was
 
68
# active in the version of the insertion.
 
69
 
 
70
# TODO: In addition to the SHA-1 check, perhaps have some code that
 
71
# checks structural constraints of the weave: ie that insertions are
 
72
# properly nested, that there is no text outside of an insertion, that
 
73
# insertions or deletions are not repeated, etc.
 
74
 
 
75
# TODO: Parallel-extract that passes back each line along with a
 
76
# description of which revisions include it.  Nice for checking all
 
77
# shas in parallel.
 
78
 
 
79
# TODO: Using a single _extract routine and then processing the output
 
80
# is probably inefficient.  It's simple enough that we can afford to
 
81
# have slight specializations for different ways its used: annotate,
 
82
# basis for add, get, etc.
 
83
 
 
84
# TODO: Perhaps the API should work only in names to hide the integer
 
85
# indexes from the user?
 
86
 
 
87
 
 
88
 
 
89
import sha
 
90
from cStringIO import StringIO
 
91
 
 
92
 
 
93
class WeaveError(Exception):
 
94
    """Exception in processing weave"""
 
95
 
 
96
 
 
97
class WeaveFormatError(WeaveError):
 
98
    """Weave invariant violated"""
 
99
    
 
100
 
 
101
class Weave(object):
 
102
    """weave - versioned text file storage.
 
103
    
 
104
    A Weave manages versions of line-based text files, keeping track
 
105
    of the originating version for each line.
 
106
 
 
107
    To clients the "lines" of the file are represented as a list of strings.
 
108
    These strings  will typically have terminal newline characters, but
 
109
    this is not required.  In particular files commonly do not have a newline
 
110
    at the end of the file.
 
111
 
 
112
    Texts can be identified in either of two ways:
 
113
 
 
114
    * a nonnegative index number.
 
115
 
 
116
    * a version-id string. (not implemented yet)
 
117
 
 
118
    Typically the index number will be valid only inside this weave and
 
119
    the version-id is used to reference it in the larger world.
 
120
 
 
121
    The weave is represented as a list mixing edit instructions and
 
122
    literal text.  Each entry in _weave can be either a string (or
 
123
    unicode), or a tuple.  If a string, it means that the given line
 
124
    should be output in the currently active revisions.
 
125
 
 
126
    If a tuple, it gives a processing instruction saying in which
 
127
    revisions the enclosed lines are active.  The tuple has the form
 
128
    (instruction, version).
 
129
 
 
130
    The instruction can be '{' or '}' for an insertion block, and '['
 
131
    and ']' for a deletion block respectively.  The version is the
 
132
    integer version index.  There is no replace operator, only deletes
 
133
    and inserts.  For '}', the end of an insertion, there is no
 
134
    version parameter because it always closes the most recently
 
135
    opened insertion.
 
136
 
 
137
    Constraints/notes:
 
138
 
 
139
    * A later version can delete lines that were introduced by any
 
140
      number of ancestor versions; this implies that deletion
 
141
      instructions can span insertion blocks without regard to the
 
142
      insertion block's nesting.
 
143
 
 
144
    * Similarly, deletions need not be properly nested with regard to
 
145
      each other, because they might have been generated by
 
146
      independent revisions.
 
147
 
 
148
    * Insertions are always made by inserting a new bracketed block
 
149
      into a single point in the previous weave.  This implies they
 
150
      can nest but not overlap, and the nesting must always have later
 
151
      insertions on the inside.
 
152
 
 
153
    * It doesn't seem very useful to have an active insertion
 
154
      inside an inactive insertion, but it might happen.
 
155
      
 
156
    * Therefore, all instructions are always"considered"; that
 
157
      is passed onto and off the stack.  An outer inactive block
 
158
      doesn't disable an inner block.
 
159
 
 
160
    * Lines are enabled if the most recent enclosing insertion is
 
161
      active and none of the enclosing deletions are active.
 
162
 
 
163
    * There is no point having a deletion directly inside its own
 
164
      insertion; you might as well just not write it.  And there
 
165
      should be no way to get an earlier version deleting a later
 
166
      version.
 
167
 
 
168
    _weave
 
169
        Text of the weave; list of control instruction tuples and strings.
 
170
 
 
171
    _parents
 
172
        List of parents, indexed by version number.
 
173
        It is only necessary to store the minimal set of parents for
 
174
        each version; the parent's parents are implied.
 
175
 
 
176
    _sha1s
 
177
        List of hex SHA-1 of each version.
 
178
 
 
179
    _names
 
180
        List of symbolic names for each version.  Each should be unique.
 
181
 
 
182
    _name_map
 
183
        For each name, the version number.
 
184
 
 
185
    _weave_name
 
186
        Descriptive name of this weave; typically the filename if known.
 
187
        Set by read_weave.
 
188
    """
 
189
 
 
190
    __slots__ = ['_weave', '_parents', '_sha1s', '_names', '_name_map',
 
191
                 '_weave_name']
 
192
    
 
193
    def __init__(self, weave_name=None):
 
194
        self._weave = []
 
195
        self._parents = []
 
196
        self._sha1s = []
 
197
        self._names = []
 
198
        self._name_map = {}
 
199
        self._weave_name = weave_name
 
200
 
 
201
 
 
202
    def __eq__(self, other):
 
203
        if not isinstance(other, Weave):
 
204
            return False
 
205
        return self._parents == other._parents \
 
206
               and self._weave == other._weave \
 
207
               and self._sha1s == other._sha1s 
 
208
 
 
209
    
 
210
    def __ne__(self, other):
 
211
        return not self.__eq__(other)
 
212
 
 
213
 
 
214
    def lookup(self, name):
 
215
        try:
 
216
            return self._name_map[name]
 
217
        except KeyError:
 
218
            raise WeaveError("name %s not present in weave %s" %
 
219
                             (name, self._weave_name))
 
220
 
 
221
        
 
222
    def add(self, name, parents, text):
 
223
        """Add a single text on top of the weave.
 
224
  
 
225
        Returns the index number of the newly added version.
 
226
 
 
227
        name
 
228
            Symbolic name for this version.
 
229
            (Typically the revision-id of the revision that added it.)
 
230
 
 
231
        parents
 
232
            List or set of direct parent version numbers.
 
233
            
 
234
        text
 
235
            Sequence of lines to be added in the new version."""
 
236
 
 
237
        assert isinstance(name, basestring)
 
238
        if name in self._name_map:
 
239
            raise WeaveError("name %r already present in weave" % name)
 
240
        
 
241
        self._check_versions(parents)
 
242
        ## self._check_lines(text)
 
243
        new_version = len(self._parents)
 
244
 
 
245
        s = sha.new()
 
246
        map(s.update, text)
 
247
        sha1 = s.hexdigest()
 
248
        del s
 
249
 
 
250
        # if we abort after here the (in-memory) weave will be corrupt because only
 
251
        # some fields are updated
 
252
        self._parents.append(parents[:])
 
253
        self._sha1s.append(sha1)
 
254
        self._names.append(name)
 
255
        self._name_map[name] = new_version
 
256
 
 
257
            
 
258
        if not parents:
 
259
            # special case; adding with no parents revision; can do
 
260
            # this more quickly by just appending unconditionally.
 
261
            # even more specially, if we're adding an empty text we
 
262
            # need do nothing at all.
 
263
            if text:
 
264
                self._weave.append(('{', new_version))
 
265
                self._weave.extend(text)
 
266
                self._weave.append(('}', None))
 
267
        
 
268
            return new_version
 
269
 
 
270
        if len(parents) == 1:
 
271
            pv = list(parents)[0]
 
272
            if sha1 == self._sha1s[pv]:
 
273
                # special case: same as the single parent
 
274
                return new_version
 
275
            
 
276
 
 
277
        ancestors = self.inclusions(parents)
 
278
 
 
279
        l = self._weave
 
280
 
 
281
        # basis a list of (origin, lineno, line)
 
282
        basis_lineno = []
 
283
        basis_lines = []
 
284
        for origin, lineno, line in self._extract(ancestors):
 
285
            basis_lineno.append(lineno)
 
286
            basis_lines.append(line)
 
287
 
 
288
        # another small special case: a merge, producing the same text
 
289
        # as auto-merge
 
290
        if text == basis_lines:
 
291
            return new_version            
 
292
 
 
293
        # add a sentinal, because we can also match against the final line
 
294
        basis_lineno.append(len(self._weave))
 
295
 
 
296
        # XXX: which line of the weave should we really consider
 
297
        # matches the end of the file?  the current code says it's the
 
298
        # last line of the weave?
 
299
 
 
300
        #print 'basis_lines:', basis_lines
 
301
        #print 'new_lines:  ', lines
 
302
 
 
303
        from difflib import SequenceMatcher
 
304
        s = SequenceMatcher(None, basis_lines, text)
 
305
 
 
306
        # offset gives the number of lines that have been inserted
 
307
        # into the weave up to the current point; if the original edit instruction
 
308
        # says to change line A then we actually change (A+offset)
 
309
        offset = 0
 
310
 
 
311
        for tag, i1, i2, j1, j2 in s.get_opcodes():
 
312
            # i1,i2 are given in offsets within basis_lines; we need to map them
 
313
            # back to offsets within the entire weave
 
314
            #print 'raw match', tag, i1, i2, j1, j2
 
315
            if tag == 'equal':
 
316
                continue
 
317
 
 
318
            i1 = basis_lineno[i1]
 
319
            i2 = basis_lineno[i2]
 
320
 
 
321
            assert 0 <= j1 <= j2 <= len(text)
 
322
 
 
323
            #print tag, i1, i2, j1, j2
 
324
 
 
325
            # the deletion and insertion are handled separately.
 
326
            # first delete the region.
 
327
            if i1 != i2:
 
328
                self._weave.insert(i1+offset, ('[', new_version))
 
329
                self._weave.insert(i2+offset+1, (']', new_version))
 
330
                offset += 2
 
331
 
 
332
            if j1 != j2:
 
333
                # there may have been a deletion spanning up to
 
334
                # i2; we want to insert after this region to make sure
 
335
                # we don't destroy ourselves
 
336
                i = i2 + offset
 
337
                self._weave[i:i] = ([('{', new_version)] 
 
338
                                    + text[j1:j2] 
 
339
                                    + [('}', None)])
 
340
                offset += 2 + (j2 - j1)
 
341
 
 
342
        return new_version
 
343
 
 
344
 
 
345
    def inclusions(self, versions):
 
346
        """Return set of all ancestors of given version(s)."""
 
347
        i = set(versions)
 
348
        v = max(versions)
 
349
        try:
 
350
            while v >= 0:
 
351
                if v in i:
 
352
                    # include all its parents
 
353
                    i.update(self._parents[v])
 
354
                v -= 1
 
355
            return i
 
356
        except IndexError:
 
357
            raise ValueError("version %d not present in weave" % v)
 
358
 
 
359
 
 
360
    def minimal_parents(self, version):
 
361
        """Find the minimal set of parents for the version."""
 
362
        included = self._parents[version]
 
363
        if not included:
 
364
            return []
 
365
        
 
366
        li = list(included)
 
367
        li.sort(reverse=True)
 
368
 
 
369
        mininc = []
 
370
        gotit = set()
 
371
 
 
372
        for pv in li:
 
373
            if pv not in gotit:
 
374
                mininc.append(pv)
 
375
                gotit.update(self.inclusions(pv))
 
376
 
 
377
        assert mininc[0] >= 0
 
378
        assert mininc[-1] < version
 
379
        return mininc
 
380
 
 
381
 
 
382
 
 
383
    def _check_lines(self, text):
 
384
        if not isinstance(text, list):
 
385
            raise ValueError("text should be a list, not %s" % type(text))
 
386
 
 
387
        for l in text:
 
388
            if not isinstance(l, basestring):
 
389
                raise ValueError("text line should be a string or unicode, not %s"
 
390
                                 % type(l))
 
391
        
 
392
 
 
393
 
 
394
    def _check_versions(self, indexes):
 
395
        """Check everything in the sequence of indexes is valid"""
 
396
        for i in indexes:
 
397
            try:
 
398
                self._parents[i]
 
399
            except IndexError:
 
400
                raise IndexError("invalid version number %r" % i)
 
401
 
 
402
    
 
403
    def annotate(self, index):
 
404
        return list(self.annotate_iter(index))
 
405
 
 
406
 
 
407
    def annotate_iter(self, version):
 
408
        """Yield list of (index-id, line) pairs for the specified version.
 
409
 
 
410
        The index indicates when the line originated in the weave."""
 
411
        for origin, lineno, text in self._extract([version]):
 
412
            yield origin, text
 
413
 
 
414
 
 
415
    def _walk(self):
 
416
        """Walk the weave.
 
417
 
 
418
        Yields sequence of
 
419
        (lineno, insert, deletes, text)
 
420
        for each literal line.
 
421
        """
 
422
        
 
423
        istack = []
 
424
        dset = set()
 
425
 
 
426
        lineno = 0         # line of weave, 0-based
 
427
 
 
428
        for l in self._weave:
 
429
            if isinstance(l, tuple):
 
430
                c, v = l
 
431
                isactive = None
 
432
                if c == '{':
 
433
                    istack.append(v)
 
434
                elif c == '}':
 
435
                    istack.pop()
 
436
                elif c == '[':
 
437
                    assert v not in dset
 
438
                    dset.add(v)
 
439
                elif c == ']':
 
440
                    dset.remove(v)
 
441
                else:
 
442
                    raise WeaveFormatError('unexpected instruction %r'
 
443
                                           % v)
 
444
            else:
 
445
                assert isinstance(l, basestring)
 
446
                assert istack
 
447
                yield lineno, istack[-1], dset, l
 
448
            lineno += 1
 
449
 
 
450
 
 
451
 
 
452
    def _extract(self, versions):
 
453
        """Yield annotation of lines in included set.
 
454
 
 
455
        Yields a sequence of tuples (origin, lineno, text), where
 
456
        origin is the origin version, lineno the index in the weave,
 
457
        and text the text of the line.
 
458
 
 
459
        The set typically but not necessarily corresponds to a version.
 
460
        """
 
461
        for i in versions:
 
462
            if not isinstance(i, int):
 
463
                raise ValueError(i)
 
464
            
 
465
        included = self.inclusions(versions)
 
466
 
 
467
        istack = []
 
468
        dset = set()
 
469
 
 
470
        lineno = 0         # line of weave, 0-based
 
471
 
 
472
        isactive = None
 
473
 
 
474
        result = []
 
475
 
 
476
        WFE = WeaveFormatError
 
477
 
 
478
        for l in self._weave:
 
479
            if isinstance(l, tuple):
 
480
                c, v = l
 
481
                isactive = None
 
482
                if c == '{':
 
483
                    assert v not in istack
 
484
                    istack.append(v)
 
485
                elif c == '}':
 
486
                    istack.pop()
 
487
                elif c == '[':
 
488
                    if v in included:
 
489
                        assert v not in dset
 
490
                        dset.add(v)
 
491
                else:
 
492
                    assert c == ']'
 
493
                    if v in included:
 
494
                        assert v in dset
 
495
                        dset.remove(v)
 
496
            else:
 
497
                assert isinstance(l, basestring)
 
498
                if isactive is None:
 
499
                    isactive = (not dset) and istack and (istack[-1] in included)
 
500
                if isactive:
 
501
                    result.append((istack[-1], lineno, l))
 
502
            lineno += 1
 
503
 
 
504
        if istack:
 
505
            raise WFE("unclosed insertion blocks at end of weave",
 
506
                                   istack)
 
507
        if dset:
 
508
            raise WFE("unclosed deletion blocks at end of weave",
 
509
                                   dset)
 
510
 
 
511
        return result
 
512
    
 
513
 
 
514
 
 
515
    def get_iter(self, version):
 
516
        """Yield lines for the specified version."""
 
517
        for origin, lineno, line in self._extract([version]):
 
518
            yield line
 
519
 
 
520
 
 
521
    def get_text(self, version):
 
522
        assert isinstance(version, int)
 
523
        s = StringIO()
 
524
        s.writelines(self.get_iter(version))
 
525
        return s.getvalue()
 
526
 
 
527
 
 
528
    def get(self, index):
 
529
        return list(self.get_iter(index))
 
530
 
 
531
 
 
532
    def mash_iter(self, included):
 
533
        """Return composed version of multiple included versions."""
 
534
        for origin, lineno, text in self._extract(included):
 
535
            yield text
 
536
 
 
537
 
 
538
    def dump(self, to_file):
 
539
        from pprint import pprint
 
540
        print >>to_file, "Weave._weave = ",
 
541
        pprint(self._weave, to_file)
 
542
        print >>to_file, "Weave._parents = ",
 
543
        pprint(self._parents, to_file)
 
544
 
 
545
 
 
546
 
 
547
    def numversions(self):
 
548
        l = len(self._parents)
 
549
        assert l == len(self._sha1s)
 
550
        return l
 
551
 
 
552
 
 
553
    def __len__(self):
 
554
        return self.numversions()
 
555
 
 
556
 
 
557
    def check(self, progress_bar=None):
 
558
        # check no circular inclusions
 
559
        for version in range(self.numversions()):
 
560
            inclusions = list(self._parents[version])
 
561
            if inclusions:
 
562
                inclusions.sort()
 
563
                if inclusions[-1] >= version:
 
564
                    raise WeaveFormatError("invalid included version %d for index %d"
 
565
                                           % (inclusions[-1], version))
 
566
 
 
567
        # try extracting all versions; this is a bit slow and parallel
 
568
        # extraction could be used
 
569
        nv = self.numversions()
 
570
        for version in range(nv):
 
571
            if progress_bar:
 
572
                progress_bar.update('checking text', version, nv)
 
573
            s = sha.new()
 
574
            for l in self.get_iter(version):
 
575
                s.update(l)
 
576
            hd = s.hexdigest()
 
577
            expected = self._sha1s[version]
 
578
            if hd != expected:
 
579
                raise WeaveError("mismatched sha1 for version %d; "
 
580
                                 "got %s, expected %s"
 
581
                                 % (version, hd, expected))
 
582
 
 
583
        # TODO: check insertions are properly nested, that there are
 
584
        # no lines outside of insertion blocks, that deletions are
 
585
        # properly paired, etc.
 
586
 
 
587
 
 
588
 
 
589
    def merge(self, merge_versions):
 
590
        """Automerge and mark conflicts between versions.
 
591
 
 
592
        This returns a sequence, each entry describing alternatives
 
593
        for a chunk of the file.  Each of the alternatives is given as
 
594
        a list of lines.
 
595
 
 
596
        If there is a chunk of the file where there's no diagreement,
 
597
        only one alternative is given.
 
598
        """
 
599
 
 
600
        # approach: find the included versions common to all the
 
601
        # merged versions
 
602
        raise NotImplementedError()
 
603
 
 
604
 
 
605
 
 
606
    def _delta(self, included, lines):
 
607
        """Return changes from basis to new revision.
 
608
 
 
609
        The old text for comparison is the union of included revisions.
 
610
 
 
611
        This is used in inserting a new text.
 
612
 
 
613
        Delta is returned as a sequence of
 
614
        (weave1, weave2, newlines).
 
615
 
 
616
        This indicates that weave1:weave2 of the old weave should be
 
617
        replaced by the sequence of lines in newlines.  Note that
 
618
        these line numbers are positions in the total weave and don't
 
619
        correspond to the lines in any extracted version, or even the
 
620
        extracted union of included versions.
 
621
 
 
622
        If line1=line2, this is a pure insert; if newlines=[] this is a
 
623
        pure delete.  (Similar to difflib.)
 
624
        """
 
625
 
 
626
 
 
627
            
 
628
    def plan_merge(self, ver_a, ver_b):
 
629
        """Return pseudo-annotation indicating how the two versions merge.
 
630
 
 
631
        This is computed between versions a and b and their common
 
632
        base.
 
633
 
 
634
        Weave lines present in none of them are skipped entirely.
 
635
        """
 
636
        inc_a = self.inclusions([ver_a])
 
637
        inc_b = self.inclusions([ver_b])
 
638
        inc_c = inc_a & inc_b
 
639
 
 
640
        for lineno, insert, deleteset, line in self._walk():
 
641
            if deleteset & inc_c:
 
642
                # killed in parent; can't be in either a or b
 
643
                # not relevant to our work
 
644
                yield 'killed-base', line
 
645
            elif insert in inc_c:
 
646
                # was inserted in base
 
647
                killed_a = bool(deleteset & inc_a)
 
648
                killed_b = bool(deleteset & inc_b)
 
649
                if killed_a and killed_b:
 
650
                    yield 'killed-both', line
 
651
                elif killed_a:
 
652
                    yield 'killed-a', line
 
653
                elif killed_b:
 
654
                    yield 'killed-b', line
 
655
                else:
 
656
                    yield 'unchanged', line
 
657
            elif insert in inc_a:
 
658
                if deleteset & inc_a:
 
659
                    yield 'ghost-a', line
 
660
                else:
 
661
                    # new in A; not in B
 
662
                    yield 'new-a', line
 
663
            elif insert in inc_b:
 
664
                if deleteset & inc_b:
 
665
                    yield 'ghost-b', line
 
666
                else:
 
667
                    yield 'new-b', line
 
668
            else:
 
669
                # not in either revision
 
670
                yield 'irrelevant', line
 
671
 
 
672
        yield 'unchanged', ''           # terminator
 
673
 
 
674
 
 
675
 
 
676
    def weave_merge(self, plan):
 
677
        lines_a = []
 
678
        lines_b = []
 
679
        ch_a = ch_b = False
 
680
 
 
681
        for state, line in plan:
 
682
            if state == 'unchanged' or state == 'killed-both':
 
683
                # resync and flush queued conflicts changes if any
 
684
                if not lines_a and not lines_b:
 
685
                    pass
 
686
                elif ch_a and not ch_b:
 
687
                    # one-sided change:                    
 
688
                    for l in lines_a: yield l
 
689
                elif ch_b and not ch_a:
 
690
                    for l in lines_b: yield l
 
691
                elif lines_a == lines_b:
 
692
                    for l in lines_a: yield l
 
693
                else:
 
694
                    yield '<<<<\n'
 
695
                    for l in lines_a: yield l
 
696
                    yield '====\n'
 
697
                    for l in lines_b: yield l
 
698
                    yield '>>>>\n'
 
699
 
 
700
                del lines_a[:]
 
701
                del lines_b[:]
 
702
                ch_a = ch_b = False
 
703
                
 
704
            if state == 'unchanged':
 
705
                if line:
 
706
                    yield line
 
707
            elif state == 'killed-a':
 
708
                ch_a = True
 
709
                lines_b.append(line)
 
710
            elif state == 'killed-b':
 
711
                ch_b = True
 
712
                lines_a.append(line)
 
713
            elif state == 'new-a':
 
714
                ch_a = True
 
715
                lines_a.append(line)
 
716
            elif state == 'new-b':
 
717
                ch_b = True
 
718
                lines_b.append(line)
 
719
            else:
 
720
                assert state in ('irrelevant', 'ghost-a', 'ghost-b', 'killed-base',
 
721
                                 'killed-both'), \
 
722
                       state
 
723
 
 
724
                
 
725
 
 
726
 
 
727
 
 
728
 
 
729
 
 
730
def weave_toc(w):
 
731
    """Show the weave's table-of-contents"""
 
732
    print '%6s %50s %10s %10s' % ('ver', 'name', 'sha1', 'parents')
 
733
    for i in (6, 50, 10, 10):
 
734
        print '-' * i,
 
735
    print
 
736
    for i in range(w.numversions()):
 
737
        sha1 = w._sha1s[i]
 
738
        name = w._names[i]
 
739
        parent_str = ' '.join(map(str, w._parents[i]))
 
740
        print '%6d %-50.50s %10.10s %s' % (i, name, sha1, parent_str)
 
741
 
 
742
 
 
743
 
 
744
def weave_stats(weave_file):
 
745
    from bzrlib.progress import ProgressBar
 
746
    from bzrlib.weavefile import read_weave
 
747
 
 
748
    pb = ProgressBar()
 
749
 
 
750
    wf = file(weave_file, 'rb')
 
751
    w = read_weave(wf)
 
752
    # FIXME: doesn't work on pipes
 
753
    weave_size = wf.tell()
 
754
 
 
755
    total = 0
 
756
    vers = len(w)
 
757
    for i in range(vers):
 
758
        pb.update('checking sizes', i, vers)
 
759
        for line in w.get_iter(i):
 
760
            total += len(line)
 
761
 
 
762
    pb.clear()
 
763
 
 
764
    print 'versions          %9d' % vers
 
765
    print 'weave file        %9d bytes' % weave_size
 
766
    print 'total contents    %9d bytes' % total
 
767
    print 'compression ratio %9.2fx' % (float(total) / float(weave_size))
 
768
    if vers:
 
769
        avg = total/vers
 
770
        print 'average size      %9d bytes' % avg
 
771
        print 'relative size     %9.2fx' % (float(weave_size) / float(avg))
 
772
 
 
773
 
 
774
def usage():
 
775
    print """bzr weave tool
 
776
 
 
777
Experimental tool for weave algorithm.
 
778
 
 
779
usage:
 
780
    weave init WEAVEFILE
 
781
        Create an empty weave file
 
782
    weave get WEAVEFILE VERSION
 
783
        Write out specified version.
 
784
    weave check WEAVEFILE
 
785
        Check consistency of all versions.
 
786
    weave toc WEAVEFILE
 
787
        Display table of contents.
 
788
    weave add WEAVEFILE NAME [BASE...] < NEWTEXT
 
789
        Add NEWTEXT, with specified parent versions.
 
790
    weave annotate WEAVEFILE VERSION
 
791
        Display origin of each line.
 
792
    weave mash WEAVEFILE VERSION...
 
793
        Display composite of all selected versions.
 
794
    weave merge WEAVEFILE VERSION1 VERSION2 > OUT
 
795
        Auto-merge two versions and display conflicts.
 
796
 
 
797
example:
 
798
 
 
799
    % weave init foo.weave
 
800
    % vi foo.txt
 
801
    % weave add foo.weave ver0 < foo.txt
 
802
    added version 0
 
803
 
 
804
    (create updated version)
 
805
    % vi foo.txt
 
806
    % weave get foo.weave 0 | diff -u - foo.txt
 
807
    % weave add foo.weave ver1 0 < foo.txt
 
808
    added version 1
 
809
 
 
810
    % weave get foo.weave 0 > foo.txt       (create forked version)
 
811
    % vi foo.txt
 
812
    % weave add foo.weave ver2 0 < foo.txt
 
813
    added version 2
 
814
 
 
815
    % weave merge foo.weave 1 2 > foo.txt   (merge them)
 
816
    % vi foo.txt                            (resolve conflicts)
 
817
    % weave add foo.weave merged 1 2 < foo.txt     (commit merged version)     
 
818
    
 
819
"""
 
820
    
 
821
 
 
822
 
 
823
def main(argv):
 
824
    import sys
 
825
    import os
 
826
    from weavefile import write_weave, read_weave
 
827
    from bzrlib.progress import ProgressBar
 
828
 
 
829
    try:
 
830
        import psyco
 
831
        psyco.full()
 
832
    except ImportError:
 
833
        pass
 
834
 
 
835
    if len(argv) < 2:
 
836
        usage()
 
837
        return 0
 
838
 
 
839
    cmd = argv[1]
 
840
 
 
841
    def readit():
 
842
        return read_weave(file(argv[2], 'rb'))
 
843
    
 
844
    if cmd == 'help':
 
845
        usage()
 
846
    elif cmd == 'add':
 
847
        w = readit()
 
848
        # at the moment, based on everything in the file
 
849
        name = argv[3]
 
850
        parents = map(int, argv[4:])
 
851
        lines = sys.stdin.readlines()
 
852
        ver = w.add(name, parents, lines)
 
853
        write_weave(w, file(argv[2], 'wb'))
 
854
        print 'added version %r %d' % (name, ver)
 
855
    elif cmd == 'init':
 
856
        fn = argv[2]
 
857
        if os.path.exists(fn):
 
858
            raise IOError("file exists")
 
859
        w = Weave()
 
860
        write_weave(w, file(fn, 'wb'))
 
861
    elif cmd == 'get': # get one version
 
862
        w = readit()
 
863
        sys.stdout.writelines(w.get_iter(int(argv[3])))
 
864
        
 
865
    elif cmd == 'mash': # get composite
 
866
        w = readit()
 
867
        sys.stdout.writelines(w.mash_iter(map(int, argv[3:])))
 
868
 
 
869
    elif cmd == 'annotate':
 
870
        w = readit()
 
871
        # newline is added to all lines regardless; too hard to get
 
872
        # reasonable formatting otherwise
 
873
        lasto = None
 
874
        for origin, text in w.annotate(int(argv[3])):
 
875
            text = text.rstrip('\r\n')
 
876
            if origin == lasto:
 
877
                print '      | %s' % (text)
 
878
            else:
 
879
                print '%5d | %s' % (origin, text)
 
880
                lasto = origin
 
881
                
 
882
    elif cmd == 'toc':
 
883
        weave_toc(readit())
 
884
 
 
885
    elif cmd == 'stats':
 
886
        weave_stats(argv[2])
 
887
        
 
888
    elif cmd == 'check':
 
889
        w = readit()
 
890
        pb = ProgressBar()
 
891
        w.check(pb)
 
892
        pb.clear()
 
893
        print '%d versions ok' % w.numversions()
 
894
 
 
895
    elif cmd == 'inclusions':
 
896
        w = readit()
 
897
        print ' '.join(map(str, w.inclusions([int(argv[3])])))
 
898
 
 
899
    elif cmd == 'parents':
 
900
        w = readit()
 
901
        print ' '.join(map(str, w._parents[int(argv[3])]))
 
902
 
 
903
    elif cmd == 'plan-merge':
 
904
        w = readit()
 
905
        for state, line in w.plan_merge(int(argv[3]), int(argv[4])):
 
906
            if line:
 
907
                print '%14s | %s' % (state, line),
 
908
 
 
909
    elif cmd == 'merge':
 
910
        w = readit()
 
911
        p = w.plan_merge(int(argv[3]), int(argv[4]))
 
912
        sys.stdout.writelines(w.weave_merge(p))
 
913
            
 
914
    elif cmd == 'mash-merge':
 
915
        if len(argv) != 5:
 
916
            usage()
 
917
            return 1
 
918
 
 
919
        w = readit()
 
920
        v1, v2 = map(int, argv[3:5])
 
921
 
 
922
        basis = w.inclusions([v1]).intersection(w.inclusions([v2]))
 
923
 
 
924
        base_lines = list(w.mash_iter(basis))
 
925
        a_lines = list(w.get(v1))
 
926
        b_lines = list(w.get(v2))
 
927
 
 
928
        from bzrlib.merge3 import Merge3
 
929
        m3 = Merge3(base_lines, a_lines, b_lines)
 
930
 
 
931
        name_a = 'version %d' % v1
 
932
        name_b = 'version %d' % v2
 
933
        sys.stdout.writelines(m3.merge_lines(name_a=name_a, name_b=name_b))
 
934
    else:
 
935
        raise ValueError('unknown command %r' % cmd)
 
936
    
 
937
 
 
938
 
 
939
def profile_main(argv): 
 
940
    import tempfile, hotshot, hotshot.stats
 
941
 
 
942
    prof_f = tempfile.NamedTemporaryFile()
 
943
 
 
944
    prof = hotshot.Profile(prof_f.name)
 
945
 
 
946
    ret = prof.runcall(main, argv)
 
947
    prof.close()
 
948
 
 
949
    stats = hotshot.stats.load(prof_f.name)
 
950
    #stats.strip_dirs()
 
951
    stats.sort_stats('cumulative')
 
952
    ## XXX: Might like to write to stderr or the trace file instead but
 
953
    ## print_stats seems hardcoded to stdout
 
954
    stats.print_stats(20)
 
955
            
 
956
    return ret
 
957
 
 
958
 
 
959
if __name__ == '__main__':
 
960
    import sys
 
961
    if '--profile' in sys.argv:
 
962
        args = sys.argv[:]
 
963
        args.remove('--profile')
 
964
        sys.exit(profile_main(args))
 
965
    else:
 
966
        sys.exit(main(sys.argv))
 
967