~bzr-pqm/bzr/bzr.dev

Viewing changes to bzrlib/bundle/serializer/v4.py

Committer: John Arbash Meinel
Date: 2010-08-10 20:03:44 UTC
mto: This revision was merged to the branch mainline in revision 5376.
Revision ID: john@arbash-meinel.com-20100810200344-6muerwvkafqu7w47

Rework things a bit so the logic can be shared.

It turns out that some of the peak memory is actually during the inventory
to string to bundle translations. So re-use the refcount logic there.
This actually does show a decrease in peak memory.
Specifically 'cd bzr.dev; bzr send ../2.2' drops from 221MB peak to 156MB.

We don't speed anything up (16.5s both ways), but peak memory is quite
a bit better.

files modified:
bzrlib/bundle/serializer/v4.py

bzrlib/tests/test_versionedfile.py

bzrlib/versionedfile.py

Show diffs side-by-side

added added

removed removed

bzrlib/bundle/serializer/v4.py

# This program is free software; you can redistribute it and/or modify

# it under the terms of the GNU General Public License as published by

serializer,

trace,

ui,

versionedfile as _mod_versionedfile,

)

from bzrlib.bundle import bundle_data, serializer as bundle_serializer

from bzrlib import bencode

class _MPDiffInventoryGenerator(_mod_versionedfile._MPDiffGenerator):

"""Generate Inventory diffs serialized inventories."""

def __init__(self, repo, inventory_keys):

super(_MPDiffInventoryGenerator, self).__init__(repo.inventories,

inventory_keys)

self.repo = repo

self.sha1s = {}

def iter_diffs(self):

"""Compute the diffs one at a time."""

# This is instead of compute_diffs() since we guarantee our ordering of

# inventories, we don't have to do any buffering

self._find_needed_keys()

# We actually use a slightly different ordering. We grab all of the

# parents first, and then grab the ordered requests.

needed_ids = [k[-1] for k in self.present_parents]

needed_ids.extend([k[-1] for k in self.ordered_keys])

inv_to_str = self.repo._serializer.write_inventory_to_string

for inv in self.repo.iter_inventories(needed_ids):

revision_id = inv.revision_id

key = (revision_id,)

if key in self.present_parents:

# Not a key we will transmit, which is a shame, since because

# of that bundles don't work with stacked branches

parent_ids = None

else:

parent_ids = [k[-1] for k in self.parent_map[key]]

as_bytes = inv_to_str(inv)

self._process_one_record(key, (as_bytes,))

if parent_ids is None:

continue

diff = self.diffs.pop(key)

sha1 = osutils.sha_string(as_bytes)

yield revision_id, parent_ids, sha1, diff

class BundleWriter(object):

"""Writer for bundle-format files.

348

386

the other side.

349

387

"""

350

388

inventory_key_order = [(r,) for r in revision_order]

351

parent_map = self.repository.inventories.get_parent_map(

352

inventory_key_order)

353

missing_keys = set(inventory_key_order).difference(parent_map)

354

if missing_keys:

355

raise errors.RevisionNotPresent(list(missing_keys)[0],

356

self.repository.inventories)

357

inv_to_str = self.repository._serializer.write_inventory_to_string

358

# Make sure that we grab the parent texts first

359

just_parents = set()

360

map(just_parents.update, parent_map.itervalues())

361

just_parents.difference_update(parent_map)

362

# Ignore ghost parents

363

present_parents = self.repository.inventories.get_parent_map(

364

just_parents)

365

ghost_keys = just_parents.difference(present_parents)

366

needed_inventories = list(present_parents) + inventory_key_order

367

needed_inventories = [k[-1] for k in needed_inventories]

368

all_lines = {}

369

for inv in self.repository.iter_inventories(needed_inventories):

370

revision_id = inv.revision_id

371

key = (revision_id,)

372

as_bytes = inv_to_str(inv)

373

# The sha1 is validated as the xml/textual form, not as the

374

# form-in-the-repository

375

sha1 = osutils.sha_string(as_bytes)

376

as_lines = osutils.split_lines(as_bytes)

377

del as_bytes

378

all_lines[key] = as_lines

379

if key in just_parents:

380

# We don't transmit those entries

381

continue

382

# Create an mpdiff for this text, and add it to the output

383

parent_keys = parent_map[key]

384

# See the comment in VF.make_mpdiffs about how this effects

385

# ordering when there are ghosts present. I think we have a latent

386

# bug

387

parent_lines = [all_lines[p_key] for p_key in parent_keys

388

if p_key not in ghost_keys]

389

diff = multiparent.MultiParent.from_lines(

390

as_lines, parent_lines)

389

generator = _MPDiffInventoryGenerator(self.repository,

390

inventory_key_order)

391

for revision_id, parent_ids, sha1, diff in generator.iter_diffs():

391

392

text = ''.join(diff.to_patch())

392

parent_ids = [k[-1] for k in parent_keys]

393

self.bundle.add_multiparent_record(text, sha1, parent_ids,

394

'inventory', revision_id, None)

395

Older »